首页 > 资讯 > 后端开发 > Python >Python爬取当网书籍数据并数据可视化展示

694

分享到

Python爬取当网书籍数据并数据可视化展示

2024-04-02 19:04:59 694人浏览薄情痞子

Python 官方文档：入门教程 => 点击学习

摘要

目录一、开发环境二、模块使用三、爬虫代码实现步骤1. 导入所需模块2. 发送请求, 用python代码模拟浏览器发送请求3. 解析数据, 提取我们想要数据内容4. 多页爬取5. 保存

一、开发环境

Python 3.8
PyCharm 2021.2 专业版

二、模块使用

csv 模块把爬取下来的数据保存表格里面的内置模块
requests >>> pip install requests 数据请求模块
parsel >>> pip install parsel 数据解析模块 CSS选择器去提取数据

三、爬虫代码实现步骤

导入所需模块
发送请求, 用python代码模拟浏览器发送请求
解析数据, 提取我们想要数据内容
多页爬取
保存数据, 保存csv表格里面

1. 导入所需模块

import requests  # 数据请求模块 第三方模块 需要 pip install requests
import parsel  # 数据解析模块 第三方模块 需要 pip install parsel
import csv  # 保存csv表格数据模块 内置模块
import time  # 时间模块

2. 发送请求, 用python代码模拟浏览器发送请求

headers 请求头作用就是python代码伪装成浏览器对于服务器发送请求

User-Agent 用户代理浏览器的基本身份标识

标题中无效的返回字符或前导空格：User-Agent 不要留有空格

通过requests模块里面get请求方法，对于url地址发送请求，并且携带上面header请求头参数，最后用response变量接收返回数据

url = f'Http://bang.dangdang.com/books/bestsellers/01.00.00.00.00.00-24hours-0-0-1-{page}'
# headers 请求头 字典数据类型
headers = {
    'User-Agent': 'Mozilla/5.0 (windows NT 10.0; Win64; x64) AppleWEBKit/537.36 (Khtml, like Gecko) Chrome/96.0.4664.45 Safari/537.36'
}
response = requests.get(url=url, headers=headers)

3. 解析数据, 提取我们想要数据内容

selector = parsel.Selector(response.text)  # 对于获取到的html字符串数据进行转换 selector 对象
# css选择器 就是根据标签属性提取相应的数据
lis = selector.css('ul.bang_list li')
for li in lis:
    # .name 定位 class类名name标签 a 标签 attr() 属性选择器 取a标签里面title属性 get() 获取数据
    title = li.css('.name a::attr(title)').get()  # 书名
    # 获取标签里面文本数据 直接text
    comment = li.css('.star a::text').get().replace('条评论', '')  # 评论
    recommend = li.css('.star .tuijian::text').get().replace('推荐', '')  # 推荐
    author = li.css('.publisher_info a:nth-child(1)::attr(title)').get()  # 作者
    publish = li.css('div:nth-child(6) a::text').get()  # 出版社
    price_n = li.css('.price .price_n::text').get()  # 售价
    price_r = li.css('.price .price_r::text').get()  # 原价
    price_s = li.css('.price .price_s::text').get()  # 折扣
    price_e = li.css('.price .price_e .price_n::text').get()  # 电子书价格
    href = li.css('.name a::attr(href)').get()  # 详情页
    dit = {
        '书名': title,
        '评论数': comment,
        '推荐量': recommend,
        '作者': author,
        '出版社': publish,
        '售价': price_n,
        '原价': price_r,
        '折扣': price_s,
        '电子书价格': price_e,
        '详情页': href,
    }
    csv_writer.writerow(dit)  # 数据保存到csv
    print(title, comment, recommend, author, publish, price_n, price_r, price_s, price_e, href, sep=' | ')

4. 多页爬取

for page in range(1, 26):
    # 字符串格式化方法
    print(f'正在爬取第{page}页的数据内容')
    time.sleep(1.5)
    url = f'http://bang.dangdang.com/books/bestsellers/01.00.00.00.00.00-24hours-0-0-1-{page}'

5. 保存数据, 保存csv表格里面

# 创建打开一个文件 进行保存
f = open('当当图书.csv', mode='a', encoding='utf-8', newline='')
csv_writer = csv.DictWriter(f, fieldnames=[
    '书名',
    '评论数',
    '推荐量',
    '作者',
    '出版社',
    '售价',
    '原价',
    '折扣',
    '电子书价格',
    '详情页',
])
csv_writer.writeheader()  # 写入表头

运行代码，效果如下图：

四、数据可视化

1.导入所需模块

import pandas as pd
from pyecharts.charts import *
from pyecharts.globals import ThemeType#设定主题
from pyecharts.commons.utils import jsCode
import pyecharts.options as opts

2.导入数据

df = pd.read_csv('书籍信息.csv', encoding='utf-8', engine='python')
df.head()

3.可视化

书籍总体价格区间:

pie1 = (
    Pie(init_opts=opts.InitOpts(theme='dark',width='1000px',height='600px'))
    
    .add('', datas_pair_1, radius=['35%', '60%'])
    .set_series_opts(label_opts=opts.LabelOpts(fORMatter="{b}:{d}%"))
    .set_global_opts(
        title_opts=opts.TitleOpts(
            title="当当网书籍\n\n原价价格区间", 
            pos_left='center', 
            pos_top='center',
            title_textstyle_opts=opts.TextStyleOpts(
                color='#F0F8FF', 
                font_size=20, 
                font_weight='bold'
            ),
        )
    )
    .set_colors(['#EF9050', '#3B7BA9', '#6FB27C', '#FFAF34', '#D8BFD8', '#00BFFF', '#7FFFAA'])
)
pie1.render_notebook()

pie1 = (
    Pie(init_opts=opts.InitOpts(theme='dark',width='1000px',height='600px'))
    
    .add('', datas_pair_2, radius=['35%', '60%'])
    .set_series_opts(label_opts=opts.LabelOpts(formatter="{b}:{d}%"))
    .set_global_opts(
        title_opts=opts.TitleOpts(
            title="当当网书籍\n\n售价价格区间", 
            pos_left='center', 
            pos_top='center',
            title_textstyle_opts=opts.TextStyleOpts(
                color='#F0F8FF', 
                font_size=20, 
                font_weight='bold'
            ),
        )
    )
    .set_colors(['#EF9050', '#3B7BA9', '#6FB27C', '#FFAF34', '#D8BFD8', '#00BFFF', '#7FFFAA'])
)
pie1.render_notebook()

各个出版社书籍数量柱状图:

bar=(
    Bar(init_opts=opts.InitOpts(height='500px',width='1000px',theme='dark'))
    .add_xaxis(counts.index.tolist())
    .add_yaxis(
        '出版社书籍数量',
        counts.values.tolist(),
        label_opts=opts.LabelOpts(is_show=True,position='top'),
        itemstyle_opts=opts.ItemStyleOpts(
            color=JsCode("""new echarts.graphic.LinearGradient(
            0, 0, 0, 1,[{offset: 0,color: 'rgb(255,99,71)'}, {offset: 1,color: 'rgb(32,178,170)'}])
            """
            )
        )
    )
    .set_global_opts(
        title_opts=opts.TitleOpts(
            title='各个出版社书籍数量柱状图'),
            xaxis_opts=opts.AxisOpts(name='书籍名称',
            type_='cateGory',                                           
            axislabel_opts=opts.LabelOpts(rotate=90),
        ),
        yaxis_opts=opts.AxisOpts(
            name='数量',
            min_=0,
            max_=29.0,
            splitline_opts=opts.SplitLineOpts(is_show=True,linestyle_opts=opts.LineStyleOpts(type_='dash'))
        ),
        tooltip_opts=opts.TooltipOpts(trigger='axis',axis_pointer_type='cross')
    )

    .set_series_opts(
        markline_opts=opts.MarkLineOpts(
            data=[
                opts.MarkLineItem(type_='average',name='均值'),
                opts.MarkLineItem(type_='max',name='最大值'),
                opts.MarkLineItem(type_='min',name='最小值'),
            ]
        )
    )
)
bar.render_notebook()

书籍评论数最高Top20:

bar=(
    Bar(init_opts=opts.InitOpts(height='500px',width='1000px',theme='dark'))
    .add_xaxis(price_top.index.tolist())
    .add_yaxis(
        '书籍单价',
        price_top.values.tolist(),
        label_opts=opts.LabelOpts(is_show=True,position='top'),
        itemstyle_opts=opts.ItemStyleOpts(
            color=JsCode("""new echarts.graphic.LinearGradient(
            0, 0, 0, 1,[{offset: 0,color: 'rgb(255,99,71)'}, {offset: 1,color: 'rgb(32,178,170)'}])
            """
            )
        )
    )
    .set_global_opts(
        title_opts=opts.TitleOpts(
            title='单价最高的书籍详细柱状图'),
            xaxis_opts=opts.AxisOpts(name='书籍名称',
            type_='category',                                           
            axislabel_opts=opts.LabelOpts(rotate=90),
        ),
        yaxis_opts=opts.AxisOpts(
            name='单价/元',
            min_=0,
            max_=1080.0,
            splitline_opts=opts.SplitLineOpts(is_show=True,linestyle_opts=opts.LineStyleOpts(type_='dash'))
        ),
        tooltip_opts=opts.TooltipOpts(trigger='axis',axis_pointer_type='cross')
    )

    .set_series_opts(
        markline_opts=opts.MarkLineOpts(
            data=[
                opts.MarkLineItem(type_='average',name='均值'),
                opts.MarkLineItem(type_='max',name='最大值'),
                opts.MarkLineItem(type_='min',name='最小值'),
            ]
        )
    )
)
bar.render_notebook()

到此这篇关于Python爬取当网书籍数据并数据可视化展示的文章就介绍到这了,更多相关Python爬取当网书籍数据内容请搜索编程网以前的文章或继续浏览下面的相关文章希望大家以后多多支持编程网！

您可能感兴趣的文档:

点击免费下载>>软考高级考试备考技巧/历年真题/备考精华资料

--结束END--

本文标题: Python爬取当网书籍数据并数据可视化展示

本文链接: https://www.lsjlt.com/news/161457.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑，方便收藏和打印～

下载Word文档

去做题

猜你喜欢

Python爬取当网书籍数据并数据可视化展示

目录一、开发环境二、模块使用三、爬虫代码实现步骤1. 导入所需模块2. 发送请求, 用python代码模拟浏览器发送请求3. 解析数据, 提取我们想要数据内容4. 多页爬取5. 保存...

99+

2024-04-02
Python怎么爬取当网书籍数据并数据可视化展示

Python怎么爬取当网书籍数据并数据可视化展示，很多新手对此不是很清楚，为了帮助大家解决这个难题，下面小编将为大家详细讲解，有这方面需求的人可以来学习下，希望你能有所收获。一、开发环境Python 3.8Pycharm 2021.2 专业...

99+

2023-06-22
Python爬虫爬取疫情数据并可视化展示

目录知识点开发环境爬虫完整代码导入模块分析网站发送请求获取数据解析数据保存数据数据可视化导入模块读取数据死亡率与治愈率各地区确诊人数与死亡人数情况知识点爬虫基本流程 ...

99+

2024-04-02
Python爬取股票交易数据并可视化展示

目录开发环境第三方模块爬虫案例的步骤爬虫程序全部代码分析网页导入模块请求数据解析数据翻页保存数据实现效果数据可视化全部代码导入数据读取数据可视化图表效果展示开发环境解释器版本: ...

99+

2024-04-02
Python怎么爬取股票交易数据并可视化展示

本篇内容介绍了“Python怎么爬取股票交易数据并可视化展示”的有关知识，在实际案例的操作过程中，不少人都会遇到这样的困境，接下来就让小编带领大家学习一下如何处理这些情况吧！希望大家仔细阅读，能够学有所成！开发环境解释器版本: python...

99+

2023-06-21
python爬取全国火锅店数量并可视化展示

目录一、网页分析二、获取数据1.导入相关库2.请求数据3.保存到excel三、数据可视化1.全国火锅店数量分布2.四川火锅店数量分布四、小结前言：今天教大家如何获取全国不同城市火锅...

99+

2024-04-02
用Python爬取电影数据并可视化分析

🤵‍♂️ 个人主页：@艾派森的个人主页 ✍🏻作者简介：Python学习者 🐋 希望大家多多支持，我们一起进步！😄 如果文章对你有帮助的话，欢迎评论 💬...

99+

2023-08-31

python 信息可视化开发语言
Python实现爬取天气数据并可视化分析

目录核心功能设计实现步骤爬取数据风向风级雷达图温湿度相关性分析24小时内每小时时段降水24小时累计降雨量今天我们分享一个小案例，获取天气数据，进行可视化分析，带你直观了解天气情况！ ...

99+

2024-04-02
Python中如何爬取京东商品数据并实现数据可视化

这篇文章将为大家详细讲解有关Python中如何爬取京东商品数据并实现数据可视化，小编觉得挺实用的，因此分享给大家做个参考，希望大家阅读完这篇文章后可以有所收获。一、开发工具Python版本：3.6.4相关模块：DecryptLogin模块；...

99+

2023-06-15
Python爬虫实战之爬取京东商品数据并实实现数据可视化

一、开发工具 Python版本：3.6.4 相关模块： DecryptLogin模块； argparse模块；以及一些python自带的模块。二、环境搭建安装Python并添加...

99+

2024-04-02
Python爬取天气数据及可视化分析

正文大家好，我是Python人工智能技术天气预报我们每天都会关注，我们可以根据未来的天气增减衣物、安排出行，每天的气温、风速风向、相对湿度、空气质量等成为关注的焦点。得到温湿度度变化曲线、空气质量图、风向雷达图等结果，为获得未来天气信息提...

99+

2023-05-14

Python 天气数据可视化分析
Python怎么实现爬取天气数据并可视化分析

本篇内容主要讲解“Python怎么实现爬取天气数据并可视化分析”，感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷，实用性强。下面就让小编来带大家学习“Python怎么实现爬取天气数据并可视化分析”吧!核心功能设计总体来说，我们需要先对中...

99+

2023-06-29
python数据可视化 – 利用Bokeh和Bottle.py在网页上展示你的数据

目录1. 文章重点和项目介绍2. 数据集研究和图表准备2.1 导入数据集2.2 绘制图表图表1：2019年上海，北京，深圳三地的每天AQI变化曲线图表2：2019年上海，北京，深圳三...

99+

2024-04-02
手把手教你Python抓取数据并可视化

目录前言一、数据抓取篇1.简单的构建反爬措施2.解析数据3.完整代码二、数据可视化篇1.数据可视化库选用2.案例实战(1).柱状图Bar(2).地图Map(3).饼图Pie(4).折...

99+

2024-04-02
python采集天气数据并做数据可视化

目录前言知识点:开发环境:采集天气数据代码数据分析代码尾语前言最近天气好像有了点小脾气，总是在万分晴朗得时候耍点小性子~ 阴会天，下上一会的雨~提醒我们时刻记得带伞哦，不然会被雨淋...

99+

2024-04-02
Python 数据可视化

Python 数据可视化 Python提供了多个用于数据可视化的工具和库。其中最常用的包括： 1. Matplotlib：Matplotlib 是一个用于绘制二维图形的 Python 库。它提供了广泛的绘图选项，可以帮助您创建线图、散点图...

99+

2023-09-17

python 数据分析 matplotlib
python数据可视化

1、安装matplotlib 在 cmd 中键入 python -m pip install matplotlib，系统将自动安装，需要等一段时间，待完成后 python -m pip list ，显示敲黑板划重点：一定通过 cdm ...

99+

2023-01-30

数据 python
python爬虫+数据可视化项目（关注、

python爬虫+数据可视化项目（一）爬取目标：中国天气网（起始url：http://www.weather.com.cn/textFC/hb.shtml#）爬取内容：全国实时温度最低的十个城市气温排行榜使用工具：requests库...

99+

2023-01-30

爬虫项目数据
Python实战实现爬取天气数据并完成可视化分析详解

目录实现需求：爬虫代码:实现需求：从网上(随便一个网址，我爬的网址会在评论区告诉大家，dddd）获取某一年的历史天气信息，包括每天最高气温、最低气温、天气状况、风向等，完成以下功能...

99+

2024-04-02
数据分析：麦当劳食品营养数据探索并可视化

系列文章目录作者：i阿极作者简介：Python领域新星作者、多项比赛获奖者：博主个人首页 😊😊😊如果觉得文章不错或能帮助到你学习，可以点赞...

99+

2023-09-11

数据分析 python 数据挖掘开发语言