Python爬虫之自动爬取某车之家各车销售数据

2024-04-02 19:04:59 869人浏览泡泡鱼

Python 官方文档：入门教程 => 点击学习

摘要

目录一、目标网页分析二、数据请求三、数据解析四、数据存储五、采集结果预览一、目标网页分析目标网站是某车之家关于品牌汽车车型的口碑模块相关数据，比如我们演示的案例奥迪Q5L的口碑页面

一、目标网页分析

目标网站是某车之家关于品牌汽车车型的口碑模块相关数据，比如我们演示的案例奥迪Q5L的口碑页面如下：

https://k.autohome.com.cn/4851/#pvareaid=3311678

为了演示方式，大家可以直接打开上面这个网址，然后拖到全部口碑位置，找到我们本次采集需要的字段如下图所示：

采集字段

我们进行翻页发现，浏览器网址发生了变化，大家可以对下如下几页的网址找出规律：


Https://k.autohome.com.cn/4851/index_2.html#dataList
https://k.autohome.com.cn/4851/index_3.html#dataList
https://k.autohome.com.cn/4851/index_4.html#dataList

对于上面写网址，我们发现可变部分是车型（如4851）以及页码（如2,3,4），于是我们可以构建url参数如下：


# typeid是车型，page是页码
url = f'https://k.autohome.com.cn/{typeid}/index_{page}.html#dataList'

二、数据请求

通过简单的测试，发现似乎不存在反爬，那就简单了。

我们先引入需要用到的库：


import requests
import pandas as pd
import html
from lxml import etree
import re

然后创建一个数据请求的函数备用：


# 获取网页数据（传递参数 车型typeid和页码数）
def get_html(typeid,page):
    # 组合出请求地址
    url = f'https://k.autohome.com.cn/{typeid}/index_{page}.html#dataList'
    # 请求数据（因为没有反爬，这里没有设置请求头和其他参数）
    r = requests.get(url)
    # 请求的网页数据中有网页特殊字符，通过以下方法进行解析
    r = html.unescape(r.text)
    # 返回网页数据
    return r

请求来的数据就是网页html文本，我们接下来采用re解析出一共多少页码，再用xpath进行采集字段的解析。

三、数据解析

由于需要进行翻页，这里我们可以先通过re正则表达式获取总页码。通过查看网页数据，我们发现总页码可以通过如下方式获取：


try:
    pages = int(re.findall(r'共(\d+)页',r)[0])
# 如果请求不到页数，则表示该车型下没有口碑数据
except :
    print(f'{name} 没有数据！')
    continue

总页码采集

关于待采集字段信息，我们发现都在节点div[@class="mouthcon-cont-left"]里，可以先定位这个节点数据，然后再进行逐一解析。

待采集字段信息所在节点

此外，我们发现每一页最多15个车型口碑数据，因此我们每页可以定位15个待采集信息数据集，遍历采集代码：


divs = r_html.xpath('.//div[@class="mouthcon-cont-left"]')
# 遍历每个全部的车辆销售信息
for div in divs:
    # 找到车辆销售信息所在的地方
    mt = div.xpath('./div[@class="choose-con mt-10"]')[0]
    # 找到所需字段
    infos = mt.xpath('./dl[@class="choose-dl"]')
    # 设置空的字典，用于存储单个车辆信息
    item = {}
    # 遍历车辆信息字段
    for info in infos:
        key = info.xpath('.//dt/text()')[0]
        # 当字段为购买车型时，进行拆分为车型和配置
        if key == '购买车型':
            item[key] = info.xpath('.//dd/a/text()')[0]
            item['购买配置'] = info.xpath('.//span[@class="font-arial"]/text()')[0]
        # 当字段为购车经销商时，需要获取经销商的id参数，再调用api获取其真实经销商信息（这里有坑）
        elif key == '购车经销商':
            # 经销商id参数
            经销商id = info.xpath('.//dd/a/@data-val')[0] +','+ info.xpath('.//dd/a/@data-evalid')[0]
            # 组合经销商信息请求地址
            jxs_url = base_jxs_url+经销商id+'|'
            # 请求数据（为JSON格式）
            data = requests.get(jxs_url)
            j = data.json()
            # 获取经销商名称
            item[key] = j['result']['List'][0]['CompanySimple']
        else:
            # 其他字段时，替换转义字符和空格等为空
            item[key] = info.xpath('.//dd/text()')[0].replace("\r\n","").replace(' ','').replace('\xa0','')

四、数据存储

由于没啥反爬，这里直接将采集到的数据转化为pandas.DataFrame类型，然后存储为xlsx文件即可。


df = pd.DataFrame(items)
df = df[['购买车型', '购买配置', '购买地点', '购车经销商', '购买时间', '裸车购买价']]
# 数据存储在本地
df.to_excel(r'车辆销售信息.xlsx',index=None,sheet_name='data')

五、采集结果预览

整个爬虫过程比较简单，采集下来的数据也比较规范，以本文案例奥迪Q5L示例如下：

到此这篇关于python爬虫之自动采集某车之家各车销售数据的文章就介绍到这了,更多相关python采集汽车销售数据内容请搜索编程网以前的文章或继续浏览下面的相关文章希望大家以后多多支持编程网！

您可能感兴趣的文档:

点击免费下载>>软考高级考试备考技巧/历年真题/备考精华资料

--结束END--

本文标题: Python爬虫之自动爬取某车之家各车销售数据

本文链接: https://www.lsjlt.com/news/127448.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑，方便收藏和打印～

下载Word文档

去做题

猜你喜欢

Python爬虫之自动爬取某车之家各车销售数据

目录一、目标网页分析二、数据请求三、数据解析四、数据存储五、采集结果预览一、目标网页分析目标网站是某车之家关于品牌汽车车型的口碑模块相关数据，比如我们演示的案例奥迪Q5L的口碑页面...

99+

2024-04-02
Python爬虫中自动爬取某车之家各车销售数据的示例分析

这篇文章主要介绍Python爬虫中自动爬取某车之家各车销售数据的示例分析，文中介绍的非常详细，具有一定的参考价值，感兴趣的小伙伴们一定要看完！一、目标网页分析目标网站是某车之家关于品牌汽车车型的口碑模块相关数据，比如我们演示的案例奥迪Q5L...

99+

2023-06-15
Python爬虫之爬取某文库文档数据

目录一、基本开发环境二、相关模块的使用三、目标网页分析四、整体思路五、爬虫代码实现六、写入文档一、基本开发环境 Python 3.6 Pycharm 二、相关模块的使用 impo...

99+

2024-04-02
Python如何爬取汽车之家新闻信息

这篇文章给大家介绍Python如何爬取汽车之家新闻信息，内容非常详细，感兴趣的小伙伴们可以参考借鉴，希望对大家能有所帮助。为大家介绍一个爬取汽车之家的新闻标题,链接.以及相关图片并下载的Python项目案例,用基本的BeautifulSou...

99+

2023-06-02
Python爬虫之爬取我爱我家二手房数据

目录一、问题说明二、解决方法三、完整代码四、数据展示一、问题说明首先，运行下述代码，复现问题： # -*-coding:utf-8-*- import re import r...

99+

2024-04-02
python爬虫之爬取谷歌趋势数据

一、前言爬取谷歌趋势数据需要科学上网~ 二、思路谷歌数据的爬取很简单，就是代码有点长。主要分下面几个就行了爬取的三个界面返回的都是json数据。主要获取对应的tok...

99+

2024-04-02
Python爬虫之如何爬取我爱我家二手房数据

这篇文章给大家分享的是有关Python爬虫之如何爬取我爱我家二手房数据的内容。小编觉得挺实用的，因此分享给大家做个参考，一起跟随小编过来看看吧。一、问题说明首先，运行下述代码，复现问题：# -*-coding:utf-8-*-im...

99+

2023-06-15
Python爬虫之爬取2020女团选秀数据

目录一、先看结果1.1创造营2020撑腰榜前三甲1.2青春有你2当前官方榜前三甲1.3Face++男女视角颜值最高1.3.1女性视角颜值第一名1.3.2男性视角颜值第一名1.4小姐姐...

99+

2024-04-02
python中如何爬取汽车之家网站上的图片

这篇文章主要介绍了python中如何爬取汽车之家网站上的图片，具有一定借鉴价值，感兴趣的朋友可以参考下，希望大家阅读完这篇文章之后大有收获，下面让小编带着大家一起了解一下。python的数据类型有哪些python的数据类型：1. 数字类型，...

99+

2023-06-14
Python爬虫爬取豆瓣电影之数据提取值

工具：Python 3.6.5、PyCharm开发工具、Windows 10 操作系统、谷歌浏览器目的：爬取豆瓣电影排行榜中电影的title、链接地址、图片、评价人数、评分等网址：https://movie.douban.com/ch...

99+

2023-01-30

爬虫豆瓣数据
Python爬虫爬取百度翻译之数据提取方

工具：Python 3.6.5、PyCharm开发工具、Windows 10 操作系统说明：本例为实现输入中文翻译为英文的小程序，适合Python爬虫的初学者一起学习，感兴趣的可以做英文翻译为中文的功能，如单词查询功能等。推荐使用谷歌浏...

99+

2023-01-30

爬虫数据 Python
python爬虫之教你如何爬取地理数据

目录一、shapely模块1、shapely2、point→Point类3、导入所需模块4、Point（1）、创建point,主要有以下三种方法（2）、point常用属性（3）、po...

99+

2024-04-02
Python网络爬虫之获取网络数据

目录使用 Python 获取网络数据编写爬虫代码使用 IP 代理总结Python 语言的优势在于其功能强大，可以用于网络数据采集、数据分析等各种应用场景。本篇文章将介绍如何使用 Py...

99+

2023-05-18

Python获取网络数据 Python爬取数据
Python爬虫入门案例之爬取二手房源数据

本文重点系统分析网页性质结构化的数据解析 csv数据保存环境介绍 python 3.8 pycharm 专业版 >>&...

99+

2024-04-02
Python爬虫之爬取2020女团选秀数据的示例分析

这篇文章主要介绍Python爬虫之爬取2020女团选秀数据的示例分析，文中介绍的非常详细，具有一定的参考价值，感兴趣的小伙伴们一定要看完！一、先看结果1.1创造营2020撑腰榜前三甲创造营2020撑腰榜前三名分别是希林娜依·高、陈卓璇、...

99+

2023-06-14
Python网络爬虫之怎么获取网络数据

使用 Python 获取网络数据使用 Python 语言从互联网上获取数据是一项非常常见的任务。Python 有一个名为 requests 的库，它是一个 Python 的 HTTP 客户端库，用于向 Web 服务器发起 HTTP 请求。我...

99+

2023-05-14

Python
Python网络爬虫之如何获取网络数据

本篇内容介绍了“Python网络爬虫之如何获取网络数据”的有关知识，在实际案例的操作过程中，不少人都会遇到这样的困境，接下来就让小编带领大家学习一下如何处理这些情况吧！希望大家仔细阅读，能够学有所成！使用 Python 获取网络数据使用 P...

99+

2023-07-06
python爬虫之Appium爬取手机App数据及模拟用户手势

目录Appium模拟操作屏幕滑动屏幕点击屏幕拖动屏幕拖拽文本输入动作链实战：爬取微博首页信息 Appium 在前文的讲解中，我们学会了如何安装Appium，以及一些基础获取App元素...

99+

2024-04-02
Python爬虫之使用BeautifulSoup和Requests抓取网页数据

目录一、简介二、网络爬虫的基本概念三、Beautiful Soup 和 Requests 库简介四、选择一个目标网站五、使用 Requests 获取网页内容六、使用 Beautifu...

99+

2023-05-14

Python爬虫使用BeautifulSoup和Requests Python爬虫抓取网页数据
Python爬虫实战之爬取京东商品数据并实实现数据可视化

一、开发工具 Python版本：3.6.4 相关模块： DecryptLogin模块； argparse模块；以及一些python自带的模块。二、环境搭建安装Python并添加...

99+

2024-04-02