首页 > 资讯 > 后端开发 > Python >python爬取网站数据（含代码和讲解）

792

分享到

python爬取网站数据（含代码和讲解）

python javascript jupyter 2023-09-06 09:09:08 792人浏览安东尼

Python 官方文档：入门教程 => 点击学习

摘要

提示：本次爬取是利用xpath进行，按文章的顺序走就OK的；文章目录前言一、数据采集的准备 1.观察url规律 2.设定爬取位置和路径（xpath）二、数据采集 1. 建立存放数据的dataframe 2. 开始爬取 3. 把

提示：本次爬取是利用xpath进行，按文章的顺序走就OK的；

文章目录

前言

这次爬取的网站是房天下网站；

其中包含很多楼盘信息：https://newhouse.fang.com/house/s/b81-b91/

我在网站上进行了一步筛选，即选取北京及北京周边的房源，各位要是想爬取其他城市的房源信息也很简单，改一下url信息即可。

一、数据采集的准备

1.观察url规律

观察到北京及周边地区的房源有很多网页，翻几页就能发现url的规律：

网址就是：Https://newhouse.fang.com/house/s/ + b81-b9X + / ；其中X是页码

利用for循环遍历所有网页：

for i in range(33): # 每页20个小区，共648个小区    url = 'https://newhouse.fang.com/house/s/b81-b9' + str(i+1) + '/'

pip 安装fake_useragent库：

fake-useragent可以伪装生成headers请求头中的User Agent值,将爬虫伪装成浏览器正常操作。

!pip install fake_useragent

导入接下来会用到的包：

## 导包from lxml import etreeimport requestsfrom fake_useragent import UserAgentimport pandas as pdimport randomimport timeimport csv

设置请求参数：需要大家替换的有'cookie'和'referer'两项的值：

'cookie'：每次访问网站服务器的时候，服务器都会在本地设置cookie，表明访问者的身份。记得每次使用时，都要按照固定方法人工填入一个 cookie。

'referer'：请求参数，标识请求是从哪个页面过来的。

# 设置请求头参数：User-Agent, cookie, refererheaders = {    'User-Agent' : UserAgent().random,    'cookie' : "global_cookie=kxyzkfz09n3hnn14le9z39b9g3ol3wgikwn; city=www; city.sig=OGYSb1kOr8YVFH0wBEXukpoi1DeOqwvdseB7aTrJ-zE; __utmz=147393320.1664372701.10.4.utmcsr=mp.csdn.net|utmccn=(referral)|utmcmd=referral|utmcct=/mp_blog/creation/editor; csrfToken=KUlWFFT_pcJiH1yo3qPmzIc_; g_sourcepage=xf_lp^lb_pc'; __utmc=147393320; unique_cookie=U_bystp5cfehunxkbjybklkryt62fl8mfox4z*3; __utma=147393320.97036532.1606372168.1664431058.1664433514.14; __utmt_t0=1; __utmt_t1=1; __utmt_t2=1; __utmt_t3=1; __utmt_t4=1; __utmb=147393320.5.10.1664433514",    # 设置从何处跳转过来    'referer': 'https://newhouse.fang.com/house/s/b81-b91/'}

具体更改方法请见链接：

【腾讯文档】'cookie'和 'referer'的更改方法：
https://docs.qq.com/doc/DR2RzUkJTQXJ5ZGt6

只能走链接了，一直审核不过555~

2.设定爬取位置和路径（xpath）

因为爬取数据主要依托于'目标数据所在位置的确定’，所以一定先要搞清楚目标数据的位置（位于div的哪一块）；

先发送请求：

url = 'https://newhouse.fang.com/house/s/b81-b91/'# 首页网址URLpage_text = requests.get(url=url, headers=headers).text# 请求发送tree = etree.html(page_text)#数据解析

我想爬取的数据主要就是：楼盘名称、评论数、房屋面积、详细地址、所在区域、均价 5项数据。

代码已经贴在下面了，具体方法描述还是走个链接：

【腾讯文档】获取具体爬取位置的讲解
https://docs.qq.com/doc/DR3BFRW1lVGFRU0Na

# 小区名称name = [i.strip() for i in tree.xpath("//div[@class='nlcd_name']/a/text()")]print(name)print(len(name))# 评论数commentCounts = tree.xpath("//span[@class='value_num']/text()")print(commentCounts)print(len(commentCounts))# 房屋面积buildingarea = [i.strip() for i in tree.xpath("//div[@class='house_type clearfix']/text()")]print(buildingarea)print(len(buildingarea))# 详细地址detailAddress = tree.xpath("//div[@class='address']/a/@title")print(detailAddress)print(len(detailAddress))# 所在区district = [i.strip() for i in tree.xpath("//div[@class='address']//span[@class='sngrey']/text()")]print(district)print(len(district))# 均价num = tree.xpath("//div[@class='nlc_details']/div[@class='nhouse_price']/span/text() | //div[@class='nlc_details']/div[@class='nhouse_price']/i/text()")unit = tree.xpath("//div[@class='nlc_details']/div[@class='nhouse_price']/em/text()")price = [i+j for i,j in zip(num, unit)]print(price)print(len(price))

此时采集到的数据还包含着：[]方括号、—横杠、“平米”等符号或者单位，所以要对数据进行简单的split处理，把真正需要的数据提取出来：

# 评论数处理commentCounts = [int(i.split('(')[1].split('条')[0]) for i in commentCounts]print(commentCounts)# 详细地址处理detailAddress = [i.split(']')[1] for i in detailAddress]print(detailAddress)# 所在区字段处理district = [i.split('[')[1].split(']')[0] for i in district]print(district)# 房屋面积处理t = []for i in buildingarea:    if i != '/' and i != '':        t.append(i.split('—')[1].split('平米')[0])print(t)print(len(t))

二、数据采集

1. 建立存放数据的dataframe

df = pd.DataFrame(columns = ['小区名称', '详细地址', '所在区', '均价', '评论数'])df

2. 开始爬取

这里图方便就只爬取了前10页，因为后面的房源就经常少信息，要么没有面积信息，要么没有所在区域。

for k in range(10):     url = 'https://newhouse.fang.com/house/s/b81-b9' + str(k+1) + '/'     page_text = requests.get(url=url, headers=headers).text #请求发送    tree = etree.HTML(page_text) #数据解析    # 小区名称    name = [i.strip() for i in tree.xpath("//div[@class='nlcd_name']/a/text()")]    # 评论数    commentCounts = tree.xpath("//span[@class='value_num']/text()")    # 详细地址    detailAddress = tree.xpath("//div[@class='address']/a/@title")    # 所在区    district = [i.strip() for i in tree.xpath("//div[@class='address']//text()")]    # 均价    num = tree.xpath("//div[@class='nlc_details']/div[@class='nhouse_price']/span/text() | //div[@class='nlc_details']/div[@class='nhouse_price']/i/text()")    unit = tree.xpath("//div[@class='nlc_details']/div[@class='nhouse_price']/em/text()")    price = [i+j for i,j in zip(num, unit)]    #评论数处理    commentCounts = [int(i.split('(')[1].split('条')[0]) for i in commentCounts]    #详细地址处理    tmp1 = []    for i in detailAddress:        if ']' in i:            tmp1.append(i.split(']')[1])            continue        tmp1.append(i)    detailAddress = tmp1    #所在区处理    tmp2 = []    for i in district:        if ']' in i and '[' in i:            tmp2.append(i.split(']')[0].split('[')[1])    district = tmp2             dic = {'小区名称':name, '详细地址':detailAddress, '所在区':district, '均价':price, '评论数':commentCounts}    df2 = pd.DataFrame(dic)    df = pd.concat([df,df2], axis=0)    print('第{}页爬取成功, 共{}条数据'.fORMat(k+1, len(df2)))    print('全部数据爬取成功')

3. 把数据导出成csv表格

df.to_csv('北京小区数据信息.csv',index=None)

总结

说实话，本文使用的爬取方法简单而且信息正确，但是存在一些不足，比如面对楼盘的部分信息空缺时，就无法按照null来采集，而是会报错，所以我现有的解决方法就是在循环中人工去设置条件，跳过空缺信息。

我会继续优化这个方法的~

来源地址：https://blog.csdn.net/weixin_50706330/article/details/127115265

您可能感兴趣的文档:

点击免费下载>>软考高级考试备考技巧/历年真题/备考精华资料

--结束END--

本文标题: python爬取网站数据（含代码和讲解）

本文链接: https://www.lsjlt.com/news/396797.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑，方便收藏和打印～

下载Word文档

去做题

猜你喜欢

python爬取网站数据（含代码和讲解）

提示：本次爬取是利用xpath进行，按文章的顺序走就OK的；文章目录前言一、数据采集的准备 1.观察url规律 2.设定爬取位置和路径（xpath）二、数据采集 1. 建立存放数据的dataframe 2. 开始爬取 3. 把...

99+

2023-09-06

python javascript jupyter
爬取某网站写的python代码

代码如下：import requestsfrom pyquery import PyQueryimport reimport osi...

99+

2023-06-04
怎么用python爬取网站数据

要用Python爬取网站数据，可以使用Python的爬虫库来实现。下面是一个简单的示例，使用`requests`库来获取网页内容，使...

99+

2023-09-07

python
使用Python进行网站数据爬取和视频处理

导语在互联网时代，我们经常需要从网站上获取数据并进行分析或处理。有时候，我们还需要对视频数据进行一些操作，比如剪辑、转码、合成等。Python是一门非常适合做数据分析和视频处理的编程语言，它有很多...

99+

2023-09-04

python 网络爬虫 requests 爬虫代理视频处理 moviepy 数据爬取
python爬虫爬取赶集网数据

一.创建项目 scrapy startproject putu 二.创建spider文件 scrapy genspider patubole patubole.com 三.利用chrome浏览器分析出房价和标题的两个字段的x...

99+

2023-01-31

爬虫数据赶集网
使用 Python 爬取网页数据

1. 使用 urllib.request 获取网页 urllib 是 Python 內建的 HTTP 库, 使用 urllib 可以只需要很简单的步骤就能高效采集数据; 配合 Beautiful 等 HTML 解析库, 可以编写出用于采集...

99+

2023-01-31

网页数据 Python
Node.js实现爬取网站图片的示例代码

目录涉及知识点cheerio简介什么是cheerio 安装cheerio准备工作核心代码示例截图涉及知识点开发一个小爬虫，涉及的知识点如下所示： https模块，主要是用户获取网络...

99+

2024-04-02
Python 爬虫：如何用 BeautifulSoup 爬取网页数据

在网络时代，数据是最宝贵的资源之一。而爬虫技术就是一种获取数据的重要手段。Python 作为一门高效、易学、易用的编程语言，自然成为了爬虫技术的首选语言之一。而 BeautifulSoup 则是 Py...

99+

2023-10-23

python 爬虫 beautifulsoup
如何用python爬取网页数据

要用Python爬取网页数据，可以使用Python的一些库和模块，例如requests、BeautifulSoup和Scrapy等。...

99+

2023-10-12

python
Python网络爬虫之获取网络数据

目录使用 Python 获取网络数据编写爬虫代码使用 IP 代理总结Python 语言的优势在于其功能强大，可以用于网络数据采集、数据分析等各种应用场景。本篇文章将介绍如何使用 Py...

99+

2023-05-18

Python获取网络数据 Python爬取数据
python使用XPath解析数据爬取起点小说网数据

目录1. xpath 的介绍优点：安装lxml库XML的树形结构：选取节点的表达式举例：2. 爬取起点小说网在浏览器中获取书名和作者测试使用xpath获取起点小说网的数据1. xpa...

99+

2024-04-02
Python爬虫之使用BeautifulSoup和Requests抓取网页数据

目录一、简介二、网络爬虫的基本概念三、Beautiful Soup 和 Requests 库简介四、选择一个目标网站五、使用 Requests 获取网页内容六、使用 Beautifu...

99+

2023-05-14

Python爬虫使用BeautifulSoup和Requests Python爬虫抓取网页数据
使用Python和Scrapy实现抓取网站数据

目录一、安装Scrapy二、创建一个Scrapy项目三、定义一个Scrapy爬虫四、运行Scrapy爬虫五、保存抓取的数据六、遵守网站的robots.txt七、设置下载延迟八、使用中...

99+

2023-05-12

Python Scrapy抓取网站数据 Python Scrapy抓取数据 Python Scrapy
Python爬取网页的所有内外链的代码

目录项目介绍代码大纲网站详情代码详情队列内链外链请求头项目介绍采用广度优先搜索方法获取一个网站上的所有外链。首先，我们进入一个网页，获取网页的所有内链和外链，再分别进入内链中，获...

99+

2024-04-02
python scrapy拆解查看Spider类爬取优设网极细讲解

目录拆解 scrapy.Spiderscrapy.Spider 属性值scrapy.Spider 实例方法与类方法爬取优设网Field 字段的两个参数：拆解 scrapy.Spide...

99+

2024-04-02
利用Python网络爬虫爬取各大音乐评论的代码

目录 python爬虫--爬取网易云音乐评论1.简易看出评论是动态加载的，一定是ajax方式。3.去查看post请求所上传的数据4.首先去查看请求是经过那些js到达服务器的...

99+

2024-04-02
Python实战使用Selenium爬取网页数据

目录一. 什么是Selenium？二. 安装Selenium三. 爬取网页数据四. 模拟用户交互五. 处理动态加载内容1. 显式等待2. 隐式等待六. 小结一. 什么是Seleniu...

99+

2023-05-18

Python Selenium爬取网页数据 Python Selenium
Python网络爬虫之怎么获取网络数据

使用 Python 获取网络数据使用 Python 语言从互联网上获取数据是一项非常常见的任务。Python 有一个名为 requests 的库，它是一个 Python 的 HTTP 客户端库，用于向 Web 服务器发起 HTTP 请求。我...

99+

2023-05-14

Python
R语言怎样抓取某网站JSON数据的代码

R语言怎样抓取某网站JSON数据的代码，针对这个问题，这篇文章详细介绍了相对应的分析和解答，希望可以帮助更多想解决这个问题的小伙伴找到更简单易行的方法。R语言抓取某网站JSON数据的代码如下：library(RCurl)library(bi...

99+

2023-06-02
python爬取网页数据到保存到csv

目录任务需求：爬取网址：网址页面：代码实现结果：代码实现：完整代码：总结任务需求：爬取一个网址，将网址的数据保存到csv中。爬取网址： https://www.iqi...

99+

2024-04-02