Python采集某度贴吧排行榜实战示例

Python采集度贴吧排行榜 Python采集贴吧 2023-05-16 15:05:08 485人浏览薄情痞子

Python 官方文档：入门教程 => 点击学习

摘要

目录数据采集发送请求解析数据获取内容获取内容总结数据采集我们上一篇介绍了，如何采集电影评论，看看这个电影好不好看.今天，我们来采集大家熟悉的百度贴吧的排行榜。发送请求我们首先确

数据采集

我们上一篇介绍了，如何采集电影评论，看看这个电影好不好看.今天，我们来采集大家熟悉的百度贴吧的排行榜。

发送请求

我们首先确定我们的目标网址，对我们需要获取的数据。

我们要把每一行的数据获取下来，我们接下来用到开发者工具。我们看评论是在什么位置。是不是在网页源代码中。接下来，我们发送请求，获取网页源代码。

我们这里可以看到，我们选择一个CSS选择器，取匹配我们要的数据。

url = f'https://tieba.baidu.com/sign/index?kw=%B0%B2%C7%EC%CA%A6%B7%B6%D1%A7%D4%BA&amp;type=2&amp;pn=1'  # 158
res = requests.get(url)

代码使用requests库的get()函数来请求这个URL，并将结果存储在变量res中。

解析数据

我们还可以获取其他信息，比如讲，排名，学校，人数，签到率之类的。

selector = parsel.Selector(res.text)
info_lists = selector.css('.j_rank_row')

这段代码首先导入了parsel库，然后使用Selector函数创建了一个选择器对象selector。res.text是从响应中获取的文本内容，css()方法用于选择CSS样式，.j_rank_row是CSS选择器，用于选择所有.j_rank_row类的元素。

接下来，代码使用selector.css()方法选择所有.j_rank_row类的元素，并将它们存储在info_lists变量中。这些元素将成为BeautifulSoup对象soup的一部分。

获取内容

上面我们已经得到了.j_rank_row位置，接下来，就是把内容获取下来。我们看看代码怎么写。

for info_list in info_lists:
    rank = info_list.css('.rank_index div::text').get()
    # print(rank)
    name = info_list.css('.forum_name a::text').get()
    signin = info_list.css('.forum_sign_num::text').get()
    theTotalNumberOf = info_list.css('.forum_member::text').get()
    signInToRate = info_list.css('.forum_sign_rate::text').get()

这段代码将遍历info_lists列表中的每个元素，并使用CSS选择器选择.rank_index类的元素，然后使用.rank_index div::text选择.rank_index类的文本内容，使用.forum_name a::text选择.forum_name类的文本内容，使用.forum_sign_num::text选择.forum_sign_num类的文本内容，使用.forum_member::text选择.forum_member类的文本内容，使用.forum_sign_rate::text选择.forum_sign_rate类的文本内容。

然后，代码将获取每个元素的.rank_index div::text文本内容，并使用.get()方法获取其中的.rank_index值。接下来，代码将获取每个元素的.forum_name a::text文本内容，并使用.get()方法获取其中的.forum_name值。接下来，代码将获取每个元素的.forum_sign_num::text文本内容，并使用.get()方法获取其中的.forum_sign_num值。接下来，代码将获取每个元素的.forum_member::text文本内容，并使用.get()方法获取其中的.forum_member值。最后，代码将获取每个元素的.forum_sign_rate::text文本内容，并使用.get()方法获取其中的.forum_sign_rate值。

获取内容

我们把获取到的内容保存成csv文件，之前我们说了很多遍，直接上代码。

f = open('百度贴吧排行榜.csv', mode='a', encoding='utf-8_sig', newline='')
csv_writer = csv.DictWriter(f, fieldnames=['排名', '学校', '签到人数', '吧会员数', '签到率'])
csv_writer.writeheader()

这段代码打开了一个名为“百度贴吧排行榜.csv”的文件，并创建了一个名为“csv_writer”的CSV写入器对象。mode='a'参数指定文件以追加模式打开，encoding='utf-8_sig'参数指定文件编码为UTF-8-sig，newline=''参数指定行尾符为空字符串。

然后，csv_writer.writeheader()方法被调用，它将写入CSV文件的标题行。这些标题行包括排名、学校、签到人数、吧会员数和签到率。

我们把上面的数据保存成字典的格式，写入csv文件。

dit = {
    '排名': rank,
    '学校': name,
    '签到人数': signin,
    '吧会员数': theTotalNumberOf,
    '签到率': signInToRate,
}
# print(dit)
csv_writer.writerow(dit)

这段代码创建了一个字典dit，其中包含了每个元素的值。然后，它使用csv_writer.writerow()方法将字典写入CSV文件中。

具体来说，这段代码首先打开了一个名为“百度贴吧排行榜.csv”的文件，并创建了一个名为“csv_writer”的CSV写入器对象。然后，它使用csv_writer.writeheader()方法写入了CSV文件的标题行，包括排名、学校、签到人数、吧会员数和签到率。最后，它使用csv_writer.writerow()方法将字典dit写入CSV文件中。

总结

本文介绍了如何采集百度贴吧排行榜的数据。首先，我们确定了目标网址并使用开发者工具获取了网页源代码。然后，我们选择了一个CSS选择器并使用requests.get()函数请求了目标网址。接下来，我们使用parsel库解析了网页源代码，并使用Selector函数选择了所有包含评论的.j_rank_row类的元素。最后，我们使用info_lists变量存储了每个元素的值，并使用print()函数将数据打印出来。

以上就是python采集度贴吧排行榜实战示例的详细内容，更多关于Python采集度贴吧排行榜的资料请关注编程网其它相关文章！

您可能感兴趣的文档:

点击免费下载>>软考高级考试备考技巧/历年真题/备考精华资料

--结束END--

本文标题: Python采集某度贴吧排行榜实战示例

本文链接: https://www.lsjlt.com/news/210067.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑，方便收藏和打印～

下载Word文档

去做题

猜你喜欢

Python采集某度贴吧排行榜实战示例

目录数据采集发送请求解析数据获取内容获取内容总结数据采集我们上一篇介绍了，如何采集电影评论，看看这个电影好不好看.今天，我们来采集大家熟悉的百度贴吧的排行榜。发送请求我们首先确...

99+

2023-05-16

Python采集度贴吧排行榜 Python采集贴吧
Python采集C站热榜数据实战示例

目录前言功能实现解析数据保存数据总结前言大家好，我们今天来爬取c站的热搜榜，把其文章名称，链接和作者获取下来，我们保存到本地，我们通过测试，发现其实很简单，我们只要简单获取数据就可...

99+

2023-05-19

Python采集C站热榜数据 Python 数据采集
Python采集电影评论实战示例

目录数据采集发送请求解析数据获取内容输出内容总结数据采集我们上一篇介绍了，如何采集王者皮肤，买不起皮肤，当个桌面壁纸挺好的。我们今天来学习如何采集电影评论，看看这个电影好不好看。 ...

99+

2023-05-16

Python采集电影评论 Python采集
Python采集王者最低战力信息实战示例

目录🥩数据采集🍖确定网址请求URL：请求方式：参数：请求示例返回示例🍖获取数据🍖解析数据保存数据🥩数据采集 🍖确定网址王者新赛季马上就要开始了，大家都开始冲榜了，准备拿一个小省标，...

99+

2023-05-16

Python采集王者战力信息 Python 采集
Python采集C站高校信息实战示例

目录前言功能实现内容获取总结前言大家好，我们今天来爬取c站的高校名单，把其高校名单，成员和内容数获取下来，不过，我们发现这个网站比我们平时多了一个验证，下面看看我是怎么解决的。功...

99+

2023-05-19

Python采集C站高校信息 Python 信息采集
Python采集某评论区内容的实现示例

目录前言发送请求解析数据总结前言我们知道在这个互联网时代，评论已经在我们的生活到处可见，评论区里面的信息是一个非常有趣和有争议的地方。我们今天，就来获取某技术平台的评论，和大家分享...

99+

2023-05-17

Python采集评论 Python采集内容
Python采集王者皮肤图片实战示例

目录数据采集确定网址获取英雄编号获取皮肤名称获取皮肤保存数据总结数据采集我们上一篇介绍了，如何采集王者最低战力，本文就来给大家介绍如何采集王者皮肤，买不起皮肤，当个桌面壁纸挺好的。...

99+

2023-05-16

Python采集王者皮肤图片 Python采集
Python实战使用XPath采集数据示例解析

目录lxml发送请求明确需求:解析数据保存数据lxml lxml 是 Python 的一个库，用于解析和呈现 XML 和 HTML。它支持多种内置和第三方 XML 和 HTML 标记...

99+

2023-05-16

Python XPath采集数据 Python XPath
Python采集大学教务系统成绩单实战示例

目录前言采集数据发送请求获取数据保存数据总结前言采集教务系统成绩单是一个非常有意义的项目。在现代教育中，教务系统已经成为了学校管理和教学工作的重要组成部分。然而，由于各种原因，教务...

99+

2023-05-16

Python采集教务系统成绩单 Python 采集成绩