Python 官方文档:入门教程 => 点击学习
目录数据采集发送请求解析数据获取内容获取内容总结数据采集 我们上一篇介绍了,如何采集电影评论,看看这个电影好不好看.今天,我们来采集大家熟悉的百度贴吧的排行榜。 发送请求 我们首先确
我们上一篇介绍了,如何采集电影评论,看看这个电影好不好看.今天,我们来采集大家熟悉的百度贴吧的排行榜。
我们首先确定我们的目标网址,对我们需要获取的数据。
我们要把每一行的数据获取下来,我们接下来用到开发者工具。我们看评论是在什么位置。是不是在网页源代码中。接下来,我们发送请求,获取网页源代码。
我们这里可以看到,我们选择一个CSS选择器,取匹配我们要的数据。
url = f'https://tieba.baidu.com/sign/index?kw=%B0%B2%C7%EC%CA%A6%B7%B6%D1%A7%D4%BA&type=2&pn=1' # 158
res = requests.get(url)
代码使用requests
库的get()
函数来请求这个URL,并将结果存储在变量res
中。
我们还可以获取其他信息,比如讲,排名,学校,人数,签到率之类的。
selector = parsel.Selector(res.text)
info_lists = selector.css('.j_rank_row')
这段代码首先导入了parsel
库,然后使用Selector
函数创建了一个选择器对象selector
。res.text
是从响应中获取的文本内容,css()
方法用于选择CSS样式,.j_rank_row
是CSS选择器,用于选择所有.j_rank_row
类的元素。
接下来,代码使用selector.css()
方法选择所有.j_rank_row
类的元素,并将它们存储在info_lists
变量中。这些元素将成为BeautifulSoup对象soup
的一部分。
上面我们已经得到了.j_rank_row
位置,接下来,就是把内容获取下来。我们看看代码怎么写。
for info_list in info_lists:
rank = info_list.css('.rank_index div::text').get()
# print(rank)
name = info_list.css('.forum_name a::text').get()
signin = info_list.css('.forum_sign_num::text').get()
theTotalNumberOf = info_list.css('.forum_member::text').get()
signInToRate = info_list.css('.forum_sign_rate::text').get()
这段代码将遍历info_lists
列表中的每个元素,并使用CSS选择器选择.rank_index
类的元素,然后使用.rank_index div::text
选择.rank_index
类的文本内容,使用.forum_name a::text
选择.forum_name
类的文本内容,使用.forum_sign_num::text
选择.forum_sign_num
类的文本内容,使用.forum_member::text
选择.forum_member
类的文本内容,使用.forum_sign_rate::text
选择.forum_sign_rate
类的文本内容。
然后,代码将获取每个元素的.rank_index div::text
文本内容,并使用.get()
方法获取其中的.rank_index
值。接下来,代码将获取每个元素的.forum_name a::text
文本内容,并使用.get()
方法获取其中的.forum_name
值。接下来,代码将获取每个元素的.forum_sign_num::text
文本内容,并使用.get()
方法获取其中的.forum_sign_num
值。接下来,代码将获取每个元素的.forum_member::text
文本内容,并使用.get()
方法获取其中的.forum_member
值。最后,代码将获取每个元素的.forum_sign_rate::text
文本内容,并使用.get()
方法获取其中的.forum_sign_rate
值。
我们把获取到的内容保存成csv文件,之前我们说了很多遍,直接上代码。
f = open('百度贴吧排行榜.csv', mode='a', encoding='utf-8_sig', newline='')
csv_writer = csv.DictWriter(f, fieldnames=['排名', '学校', '签到人数', '吧会员数', '签到率'])
csv_writer.writeheader()
这段代码打开了一个名为“百度贴吧排行榜.csv”的文件,并创建了一个名为“csv_writer”的CSV写入器对象。mode='a'
参数指定文件以追加模式打开,encoding='utf-8_sig'
参数指定文件编码为UTF-8-sig,newline=''
参数指定行尾符为空字符串。
然后,csv_writer.writeheader()
方法被调用,它将写入CSV文件的标题行。这些标题行包括排名、学校、签到人数、吧会员数和签到率。
我们把上面的数据保存成字典的格式,写入csv文件。
dit = {
'排名': rank,
'学校': name,
'签到人数': signin,
'吧会员数': theTotalNumberOf,
'签到率': signInToRate,
}
# print(dit)
csv_writer.writerow(dit)
这段代码创建了一个字典dit
,其中包含了每个元素的值。然后,它使用csv_writer.writerow()
方法将字典写入CSV文件中。
具体来说,这段代码首先打开了一个名为“百度贴吧排行榜.csv”的文件,并创建了一个名为“csv_writer”的CSV写入器对象。然后,它使用csv_writer.writeheader()
方法写入了CSV文件的标题行,包括排名、学校、签到人数、吧会员数和签到率。最后,它使用csv_writer.writerow()
方法将字典dit
写入CSV文件中。
本文介绍了如何采集百度贴吧排行榜的数据。首先,我们确定了目标网址并使用开发者工具获取了网页源代码。然后,我们选择了一个CSS选择器并使用requests.get()
函数请求了目标网址。接下来,我们使用parsel
库解析了网页源代码,并使用Selector
函数选择了所有包含评论的.j_rank_row
类的元素。最后,我们使用info_lists
变量存储了每个元素的值,并使用print()
函数将数据打印出来。
以上就是python采集度贴吧排行榜实战示例的详细内容,更多关于Python采集度贴吧排行榜的资料请关注编程网其它相关文章!
--结束END--
本文标题: Python采集某度贴吧排行榜实战示例
本文链接: https://www.lsjlt.com/news/210067.html(转载时请注明来源链接)
有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341
下载Word文档到电脑,方便收藏和打印~
2024-03-01
2024-03-01
2024-03-01
2024-02-29
2024-02-29
2024-02-29
2024-02-29
2024-02-29
2024-02-29
2024-02-29
回答
回答
回答
回答
回答
回答
回答
回答
回答
回答
一口价域名售卖能注册吗?域名是网站的标识,简短且易于记忆,为在线用户提供了访问我们网站的简单路径。一口价是在域名交易中一种常见的模式,而这种通常是针对已经被注册的域名转售给其他人的一种方式。
一口价域名买卖的过程通常包括以下几个步骤:
1.寻找:买家需要在域名售卖平台上找到心仪的一口价域名。平台通常会为每个可售的域名提供详细的描述,包括价格、年龄、流
443px" 443px) https://www.west.cn/docs/wp-content/uploads/2024/04/SEO图片294.jpg https://www.west.cn/docs/wp-content/uploads/2024/04/SEO图片294-768x413.jpg 域名售卖 域名一口价售卖 游戏音频 赋值/切片 框架优势 评估指南 项目规模
0