iis服务器助手广告广告
返回顶部
首页 > 资讯 > 后端开发 > Python >用Python爬取指定关键词的微博
  • 519
分享到

用Python爬取指定关键词的微博

2024-04-02 19:04:59 519人浏览 独家记忆

Python 官方文档:入门教程 => 点击学习

摘要

目录一、分析页面二、数据采集1、发起请求2、提取数据三、小结前几天学校一个老师在做微博的舆情分析找我帮她搞一个用关键字爬取微博的爬虫,再加上最近很多读者问志斌微博爬虫的问题,今天志斌

前几天学校一个老师在做微博的舆情分析找我帮她搞一个用关键字爬取微博的爬虫,再加上最近很多读者问志斌微博爬虫的问题,今天志斌来跟大家分享一下。

一、分析页面

我们此次选择的是从移动端来对微博进行爬取。移动端的反爬就是信息校验反爬虫的cookie反爬虫,所以我们首先要登陆获取cookie

登陆过后我们就可以获取到自己的cookie了,然后我们来观察用户是如何搜索微博内容的。

平时我们都是在这个地方输入关键字,来进行搜索微博。

我通过在开发者模式下对这个页面观察发现,它每次对关键字发起请求后,就会返回一个XHR响应。

我们现在已经找到数据真实存在的页面了,那就可以进行爬虫的常规操作了。

二、数据采集

在上面我们已经找到了数据存储的真实网页,现在我们只需对该网页发起请求,然后提取数据即可。

1、发起请求

通过对请求头进行观察,我们不难构造出请求代码。

代码如下:


key = input("请输入爬取关键字:")
for page in range(1,10):
   params = (
       ('containerid', f'100103type=1&q={key}'),
       ('page_type', 'searchall'),
       ('page', str(page)),
   )

   response = requests.get('https://m.weibo.cn/api/container/getIndex', headers=headers, params=params)



2、提取数据

从上面我们观察发现这个数据可以转化成字典来进行爬取,但是经过我实际测试发现,用正则来提取是最为简单方便的,所以这里展示的是正则提取的方式,有兴趣的读者可以尝试用字典方式来提取数据。

代码如下:


r = response.text
title = re.findall('"page_title":"(.*?)"',r)
comments_count = re.findall('"comments_count":(.*?),',r)
attitudes_count = re.findall('"attitudes_count":(.*?),',r)
for i in range(len(title)):
   print(eval(f"'{title[i]}'"),comments_count[i],attitudes_count[i])

在这里有一个小问题要注意,微博的标题是用Unicode编码的,如果直接爬取存储,将存储的是Unicode编码,在这里要感谢大佬—小明哥的帮助,志斌在网上搜了好多解决方法都没有成功,最后小明哥一个简单的函数就给解决了,实在是佩服!

解决方案:用eval()来输出标题,就可以将Unicode转换成汉字了。

三、小结

1. 本文详细介绍了如何用python指定关键字爬取微博,有兴趣的读者可以尝试自己动手练习一下。

2. 本文仅供读者学习使用,不做其他用途!

到此这篇关于用Python爬取指定关键词的微博的文章就介绍到这了,更多相关Python爬取指定关键词的微博内容请搜索编程网以前的文章或继续浏览下面的相关文章希望大家以后多多支持编程网!

--结束END--

本文标题: 用Python爬取指定关键词的微博

本文链接: https://www.lsjlt.com/news/157417.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑,方便收藏和打印~

下载Word文档
猜你喜欢
  • 用Python爬取指定关键词的微博
    目录一、分析页面二、数据采集1、发起请求2、提取数据三、小结前几天学校一个老师在做微博的舆情分析找我帮她搞一个用关键字爬取微博的爬虫,再加上最近很多读者问志斌微博爬虫的问题,今天志斌...
    99+
    2024-04-02
  • 使用Python怎么爬取微博热搜关键词
    今天就跟大家聊聊有关使用Python怎么爬取微博热搜关键词,可能很多人都不太了解,为了让大家更加了解,小编给大家总结了以下内容,希望大家根据这篇文章可以有所收获。python是什么意思Python是一种跨平台的、具有解释性、编译性、互动性和...
    99+
    2023-06-14
  • Python实现提取Excel指定关键词的行数据
    目录一、需求描述1.图片展示2.提取方法二、python提取第二版1.图片展示2.提取方法一、需求描述 1.图片展示 从如图所示的数据中提取含有"python"、...
    99+
    2024-04-02
  • Python定时爬取微博热搜示例介绍
    目录前言页面分析采集代码设置定时运行前言 相信大家在工作无聊时,总想掏出手机,看看微博热搜在讨论什么有趣的话题,但又不方便直接打开微博浏览,今天就和大家分享一个有趣的小爬虫,定时采集...
    99+
    2024-04-02
  • 使用python怎么爬取微博评论
    今天就跟大家聊聊有关使用python怎么爬取微博评论,可能很多人都不太了解,为了让大家更加了解,小编给大家总结了以下内容,希望大家根据这篇文章可以有所收获。python主要应用领域有哪些1、云计算,典型应用OpenStack。2、WEB前端...
    99+
    2023-06-14
  • 【微博爬虫教程&实例】基于requests、mysql爬取大数据量博主关键字下博文及评论
    【关键词:手把手教程、反爬、数据库、python爬虫、微博关键词爬虫、较大数据量、数据简单过滤】 本教程适合微博相关爬虫需求者阅读,完整实例源码将放置在文末github链接中。 该实例针对微博的反爬措施进行优化,可实现较大数据量的数据爬取需...
    99+
    2023-10-21
    爬虫 python 数据挖掘 mysql 数据库
  • Python Requests爬虫中如何求取关键词页面
    小编给大家分享一下Python Requests爬虫中如何求取关键词页面,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获,下面让我们一起去了解一下吧!需求:爬取搜狗首页的页面数据imp...
    99+
    2023-06-29
  • 使用python怎么爬取微博的热搜数据
    使用python怎么爬取微博的热搜数据?很多新手对此不是很清楚,为了帮助大家解决这个难题,下面小编将为大家详细讲解,有这方面需求的人可以来学习下,希望你能有所收获。主要用到requests和bf4两个库将获得的信息保存在d://hotsea...
    99+
    2023-06-06
  • 六个步骤学会使用Python爬虫爬取数据(爬虫爬取微博实战)
    用python的爬虫爬取数据真的很简单,只要掌握这六步就好,也不复杂。以前还以为爬虫很难,结果一上手,从初学到把东西爬下来,一个小时都不到就解决了。 Python爬虫六部曲 第一步:安装request...
    99+
    2023-09-10
    python 爬虫 python入门 python爬虫 python爬虫爬取网页数据
  • Python使用TextRank算法提取关键词
    目录1.PageRank简介2.PageRank实现3.TextRank原理4.TextRank提取关键词TextRank 是一种基于 PageRank 的算法,常用于关键词提取和文...
    99+
    2022-12-09
    Python TextRank提取关键词 Python TextRank Python提取关键词
  • Python 详解爬取并统计CSDN全站热榜标题关键词词频流程
    前言 最近在出差,发现住的宾馆居然有小强。所以出差无聊之际,写了点爬虫的代码玩玩,问就是应景。本篇文章主要是爬取CSDN全站综合热榜的100个标题,然后分词提取关键词,统计一下词频。...
    99+
    2024-04-02
  • 怎么使用Python定时抓取微博评论
    这篇文章主要讲解了“怎么使用Python定时抓取微博评论”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“怎么使用Python定时抓取微博评论”吧!【Part1—&m...
    99+
    2023-06-15
  • Python评论提取关键词制作精美词云的方法
    今天小编给大家分享一下Python评论提取关键词制作精美词云的方法的相关知识点,内容详细,逻辑清晰,相信大部分人都还太了解这方面的知识,所以分享这篇文章给大家参考一下,希望大家阅读完这篇文章后有所收获,下面我们一起来了解一下吧。 ...
    99+
    2023-06-29
  • python爬虫爬取指定内容的解决方法
    目录解决办法:实列代码如下:(以我们学校为例)爬取一些网站下指定的内容,一般来说可以用xpath来直接从网页上来获取,但是当我们获取的内容不唯一的时候我们无法选择,我们所需要的、所指...
    99+
    2024-04-02
  • Python中的yield关键词怎么用
    这篇文章将为大家详细讲解有关Python中的yield关键词怎么用,小编觉得挺实用的,因此分享给大家做个参考,希望大家阅读完这篇文章后可以有所收获。要理解yield的作用,你必须理解生成器是什么。在理解生成器之前,必须先理解迭代器。迭代器当...
    99+
    2023-06-22
  • Python中怎么使用Jieba进行词频统计与关键词提取
    这篇文章主要介绍“Python中怎么使用Jieba进行词频统计与关键词提取”的相关知识,小编通过实际案例向大家展示操作过程,操作方法简单快捷,实用性强,希望这篇“Python中怎么使用Jieba进行词频统计与关键词提取”文章能帮助大家解决问...
    99+
    2023-07-05
  • python怎么爬取网页内的指定内容
    要爬取网页内的指定内容,可以使用Python中的第三方库,如BeautifulSoup和Requests。首先,需要安装这两个库。使...
    99+
    2023-08-08
    python
  • 基于Python和TFIDF实现提取文本中的关键词
    目录前言词频逆文档频率(TFIDF)Term FrequencyInverse Document FrequencyTFIDFPython 中的 TFIDFPython 库准备准备数...
    99+
    2024-04-02
  • python 利用百度API进行淘宝评论关键词提取
    目录1、创建相关新应用2、获取Access Token3、分析评论并进行观点抽取4、运行结果利用百度API自然语言处理技术中的评论观点抽取方面,对淘宝购物的评论进行分析,把关键词进行...
    99+
    2024-04-02
  • python中如何使用get获取指定键值
    小编给大家分享一下python中如何使用get获取指定键值,希望大家阅读完这篇文章之后都有所收获,下面让我们一起去探讨吧!1、说明在使用字典时,很少直接输出它的内容。一般需要根据指定的键得到相应的结果。Python 中推荐的方法是使用字典对...
    99+
    2023-06-15
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作