iis服务器助手广告广告
返回顶部
首页 > 资讯 > 后端开发 > Python >python爬虫如何爬取微博粉丝数据
  • 103
分享到

python爬虫如何爬取微博粉丝数据

2023-06-14 16:06:38 103人浏览 泡泡鱼

Python 官方文档:入门教程 => 点击学习

摘要

这篇文章主要介绍了python爬虫如何爬取微博粉丝数据,具有一定借鉴价值,感兴趣的朋友可以参考下,希望大家阅读完这篇文章之后大有收获,下面让小编带着大家一起了解一下。python可以做什么Python是一种编程语言,内置了许多有效的工具,P

这篇文章主要介绍了python爬虫如何爬取微博粉丝数据,具有一定借鉴价值,感兴趣的朋友可以参考下,希望大家阅读完这篇文章之后大有收获,下面让小编带着大家一起了解一下。

python可以做什么

Python是一种编程语言,内置了许多有效的工具,Python几乎无所不能,该语言通俗易懂、容易入门、功能强大,在许多领域中都有广泛的应用,例如最热门的大数据分析人工智能web开发等。

现如今,微博成为大多数追星族追星的渠道之一,通过超话打卡,微博打榜,控评等维护自己的偶像。而品牌方会根据明星粉丝流量选取合适的代言人或活动嘉宾,微博中的粉丝数据可以很简单的分析出。

1、自动登录微博

driver = WEBdriver.Chrome(driver_path)  # 打开Chromedriver.maximize_window()  # 将浏览器最大化显示driver.get(weibo_url)  # 打开微博登陆页面time.sleep(10)  # 加载页面需要时间,延时10s来确保页面已加载完毕time.sleep(2)driver.find_element_by_name("username").send_keys(username)  ##输入用户名driver.find_element_by_name("passWord").send_keys(password)  ##输入密码driver.find_element_by_xpath("//a[@node-type='submitBtn']").click()  ##点击登录按钮

2、获取cookie并将返回的Cookies数组转成微博需要的cookie格式

for x in range(len(cookies)):value = cookies[x]['name'] + "=" + cookies[x]['value'] + ";"cookie = cookie + valuereturn cookie

3、利用BeautifulSoup库进行解析html操作

headers['Cookie']=cookieinfo_response = requests.get('Http://s.weibo.com/user/' + names_list[x], headers)  # 微博搜索的页面urlinfo_soup = BeautifulSoup(info_response.text, 'HTML5lib')  # 利用BeautifulSoup库进行解析html操作info_soup = get_html(info_soup, "pl_user_feedList")

4、找到用户信息的html

weibo_info = info_soup.find_all('a', attrs={"class": "W_linkb", "target": "_blank"})  # 找到用户信息的htmlid = weibo_info[0].get('href')  # 用户idsubs_size = weibo_info[0].string  # 关注数fans_size = weibo_info[1].string  # 粉丝数contents_size = weibo_info[2].string  # 微博数subs_size = int(re.sub("\D", "", subs_size))  # 只取出数字,其它的不管用,下面同理fans_size = int(re.sub("\D", "", fans_size))contents_size = int(re.sub("\D", "", contents_size))id = int(re.findall('\d+', id)[0])return [subs_size, fans_size, contents_size, id]

5、进行爬取

if __name__ == '__main__':    browser = WeiboFansCrawler()    browser.login()    # 明星列表    star_lists = ['谢娜', '何炅', 'Angelababy', '杨幂', '陈坤', '赵薇', '姚晨',             '林心如', '邓超', '郭德纲', '林志颖', '张小娴', '赵丽颖', '范冰冰',             '贾乃亮', '唐嫣', '胡歌', '陈乔恩', '王力宏', '黄晓明', '文章同學',             '刘亦菲', '陈羽凡']    # 若本地缓存中没有,则在线获取ID    if len(browser.stars) == 0:        for star in star_lists:            browser.get_page_id(star)    # ID缓存到本地    with open('star_id.txt', 'w') as f:        f.write(str(browser.stars))    # 获取主页数据    browser.get_fan_cnt()    browser.get_home_data()    browser.dump_home_data()    # 获取并缓存数据到本地    loop = 0    while True:        browser.get_fans_data()        browser.dump_fans_data()        loop += 1        if loop > 20:            break        time.sleep(100)        print(browser.stars)    print(browser.data)

感谢你能够认真阅读完这篇文章,希望小编分享的“python爬虫如何爬取微博粉丝数据”这篇文章对大家有帮助,同时也希望大家多多支持编程网,关注编程网Python频道,更多相关知识等着你来学习!

--结束END--

本文标题: python爬虫如何爬取微博粉丝数据

本文链接: https://www.lsjlt.com/news/272681.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑,方便收藏和打印~

下载Word文档
猜你喜欢
  • python爬虫如何爬取微博粉丝数据
    这篇文章主要介绍了python爬虫如何爬取微博粉丝数据,具有一定借鉴价值,感兴趣的朋友可以参考下,希望大家阅读完这篇文章之后大有收获,下面让小编带着大家一起了解一下。python可以做什么Python是一种编程语言,内置了许多有效的工具,P...
    99+
    2023-06-14
  • 六个步骤学会使用Python爬虫爬取数据(爬虫爬取微博实战)
    用python的爬虫爬取数据真的很简单,只要掌握这六步就好,也不复杂。以前还以为爬虫很难,结果一上手,从初学到把东西爬下来,一个小时都不到就解决了。 Python爬虫六部曲 第一步:安装request...
    99+
    2023-09-10
    python 爬虫 python入门 python爬虫 python爬虫爬取网页数据
  • python爬虫怎么爬取微博热搜
    这篇文章主要介绍python爬虫怎么爬取微博热搜,文中介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们一定要看完!python有哪些常用库python常用的库:1.requesuts;2.scrapy;3.pillow;4.twiste...
    99+
    2023-06-14
  • Python爬虫如何采集微博视频数据
    这篇文章主要介绍了Python爬虫如何采集微博视频数据,具有一定借鉴价值,感兴趣的朋友可以参考下,希望大家阅读完这篇文章之后大有收获,下面让小编带着大家一起了解一下。知识点requestspprint开发环境版 本:python 3.8-编...
    99+
    2023-06-21
  • Python爬虫采集微博视频数据
    目录前言知识点开发环境爬虫原理 案例实现前言 随时随地发现新鲜事!微博带你欣赏世界上每一个精彩瞬间,了解每一个幕后故事。分享你想表达的,让全世界都能听到你的心声!今天我们通过pyth...
    99+
    2024-04-02
  • python实战之Scrapy框架爬虫爬取微博热搜
    前言:大概一年前写的,前段时间跑了下,发现还能用,就分享出来了供大家学习,代码的很多细节不太记得了,也尽力做了优化。 因为毕竟是微博,反爬技术手段还是很周全的,怎么绕过反爬的话要在这...
    99+
    2024-04-02
  • 用python爬虫爬取CSDN博主信息
    一、项目介绍 爬取网址:CSDN首页的Python、Java、前端、架构以及数据库栏目。简单分析其各自的URL不难发现,都是https://www.csdn.net/nav/+栏目名...
    99+
    2024-04-02
  • Python爬虫抓取csdn博客
            昨天晚上为了下载保存某位csdn大牛的全部博文,写了一个爬虫来自动抓取文章并保存到txt文本,当然也可以 保存到html网页中。这样就可以不用Ctrl+C 和Ctrl+V了,非常方便,抓取别的网站也是大同小异。为了解析抓取的...
    99+
    2023-01-31
    爬虫 博客 Python
  • Python 爬虫爬取微信文章
     爬取公众号文章搜狗微信平台为入口 地址:http://weixin.sogou.com/ --------------------------------------------------------------搜索关键词“科技”对比网...
    99+
    2023-01-31
    爬虫 文章 Python
  • python爬虫如何获取数据
    使用Python爬虫获取数据可以分为以下几个步骤: 导入所需的库:通常情况下,使用requests库发送HTTP请求获取网页内容,...
    99+
    2024-02-29
    python
  • Python 爬虫:如何用 BeautifulSoup 爬取网页数据
    在网络时代,数据是最宝贵的资源之一。而爬虫技术就是一种获取数据的重要手段。Python 作为一门高效、易学、易用的编程语言,自然成为了爬虫技术的首选语言之一。而 BeautifulSoup 则是 Py...
    99+
    2023-10-23
    python 爬虫 beautifulsoup
  • python爬取微博图片数据存到Mysq
    本人长期出售超大量微博数据、旅游网站评论数据,并提供各种指定数据爬取服务,Message to YuboonaZhang@Yahoo.com。同时欢迎加入社交媒体数据交流群:99918768   由于硬件等各种原因需要把大概170多万2t...
    99+
    2023-01-31
    数据 图片 python
  • python爬虫爬取赶集网数据
    一.创建项目 scrapy startproject putu 二.创建spider文件 scrapy genspider  patubole patubole.com   三.利用chrome浏览器分析出房价和标题的两个字段的x...
    99+
    2023-01-31
    爬虫 数据 赶集网
  • Python爬虫:导出爬取的数据
    最近想要做一个爬虫,检验一下Python的学习成果,眼看快要做完了,又遇到了问题,想要导出爬取的数据就必须要了解CSV文件,可是!下面是我百度出的结果! 啊啊啊啊! 作为一枚小白,我看不懂百科在说些什么?!后来,在网上发现一个讲爬...
    99+
    2023-01-31
    爬虫 数据 Python
  • python爬虫之教你如何爬取地理数据
    目录一、shapely模块1、shapely2、point→Point类3、导入所需模块4、Point(1)、创建point,主要有以下三种方法(2)、point常用属性(3)、po...
    99+
    2024-04-02
  • Python爬虫入门教程——爬取自己的博
    互联网时代里,网络爬虫是一种高效地信息采集利器,可以快速准确地获取网上的各种数据资源。本文使用Python库requests、Beautiful Soup爬取CSDN博客的相关信息,利用txt文件转存。 基础知识: 网络爬虫是一种高效地信...
    99+
    2023-01-30
    自己的 爬虫 入门教程
  • python爬虫如何爬取图片
    这篇文章主要介绍了python爬虫如何爬取图片,具有一定借鉴价值,感兴趣的朋友可以参考下,希望大家阅读完这篇文章之后大有收获,下面让小编带着大家一起了解一下。python可以做什么Python是一种编程语言,内置了许多有效的工具,Pytho...
    99+
    2023-06-14
  • 新浪微博爬虫设计(Python版)
    最近手头上有一个项目,是关于新浪微博的,其中有一环要做新浪微博的爬虫。虽然之前把《Python学习手册》和《Python核心编程》都囫囵吞栆地通读完了,不过真正到做项目的时候还是什么都不会。于是在网上找了大量的资料。关于获取新浪微博的内容,...
    99+
    2023-01-31
    爬虫 新浪 Python
  • 怎么使用python爬虫爬取数据
    本篇内容介绍了“怎么使用python爬虫爬取数据”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!python爬出六部曲第一步:安装reques...
    99+
    2023-06-29
  • python如何爬取微博热搜存入Mysql
    这篇文章主要介绍了python如何爬取微博热搜存入Mysql,具有一定借鉴价值,感兴趣的朋友可以参考下,希望大家阅读完这篇文章之后大有收获,下面让小编带着大家一起了解一下。Python主要用来做什么Python主要应用于:1、Web开发;2...
    99+
    2023-06-14
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作