iis服务器助手广告广告
返回顶部
首页 > 资讯 > 后端开发 > Python >Python爬虫数据举例分析
  • 430
分享到

Python爬虫数据举例分析

2023-06-02 03:06:27 430人浏览 泡泡鱼

Python 官方文档:入门教程 => 点击学习

摘要

本篇内容介绍了“python爬虫数据举例分析”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!获取数据打开斗鱼直播界面,连续点击翻页Networ

本篇内容介绍了“python爬虫数据举例分析”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!

获取数据

打开斗鱼直播界面,连续点击翻页

Network查看异步请求XHR,找到对应的URL

Python爬虫数据举例分析

Python爬虫数据举例分析

成功获取到对应的URL。

https://www.douyu.com/gapi/rkc/directory/0_0/2

翻页只变动末尾的最后一个数字。

采用requests+pyquery来爬取。

部分爬虫代码如下。

def get_datas(url): data = [] doc = get_JSON(url) jobs=doc['data']['rl'] for job in jobs: dic = {} dic['user_name']=jsonpath.jsonpath(job,'$..nn')[0] #用户名 dic['user_id']= jsonpath.jsonpath(job,'$..uid')[0] #用户ID dic['room_name']=jsonpath.jsonpath(job,'$..rn')[0] #房间名 dic['room_id']=jsonpath.jsonpath(job,'$..rid')[0] #房间ID dic['redu']=jsonpath.jsonpath(job,'$..ol')[0] #热度 dic['c2name']=jsonpath.jsonpath(job,'$..c2name')[0] #分区 dic['time']= stampToTime(time.time())  data.append(dic) return data

剩下就是连续爬取,我设置的是10分钟爬取一次。

将爬取得到的数据存入Mysql中。

#存到Mysqlfrom sqlalchemy import create_engineengine = create_engine('mysql+mysqldb://root:***密码***@localhost:3306/demo?charset=utf8mb4')final_result.to_sql('data_douyu',con=engine, index=False, index_label=False,if_exists='append', chunksize=1000)

连续爬取了大概七天多时间,最终得到2062万条直播数据。

Python爬虫数据举例分析

数据分析

将数据导入python

Python爬虫数据举例分析

去重,其实爬虫部分已经设置去重,这里为了保险再来一次,不过事实证明确实没有重复。

因为实际爬取时间是0731下午到0808上午,为了方便后文计算,这里选取0801-0807这连续七天的直播数据。

#去重data = data[['c2name', 'redu', 'room_id', 'room_name', 'time','user_id', 'user_name']].drop_duplicates()#筛选时间data = data.loc[(data['time'] <= '2019-08-07') & (data['time'] >= '2019-08-01')]

我们还需要对主播按照id分组汇总。

先利用groupby分类汇总,再计算增加新列。

data_abc['av_redu'] = data_abc['redu']/data_abc['time_num']data_abc['hour'] = data_abc['time_num']/ 42 #每十分钟一次,七天data_abc.head()

Python爬虫数据举例分析

这样我们就又构建了一组以主播为索引的数据。

Python爬虫数据举例分析

也就是说这七天之内,直播过的主播共有23万余人,那么下文让我们看看他们的生存现状吧。

数据可视化

将这23万主播按照平均直播时长和平均直播热度绘制一个散点图。

import seaborn as snsimport matplotlib as mpl #配置字体mpl.rcParams['font.sans-serif'] = ['SimHei'] # 指定默认字体mpl.rcParams['axes.unicode_minus']plt.figure(figsize=(8,8))plt.xticks(fontsize=12)plt.yticks(fontsize=12)sns.scatterplot(data_test["hour"],data_test["av_redu"],hue=data_test["c2name"])

结果如下图所示。

Python爬虫数据举例分析

从上图能看出,绝大部分主播都在底部,能够成为大主播的寥寥无几,且热度较高的主播集中于上述的几个热门分区,其他分区主播发展普遍一般。

由于有20多万的主播集中在下方,很难看出他们平均直播时长的分布。

另一方面,主播分化程度较为严重,为了更直观的展现趋势,我们以1万平均热度为分界,分析不同规模的主播每天平均直播时长。

#头部主播plt.figure(figsize=(10,6))plt.xticks(fontsize=13)plt.yticks(fontsize=13)sns.distplot(data_abc.loc[(data_abc['av_redu'] > 10000)]["hour"],kde=True,rug=False,color='y')plt.show()

Python爬虫数据举例分析

图中可以发现较多的主播每天直播时长集中在5小时左右,这5个小时的游戏并非我们平时玩的那么简单。主播直播时往往既需要全神贯注玩游戏,又要和观众一起互动交流。

而较少主播直播时长则大部分在1小时左右,不能持续直播,导致观众少;观看人数少,主播没动力,久而久之,也就难以出头,形成恶性循环。

上图中有一些异常值,即平均每日直播时长超过20小时的直播间,这样的直播大部分为“一起看”分区,可以24小时连续播放电影电视剧之类的视频,余下都是游戏或者比赛的官方频道,用来循环播放官方视频。

那么主播们大部分在什么时间直播呢?

他们的观众也是同一时间准时观看吗?

Python爬虫数据举例分析

从同一时间段内主播直播与观众观看在线人数可以看出,有两个时段有差异。

一个是晚上21点后至凌晨6点前,以直播为职业的主播往往已经进行了5-6小时高强度不间断的直播,会选择后半夜好好休息一下,而将看直播作为娱乐的观众则躺在床上看到上头;

另一个时段是下午12点左右到18点,观众都正在上班上学,而很多全职主播中午起床吃饭后,正好下午开始了他们的直播。

大部分主播并非我们想象的那样,时间自由,赚钱容易。每天在线直播的主播人数以十万甚至百万为单位,但真正赢得观众喜爱和自愿刷大量礼物的事实上寥寥无几。一时的流量换不来观众永远的买账,以噱头博出位后如何用内容留住观众,是每个主播在探索的方向。

随着行业监管的加强,直播平台逐渐褪去“泡沫”,流量红利消失,回归理性。“熊猫”已经远走,行业内的竞争更加集中在剩下的头部平台之间,这些平台也更需要探索更优质的内容和更多元的发展!

Python爬虫数据举例分析”的内容就介绍到这里了,感谢大家的阅读。如果想了解更多行业相关的知识可以关注编程网网站,小编将为大家输出更多高质量的实用文章!

--结束END--

本文标题: Python爬虫数据举例分析

本文链接: https://www.lsjlt.com/news/228714.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑,方便收藏和打印~

下载Word文档
猜你喜欢
  • Python爬虫数据举例分析
    本篇内容介绍了“Python爬虫数据举例分析”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!获取数据打开斗鱼直播界面,连续点击翻页Networ...
    99+
    2023-06-02
  • Python网络爬虫举例分析
    这篇文章主要讲解了“Python网络爬虫举例分析”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“Python网络爬虫举例分析”吧!先来看一段简单的代码。import requests...
    99+
    2023-06-02
  • Python爬虫案例分析
    本篇内容介绍了“Python爬虫案例分析”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成! 一、论述这几个案例以前是给一些想进入Pyt...
    99+
    2023-06-17
  • Python爬虫实例分析
    今天小编给大家分享一下Python爬虫实例分析的相关知识点,内容详细,逻辑清晰,相信大部分人都还太了解这方面的知识,所以分享这篇文章给大家参考一下,希望大家阅读完这篇文章后有所收获,下面我们一起来了解一下吧。环境搭建既然用python,那么...
    99+
    2023-06-03
  • Python爬虫与数据分析之爬虫技能:u
    专栏目录: Python爬虫与数据分析之python教学视频、python源码分享,python Python爬虫与数据分析之基础教程:Python的语法、字典、元组、列表 Python爬虫与数据分析之进阶教程:文件操作、lambda表达...
    99+
    2023-01-31
    爬虫 技能 数据
  • python爬虫中xpath实例分析
    这篇文章主要介绍“python爬虫中xpath实例分析”,在日常操作中,相信很多人在python爬虫中xpath实例分析问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”python爬虫中xpath实例分析”的疑...
    99+
    2023-06-29
  • 利用Python爬虫爬取金融期货数据的案例分析
    目录任务简介解决步骤代码实现总结大家好 我是政胤今天教大家爬取金融期货数据 任务简介 首先,客户原需求是获取https://hq.smm.cn/copper网站上的价格数据(注:获取...
    99+
    2024-04-02
  • 大数据爬虫安装的示例分析
    这篇文章主要介绍大数据爬虫安装的示例分析,文中介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们一定要看完!爬虫安装前准备工作:大数据平台安装完成、zookeeper、redis、elasticsearch、mysql等组件安装启动成功。...
    99+
    2023-06-02
  • Python爬虫之爬取2020女团选秀数据的示例分析
    这篇文章主要介绍Python爬虫之爬取2020女团选秀数据的示例分析,文中介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们一定要看完!一、先看结果1.1创造营2020撑腰榜前三甲创造营2020撑腰榜前三名分别是 希林娜依·高、陈卓璇 、...
    99+
    2023-06-14
  • Python数据可视化举例分析
    这篇文章主要介绍“Python数据可视化举例分析”,在日常操作中,相信很多人在Python数据可视化举例分析问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”Python数据可视化举例分析”的疑惑有所帮助!接下来...
    99+
    2023-06-16
  • Python Ajax爬虫方法案例分析
    今天小编给大家分享一下Python Ajax爬虫方法案例分析的相关知识点,内容详细,逻辑清晰,相信大部分人都还太了解这方面的知识,所以分享这篇文章给大家参考一下,希望大家阅读完这篇文章后有所收获,下面我们一起来了解一下吧。1. 抓...
    99+
    2023-06-29
  • ChatGPT爬虫实例分析
    本篇内容主要讲解“ChatGPT爬虫实例分析”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“ChatGPT爬虫实例分析”吧!思考问题域我要写一个爬虫,把ChatGPT上我的数据都爬下来,首先想想我...
    99+
    2023-07-05
  • Python爬虫基础入门实例分析
    这篇文章主要介绍“Python爬虫基础入门实例分析”的相关知识,小编通过实际案例向大家展示操作过程,操作方法简单快捷,实用性强,希望这篇“Python爬虫基础入门实例分析”文章能帮助大家解决问题。      &...
    99+
    2023-06-27
  • Python爬虫分析汇总
    目录Python爬虫分析一、程序说明二、数据爬取1、获取 CSDN 作者总榜数据2、获取收藏夹列表3、获取收藏数据4、爬虫程序完整代码5、爬取数据结果三、数据分析及可视化Python...
    99+
    2024-04-02
  • NodeJS爬虫的示例分析
    小编给大家分享一下NodeJS爬虫的示例分析,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获,下面让我们一起去了解一下吧! request 库requ...
    99+
    2024-04-02
  • Python爬虫数据的分类及json数据用法示例
    小编给大家分享一下Python爬虫数据的分类及json数据用法示例,希望大家阅读完这篇文章之后都有所收获,下面让我们一起去探讨吧!数据的结构化分类       一般来讲对...
    99+
    2023-06-14
  • 【Python爬虫与数据分析】UDP/TCP通信协议
    目录 一、网络编程基础 二、UDP协议 三、TCP协议 一、网络编程基础 数据编码与解码 str -> bytes:encode编码,发送信息的时候用encode编码bytes -> str:decode解码,打印接收的信息用decod...
    99+
    2023-09-06
    python udp tcp/ip 网络通信
  • Python爬虫之网络请求实例分析
    本篇内容介绍了“Python爬虫之网络请求实例分析”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!1.IP代理某些网站会检测一段时间内某IP的...
    99+
    2023-06-30
  • Python不可变数据结构举例分析
    这篇文章主要讲解了“Python不可变数据结构举例分析”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“Python不可变数据结构举例分析”吧!我们从思考正方形和矩形开始。如果我们抛开实现细节,...
    99+
    2023-06-17
  • Python Ajax爬虫案例分享
    目录1. 抓取街拍图片2. 分析街拍图片结构3. 按功能不同编写不同方法组织代码3.1 获取网页json格式数据3.2 从json格式数据提取街拍图片3.3 将街拍图片以其md5码命...
    99+
    2024-04-02
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作