iis服务器助手广告广告
返回顶部
首页 > 资讯 > 后端开发 > Python >Python采集电视剧《开端》弹幕做成词云图
  • 913
分享到

Python采集电视剧《开端》弹幕做成词云图

2024-04-02 19:04:59 913人浏览 独家记忆

Python 官方文档:入门教程 => 点击学习

摘要

目录知识点介绍环境介绍网站分析完整爬虫代码实现结果展示总结 知识点介绍 爬虫基本思路流程 requests模块的使用 pandas保存表格数据 pyecharts做词云图可视化 环境

知识点介绍

爬虫基本思路流程

requests模块的使用

pandas保存表格数据

pyecharts做词云图可视化

环境介绍

python 3.8

PyCharm

requests >>> pip install requests

pyecharts >>> pip install pyecharts

网站分析

打开X讯视频的网页,点开《开端》,播放视频,弹幕随之出现再屏幕之上。

首先我们需要找到相应的弹幕出自于哪里,打开网页开发工具,Ctrl+F输入:“那么多座位你俩非要挤一起吗”,找到弹幕所在的页面

观察发现这是一个JSON,其弹幕内容包含在该json中的comments之中

找到页面之后观察该页面的请求头,请求方式为get,target_id为该电视剧的网页ID,得到该电视剧的链接地址主要由target_id和timestamp时间戳构成,形如 Http://mfm.video.qq.com/danmu?timestamp=0&target_id=xxxxx 且该json表明时间戳每30会更新一次弹幕信息,单位为秒,对网站进行分析之后,我们直接看到代码。

完整爬虫代码实现

timestamp每增加30就会更改整个弹幕页面,在循环中每次增加30,并更改target_id即电视剧的每一集来获取每一集的弹幕信息,下面便是编写的获取弹幕的函数。这里以第一集为例子。

import requests
import pandas as pd

# 构建一个列表存储数据
data_set = []

for page in range(15, 600, 30):
    try:
        # 1. 发送请求
        url = f'https://mfm.video.qq.com/danmu?otype=json&target_id=7626117232%26vid%3Dn0041aa087e&session_key=0%2C0%2C0&timestamp={page}&_=1641804763748'
        response = requests.get(url=url)
        # 2. 获取数据
        json_data = response.json()
        # 3. 解析数据
        comments = json_data['comments']
        for comment in comments:
            data_dict = {}
            data_dict['commentid'] = comment['commentid']
            data_dict['content'] = comment['content']
            data_dict['opername'] = comment['opername']
            print(data_dict)
            data_set.append(data_dict)
    except:
        pass

# 4. 保存数据
df = pd.DataFrame(data_set)
df.to_csv('data.csv', index=False)

结果展示

Word = dfword3['word'].tolist()
count = dfword3['count'].tolist()
a = [list(z) for z in zip(word, count)]
c = (
    WordCloud()
    .add('', a, word_size_range=[10, 50], shape='circle')
    .set_global_opts(title_opts=opts.TitleOpts(title="词云图"))
)
c.render_notebook()

总结

到此这篇关于Python采集电视剧《开端》弹幕做成词云图的文章就介绍到这了,更多相关Python词云图内容请搜索编程网以前的文章或继续浏览下面的相关文章希望大家以后多多支持编程网!

--结束END--

本文标题: Python采集电视剧《开端》弹幕做成词云图

本文链接: https://www.lsjlt.com/news/163720.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑,方便收藏和打印~

下载Word文档
猜你喜欢
  • Python采集电视剧《开端》弹幕做成词云图
    目录知识点介绍环境介绍网站分析完整爬虫代码实现结果展示总结 知识点介绍 爬虫基本思路流程 requests模块的使用 pandas保存表格数据 pyecharts做词云图可视化 环境...
    99+
    2024-04-02
  • 用Python采集《雪中悍刀行》弹幕做成词云实例
    目录前言知识点介绍环境介绍代码实现1. 导入模块2. 发送网络请求3. 获取数据 弹幕内容4. 解析数据(筛选数据) 提取想要的一些内容 不想要的忽略掉5. 保存数据6. 词云图可视...
    99+
    2024-04-02
  • 怎么用Python爬取弹幕数据并做成词云
    这篇文章主要讲解了“怎么用Python爬取弹幕数据并做成词云”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“怎么用Python爬取弹幕数据并做成词云”吧!导入基本库请求信息获取弹幕执行函数代码...
    99+
    2023-06-02
  • Python实现爬取某站视频弹幕并绘制词云图
    目录前言爬取弹幕爬虫基本思路流程导入模块代码制作词云图导入模块读取弹幕数据前言 [课 题]: Python爬取某站视频弹幕或者腾讯视频弹幕,绘制词云图 [知识点]: 1. 爬虫基本流...
    99+
    2024-04-02
  • Python如何实现爬取某站视频弹幕并绘制词云图
    这篇文章主要为大家展示了“Python如何实现爬取某站视频弹幕并绘制词云图”,内容简而易懂,条理清晰,希望能够帮助大家解决疑惑,下面让小编带领大家一起研究并学习一下“Python如何实现爬取某站视频弹幕并绘制词云图”这篇文章吧。前言[课 题...
    99+
    2023-06-22
  • Python爬取英雄联盟MSI直播间弹幕并生成词云图
    目录一、环境准备二、数据准备三、代码如下四、词云图效果展示一、环境准备 安装相关第三方库 pip install jieba pip install wordcloud 二、数据准备...
    99+
    2024-04-02
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作