Python爬取英雄联盟MSI直播间弹幕并生成词云图

2024-04-02 19:04:59 132人浏览独家记忆

Python 官方文档：入门教程 => 点击学习

摘要

目录一、环境准备二、数据准备三、代码如下四、词云图效果展示一、环境准备安装相关第三方库 pip install jieba pip install Wordcloud 二、数据准备

一、环境准备

安装相关第三方库

pip install jieba
pip install Wordcloud

二、数据准备

爬取对象：2021年5月23号，RNG夺冠直播间的弹幕信息

爬取对象路径：

方式1、根据开发者工具（F12），获取请求url、请求头、cookie等信息；
方式2：根据直播地址url，前+字符i

我们这里演示的是，采用方式2。

三、代码如下


import requests, re
import jieba, wordcloud

"""
# 以下是练习代码
def get_f12_barrage(url, headers, file_path):
    
    #通过f12中的，请求地址，获取弹幕数据
    #:param url:  通过弹幕地址（通过开发者工具，从请求数据中获取的）
    #:param headers:   请求头信息
    #:param file_path:  响应数据存储路径
    #:return:    无返回数据
    
    # 1、发送请求，接受响应数据
    response = requests.get(url=url, headers=headers)
    # 2、获取响应数据
    # 返回的响应可能是乱码的，需要先转成响应的编码格式
    # apparent_encoding的作用：会从网页的内容中分析网页编码的方式
    response.encoding = response.apparent_encoding
    # 3、解析响应数据
    content = response.text
    content_list = re.findall(":(.*?)@", content)
    # 4、存储响应数据, ”w+格式“，即文件存在则，先清空再写，不存在则新建文件
    with open(file_path, mode="w+", encoding="utf-8") as fp:
        for line in content_list:
            # 分析每一行，发现第一个字符元素不是想要的，先去除第一个字符
            fp.write(line[1:] + "\n")
    return file_path

"""
# ******************8********************执行代码如下******************************************
# 算法：先爬取数据，再根据爬取的数据，生成词云图
def get_barrage(url, headers, file_path):
    """
    通过请求网页前面+i的弹幕地址，获取弹幕数据
    :param url:  通过弹幕地址（网址前面+i）
    :param headers:   请求头信息
    :param file_path:  响应数据存储路径
    :return:    无返回数据
    """
    # 1、发送请求，接受响应数据
    response = requests.get(url=url, headers=headers)
    # 2、获取响应数据
    # 返回的响应可能是乱码的，需要先转成响应的编码格式
    # apparent_encoding的作用：会从网页的内容中分析网页编码的方式
    response.encoding = response.apparent_encoding
    # 3、解析响应数据
    # 此时response.text可能是乱码的
    content = response.text
    # 正则匹配响应数据，取数目标是(.*?)中的数据
    content_list = re.findall("<d p=\".*?\">(.*?)</d>", content)
    # 4、存储响应数据, ”w+格式“，即文件存在则，先清空再写，不存在则新建文件
    with open(file_path, mode="w+", encoding="utf-8") as fp:
        for line in content_list:
            fp.write(line + "\n")
    return file_path

# https://api.bilibili.com/x/v1/dm/list.so?oid=343174354
# Https://api.bilibili.com/x/v2/dm/WEB/history/seg.so?type=1&oid=343174354&date=2021-05-23


def make_word_cloud(word_file_path):
    # 1、打开文件，默认是gbk格式打开，这里指定utf-8打开
    with open(word_file_path, encoding="utf-8") as fp:
        content = fp.read()   # read方法返回的是一个字符串

    # 2、利用结巴，分割词,得到的是一个列表
    content_list = jieba.lcut(content)
    # 再用空格，拼接字符串
    content_str = " ".join(content_list)

    # 3、设置词云图
    wc_config = wordcloud.WordCloud(
        width=700,   # 宽度
        height=500,  # 高度
        background_color='black',  # 背景色
        font_path='msyh.ttc',   # 找字体的配置路径C:\windows\Fonts\微软雅黑,然后双击（出现3个），选择【常规-属性】
        scale=15,   # 颜色像素
        stopwords={'了', '的'},  # 词云图中过滤掉一些字眼
        contour_width=5,  # 轮廓宽度
        contour_color='red'  # 轮廓颜色
    )

    # 4、根据输入文字内容，形成一个词云图，并存储在指定路径
    wc_config.generate(content_str)
    wc_config.to_file("e:\\reg_cloud.png")
    return word_file_path







if __name__ == "__main__":
    """
    # 从开发者工具或者抓包工具中获取url地址
    f12_url = 'https://api.bilibili.com/x/v2/dm/web/history/seg.so?type=1&oid=343174354&date=2021-05-23'
    # 从开发者工具或者抓包工具中，获取请求头信息，主要包括cookie、user-agent
    header = {
        'cookie': 'bsource=search_baidu; _uuid=BBD44BE2-5DAA-A13A-A593-FD3A83C3929423721infoc; buvid3=18335C4D-A3A0-48D5-973A-7943D63AC73E34756infoc; CURRENT_FNVAL=80; blackside_state=1; rpdid=|(um|u)klum~0J\'uYkkJJkJJu; fingerprint=be684c13c90e4279aaaa3e2694da4285; buvid_fp=18335C4D-A3A0-48D5-973A-7943D63AC73E34756infoc; buvid_fp_plain=96D5E0EF-41D9-4A32-BE47-DFF96C44DB9F155821infoc; SESSDATA=f90082f7%2C1637884658%2C008f9%2A51; bili_jct=2f17a04a5651fb1c6579b73aeb640f7f; DedeUserID=1153205015; DedeUserID__ckMd5=b6f334f0a2d86238; sid=6vb9j9nl; bfe_id=6f285c892d9d3c1f8f020adad8bed553',
        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (Khtml, like Gecko) Chrome/90.0.4430.212 Safari/537.36'
    }
    # 申明存储文件的路径
    f12_file_path = "e:\\RNG.txt"
    """


    # 请求路径，是网页前面+i
    url = 'https://api.bilibili.com/x/v1/dm/list.so?oid=343174354'
    file_path = "e:\\RNG_1.txt"
    # 请求头中需要包含cookie 和 user-agent，这些信息都可以用f12获取到，注意有些字符需要转义
    # 为了个人信息安全，这里的cookIe加密显示
    header = {
        'cookie': '********',
        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.212 Safari/537.36'
    }
    # 调用方法
    get_barrage(url=url, headers=header, file_path=file_path)
    word_file_path = get_barrage(url=url, headers=header, file_path=file_path)
    make_word_cloud(word_file_path)

四、词云图效果展示

在这里插入图片描述

到此这篇关于python爬取英雄联盟MSI直播间弹幕并生成词云图的文章就介绍到这了,更多相关Python爬取弹幕并生成词云图内容请搜索编程网以前的文章或继续浏览下面的相关文章希望大家以后多多支持编程网！

您可能感兴趣的文档:

点击免费下载>>软考高级考试备考技巧/历年真题/备考精华资料

--结束END--

本文标题: Python爬取英雄联盟MSI直播间弹幕并生成词云图

本文链接: https://www.lsjlt.com/news/127292.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑，方便收藏和打印～

下载Word文档

去做题

猜你喜欢

Python爬取英雄联盟MSI直播间弹幕并生成词云图

目录一、环境准备二、数据准备三、代码如下四、词云图效果展示一、环境准备安装相关第三方库 pip install jieba pip install wordcloud 二、数据准备...

99+

2024-04-02
怎么用Python爬取弹幕数据并做成词云

这篇文章主要讲解了“怎么用Python爬取弹幕数据并做成词云”，文中的讲解内容简单清晰，易于学习与理解，下面请大家跟着小编的思路慢慢深入，一起来研究和学习“怎么用Python爬取弹幕数据并做成词云”吧！导入基本库请求信息获取弹幕执行函数代码...

99+

2023-06-02
Python实现爬取某站视频弹幕并绘制词云图

目录前言爬取弹幕爬虫基本思路流程导入模块代码制作词云图导入模块读取弹幕数据前言 [课题]： Python爬取某站视频弹幕或者腾讯视频弹幕，绘制词云图 [知识点]： 1. 爬虫基本流...

99+

2024-04-02
Python如何实现爬取某站视频弹幕并绘制词云图

这篇文章主要为大家展示了“Python如何实现爬取某站视频弹幕并绘制词云图”，内容简而易懂，条理清晰，希望能够帮助大家解决疑惑，下面让小编带领大家一起研究并学习一下“Python如何实现爬取某站视频弹幕并绘制词云图”这篇文章吧。前言[课题...

99+

2023-06-22
python 爬取豆瓣电影短评并利用wordcloud生成词云图

目录前言第一步、准备数据　　第二步、编写爬虫代码第三步、生成词云图前言最近学到数据可视化到了词云图，正好学到爬虫，各种爬网站【实验名称】爬取豆瓣电影《千与千寻》的评论并...

99+

2024-04-02
Python爬取哆啦A梦-伴我同行2豆瓣影评并生成词云图

目录一、前言二、豆瓣爬虫步骤三、最终效果如下四、词云图制作流程五、效果图一、前言通过这篇文章，你将会收货： ① 豆瓣电影数据的爬取； ② 手把手教你学会词云图的绘制；二、豆瓣爬...

99+

2024-04-02