iis服务器助手广告广告
返回顶部
首页 > 资讯 > 后端开发 > Python >Python爬虫实现自动化爬取b站实时弹幕的方法
  • 831
分享到

Python爬虫实现自动化爬取b站实时弹幕的方法

2023-06-14 15:06:31 831人浏览 独家记忆

Python 官方文档:入门教程 => 点击学习

摘要

这篇文章主要介绍了python爬虫实现自动化爬取b站实时弹幕的方法,具有一定借鉴价值,感兴趣的朋友可以参考下,希望大家阅读完这篇文章之后大有收获,下面让小编带着大家一起了解一下。python主要用来做什么Python主要应用于:1、web开

这篇文章主要介绍了python爬虫实现自动化爬取b站实时弹幕的方法,具有一定借鉴价值,感兴趣的朋友可以参考下,希望大家阅读完这篇文章之后大有收获,下面让小编带着大家一起了解一下。

python主要用来做什么

Python主要应用于:1、web开发;2、数据科学研究;3、网络爬虫;4、嵌入式应用开发;5、游戏开发;6、桌面应用开发。

1、导入需要的库

import jieba  # 分词from Wordcloud import WordCloud  # 词云from PIL import Image  # 图片处理import numpy as np  # 图片处理import matplotlib.pyplot as plt  # 画图

2、 jieba分词

所谓的分词就是将一句话分成一个或几个词语的形式,

分词代码

# 读取停用词库,注意编码应为‘utf8’f = open('小夜斗的停用词表.txt', encoding='utf8')stopwords = f.read().split('\n')print(stopwords)  # 打印停用词f.close()  # 关闭停用词文件

3、打印出的为一个停用词列表

with open("冰冰vlog2.txt", "r", encoding='utf8') as fp:text = fp.read()

4、读取冰冰弹幕数据文件的操作,将其保存到text变量中

segs = jieba.cut(text)  # 进行jieba分词mytext_list = []  # 构建一个容纳过滤掉停用词的冰冰弹幕数据文件# 文本清洗for seg in segs:  # 循环遍历每一个分词文本# 如果该词不属于停用词表 并且非空 长度不为1if seg not in stopwords and seg != "" and len(seg) != 1:# 将该词语添加到mytext_list列表中mytext_list.append(seg.replace(" ", ""))print(mytext_list)  # 打印过滤后的冰冰弹幕数据

5、获取过滤停用词后的冰冰弹幕数据

cloud_text = ",".join(mytext_list)  # 连接列表里面的词语print(cloud_text)

感谢你能够认真阅读完这篇文章,希望小编分享的“Python爬虫实现自动化爬取b站实时弹幕的方法”这篇文章对大家有帮助,同时也希望大家多多支持编程网,关注编程网Python频道,更多相关知识等着你来学习!

--结束END--

本文标题: Python爬虫实现自动化爬取b站实时弹幕的方法

本文链接: https://www.lsjlt.com/news/272662.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑,方便收藏和打印~

下载Word文档
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作