Python 官方文档:入门教程 => 点击学习
这篇文章主要介绍了python爬虫实现自动化爬取b站实时弹幕的方法,具有一定借鉴价值,感兴趣的朋友可以参考下,希望大家阅读完这篇文章之后大有收获,下面让小编带着大家一起了解一下。python主要用来做什么Python主要应用于:1、web开
这篇文章主要介绍了python爬虫实现自动化爬取b站实时弹幕的方法,具有一定借鉴价值,感兴趣的朋友可以参考下,希望大家阅读完这篇文章之后大有收获,下面让小编带着大家一起了解一下。
Python主要应用于:1、web开发;2、数据科学研究;3、网络爬虫;4、嵌入式应用开发;5、游戏开发;6、桌面应用开发。
1、导入需要的库
import jieba # 分词from Wordcloud import WordCloud # 词云from PIL import Image # 图片处理import numpy as np # 图片处理import matplotlib.pyplot as plt # 画图
2、 jieba分词
所谓的分词就是将一句话分成一个或几个词语的形式,
分词代码
# 读取停用词库,注意编码应为‘utf8’f = open('小夜斗的停用词表.txt', encoding='utf8')stopwords = f.read().split('\n')print(stopwords) # 打印停用词f.close() # 关闭停用词文件
3、打印出的为一个停用词列表
with open("冰冰vlog2.txt", "r", encoding='utf8') as fp:text = fp.read()
4、读取冰冰弹幕数据文件的操作,将其保存到text变量中
segs = jieba.cut(text) # 进行jieba分词mytext_list = [] # 构建一个容纳过滤掉停用词的冰冰弹幕数据文件# 文本清洗for seg in segs: # 循环遍历每一个分词文本# 如果该词不属于停用词表 并且非空 长度不为1if seg not in stopwords and seg != "" and len(seg) != 1:# 将该词语添加到mytext_list列表中mytext_list.append(seg.replace(" ", ""))print(mytext_list) # 打印过滤后的冰冰弹幕数据
5、获取过滤停用词后的冰冰弹幕数据
cloud_text = ",".join(mytext_list) # 连接列表里面的词语print(cloud_text)
感谢你能够认真阅读完这篇文章,希望小编分享的“Python爬虫实现自动化爬取b站实时弹幕的方法”这篇文章对大家有帮助,同时也希望大家多多支持编程网,关注编程网Python频道,更多相关知识等着你来学习!
--结束END--
本文标题: Python爬虫实现自动化爬取b站实时弹幕的方法
本文链接: https://www.lsjlt.com/news/272662.html(转载时请注明来源链接)
有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341
下载Word文档到电脑,方便收藏和打印~
2024-03-01
2024-03-01
2024-03-01
2024-02-29
2024-02-29
2024-02-29
2024-02-29
2024-02-29
2024-02-29
2024-02-29
回答
回答
回答
回答
回答
回答
回答
回答
回答
回答
0