首页 > 资讯 > 后端开发 > Python >Python 抖音评论数据抓取分析

191

分享到

Python 抖音评论数据抓取分析

2024-04-02 19:04:59 191人浏览薄情痞子

Python 官方文档：入门教程 => 点击学习

摘要

张同学 10.4号开始发视频，视频的点赞量一直很高，11.17 号的视频达到了顶峰，收获 250w 个赞，之后关注量也开启了暴涨。所以挖掘 11.17 号视频的评论，更有助于我们

张同学 10.4号开始发视频，视频的点赞量一直很高，11.17 号的视频达到了顶峰，收获 250w 个赞，之后关注量也开启了暴涨。

所以挖掘 11.17 号视频的评论，更有助于我们达成目的。另外，为方便大家更好的学习爬虫技术和数据可视化分析，完整版代码我放在文末。

1. 抓取数据

抖音出了 WEB 版，抓取数据方便了很多。

抓评论

滑到网页评论区，在浏览器网络请求里过滤包含comment的请求，不断刷新评论就可以看到评论的接口。

有了接口，就可以写 python 程序模拟请求，获取评论数据。

请求数据要设置一定间隔，避免过大请求，影响别人服务

抓取评论数据有两点需要注意：

有时候接口可能返回空数据，因此需要多试几次，一般过了人工滑动验证后的接口基本可用
不同页面之间的数据可能会重复，所以需要跳页请求

2. EDA

11.17 号的视频有 12w 条评论，我只抓取了 1w 多条。

text列是评论。

先对数据做一些探索性的分析，之前介绍过几个EDA工具，可以自动产出基础的数据统计和图表。

这次我用的是ProfileReport


# eda
profile = ProfileReport(df, title='张同学抖音评论数据', explorative=True)
profile

评论时间分布

从评论的时间分布来看，由于发布的视频的时间是17号，所有17、18号评论发布量比较多。不过再往后甚至到了 12.9 号，仍然有不少新评论产生，说明视频热度确实很高。

评论的长度分布

大多数评论的字数在 20 以内，基本不超过 40 个字，说明都是短文本。

评论者身份

参与评论的人里， 99.8% 是没有认证身份的，说明评论用户里基本都是普通用户。

3. LDA

上面的统计数据还是太粗略了。但我们要想知道大家的感兴趣点在哪，又不可能细到把 1.2w 条评论全部看完。

所以需要对这些评论先做一次归类，相当于把数据升维，抽象。因为只有将数据升维，了解每个维度的含义和占比，才能帮助我们从全局角度掌握数据。

这里我用LDA算法对文本聚类，聚合在一起的评论可以看做属于同一个主题。

LDA算法的核心思想有两点：

具有一定相似性的文本会聚合在一起，形成一个主题。每个主题包含生成该主题需要的词，以及这些词的概率分布。以此可以人为推断出主题的类别。
每篇文章会它有在所有主题下的概率分布，以此可以推断出文章属于哪个主题。

比如，经过LDA算法聚类后，某个主题中，战争、军费这类词出现概率很高，那么我们可以将该主题归类为军事。如果有一篇文章属于军事主题的概率很高，我们就可以将该文章分为军事一类。

简单介绍完LDA的理论，下面我们来实战一下。

3.1 分词、去停用词


# 分词

emoji = {'可怜', '发呆', '晕', '灵机一动', '击掌', '送心', '泣不成声', '哈欠', '舔屏', '偷笑', '愉快', '再见', '666', '熊吉', '尬笑', '吐舌', '撇嘴', '看', '绿帽子', '捂脸', '呆无辜', '强壮', '震惊', '阴险', '绝', '给力', '打脸', '咖啡', '衰', '一起加油', '酷拽', '流泪', '黑脸', '爱心', '笑哭', '机智', '困', '微笑袋鼠', '强', '闭嘴', '来看我', '色', '憨笑', '不失礼貌的微笑', '红脸', '抠鼻', '调皮', '紫薇别走', '赞', '比心', '悠闲', '玫瑰', '抱拳', '小鼓掌', '握手', '奸笑', '害羞', '快哭了', '嘘', '惊讶', '猪头', '吐', '暗中观察', '不看', '啤酒', '呲牙', '发怒', '绝望的凝视', '大笑', '吐血', '坏笑', '凝视', '可爱', '拥抱', '擦汗', '鼓掌', '胜利', '感谢', '思考', '微笑', '疑问', '我想静静', '灵光一闪', '白眼', '泪奔', '耶'}
stopWords = [line.strip() for line in open('stop_words.txt', encoding='UTF-8').readlines()]

def fen_ci(x):
    res = []
    for x in jieba.cut(x):
        if x in stopwords or x in emoji or x in ['[', ']']:
            continue
        res.append(x)
    return ' '.join(res)

df['text_wd'] = df['text'].apply(fen_ci)

由于评论中有许多 emoji 表情，我抽取了所以 emoji 表情对应的文本，生成 emoji 数组，用于过滤表情词。

3.2 调用LDA


from sklearn.feature_extraction.text import CountVectorizer
from sklearn.decomposition import LatentDirichletAllocation
import numpy as np

def run_lda(corpus, k):
    cntvec = CountVectorizer(min_df=2, token_pattern='\w+')
    cnttf = cntvec.fit_transfORM(corpus)
    
    lda = LatentDirichletAllocation(n_components=k)
    docres = lda.fit_transform(cnttf)
    
    return cntvec, cnttf, docres, lda
    
cntvec, cnttf, docres, lda = run_lda(df['text_wd'].values, 8)

经过多次试验，将数据分成 8 类效果较好。

选取每个主题下出现概率 top20 的词：

主题的词分布

从这些词概率分布，归纳各主题的类别，主题0 ~ 主题7分别是：居然看完、知道钥匙在哪、农村生活、喂狗、拍摄手法、还用锁门？、鸡蛋放盐多、袜子放枕头下。

统计主题占比：

主题占比

红色的是主题3（喂狗），占比最大，很多人评论是：以为要做给自己吃，没想到是喂狗的。我看的时候也是这样认为的。

其他各主题占比比较均匀。

经过主题分类后，我们可以发现，张同学不仅仅是农村生活引起了大家的关注，更多的是视频中大量反常态的镜头。

最后，用树状图展示各主题及对应的具体评论。

核心代码已经贴在文章里，完整代码如下方式领取。

代码

链接：https://pan.baidu.com/s/1FnIgkW2b_uVtQq1Z-i8PJA
提取码：1234

您可能感兴趣的文档:

点击免费下载>>软考高级考试备考技巧/历年真题/备考精华资料

--结束END--

本文标题: Python 抖音评论数据抓取分析

本文链接: https://www.lsjlt.com/news/163180.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑，方便收藏和打印～

下载Word文档

去做题

猜你喜欢

Python 抖音评论数据抓取分析

张同学 10.4号开始发视频，视频的点赞量一直很高，11.17 号的视频达到了顶峰，收获 250w 个赞，之后关注量也开启了暴涨。所以挖掘 11.17 号视频的评论，更有助于我们...

99+

2022-11-13
Python如何实现抖音评论数据抓取

小编给大家分享一下Python如何实现抖音评论数据抓取，希望大家阅读完这篇文章之后都有所收获，下面让我们一起去探讨吧！1. 抓取数据抖音出了 web 版，抓取数据方便了很多。抓评论滑到网页评论区，在浏览器网络请求里过滤包含comment的请...

99+

2023-06-28
python爬各平台评论并数据分析——数据采集、评论情绪分析、新闻热度

一、爬取数据小问题汇总 1.python之matplotlib使用系统字体用于解决python绘图中，中文字体显示问题 2.cookie与视频页面id（b站、微博等）查看 F12打开网页开发者模式...

99+

2023-08-31

python 数据分析开发语言
怎样用Python爬取淘宝评论数据

今天就跟大家聊聊有关怎样用Python爬取淘宝评论数据，可能很多人都不太了解，为了让大家更加了解，小编给大家总结了以下内容，希望大家根据这篇文章可以有所收获。【项目准备工作】准备Pycharm，下载安装等，不会安装的，可以回复：pytho...

99+

2023-06-01
如何通过抓取淘宝评论为例讲解Python爬取ajax动态生成的数据

如何通过抓取淘宝评论为例讲解Python爬取ajax动态生成的数据，针对这个问题，这篇文章详细介绍了相对应的分析和解答，希望可以帮助更多想解决这个问题的小伙伴找到更简单易行的方法。在学习python的时候，...

99+

2022-10-19
python爬取晋江文学城小说评论(情绪分析)

1. 收集数据 1.1 爬取晋江文学城收藏排行榜前50页的小说信息获取收藏榜前50页的小说列表，第一页网址为 ‘http://www.jjwxc.net/bookbase.php&...

99+

2022-11-12
Python数据分析案例23——电商评论文本分析(LDA,共现网络)

本次案例适合物流，电商，大数据等专业的同学。案例背景：对于现在的某宝某东上面电商平台的商品，我们可以去找一家店铺，选着某个商品，爬取文本，然后进行如下的文本分析。本次选择了某东上面的一个是手抓饼商品的评论，我爬取了2千多条，数据长这...

99+

2023-10-25

python 数据分析文本分析 LDA模型词云图
用Python爬取暑期档大火的《哪吒》，20W+评论数据，我们分析一波

说起这个暑期档的动画片，非《哪吒之魔童降世》莫属了！上映第 1 天：89分钟，中国动画最快破 1亿纪录上映第 2 天：中国影史首部单日票房破 2亿的动画电影上映第 4 天：中国影史第66部破 10亿影片上映第 8 天：正式登顶！破 16亿，...

99+

2023-06-02
python数据分析及可视化（十五）数据分析可视化实战篇（抖音用户数据分析、二手房数据分析）

python数据分析的实战篇，围绕实例的数据展开分析，通过数据操作案例来了解数据分析中的频繁用到的知识内容。抖音用户数据分析 1.理解数据数据字段含义了解数据内容，确保数据来源是正常的，安全合法...

99+

2023-09-02

python 数据分析开发语言
python 爬取京东指定商品评论并进行情感分析

目录项目地址运行环境运行方法数据爬取（jd.comment.py)模型训练（train.py）情感分析（sentiment.analysis.py）词云轮廓图商品评论词云情感分析结果可视化项目地址 https://g...

99+

2022-06-02

python 爬取京东商品评论 python 情感分析
Python数据抓取、分析、挖掘和分布式计算内容有哪些

本篇内容主要讲解“Python数据抓取、分析、挖掘和分布式计算内容有哪些”，感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷，实用性强。下面就让小编来带大家学习“Python数据抓取、分析、挖掘和分布式计算内容有哪些”吧!01 数据抓取背...

99+

2023-06-17
20亿票房但不好看？Python分析《孤注一掷》豆瓣评论数据

前言环境使用 Python 3.8 解释器Pycharm 编辑器所需模块 import parsel >>> pip install parselimport requests >>> pip i...

99+

2023-09-01

python 开发语言
Python超简单分析评论提取关键词制作精美词云流程

目录一、抓取全部评论1、找到评论接口2、Python 获取评论二、文本分词、词云制作1、文本分析2、生成词云3、初步效果-模糊不清4、最终效果-高清无马一、抓取全部评论吾的这篇...

99+

2022-11-13
Linux中如何使用wireshark分析tcpdump抓取的数据包

这篇文章将为大家详细讲解有关Linux中如何使用wireshark分析tcpdump抓取的数据包，文章内容质量较高，因此小编分享给大家做个参考，希望大家阅读完这篇文章后对相关知识有一定的了解。很多时候我们的系统部署在Linux系统上面，在一...

99+

2023-06-06
wireshark工具详解、数据包抓取分析、使用教程

Wireshark界面 Wireshark查看数据捕获列表数据包概要信息窗口：描述每个数据包的基本信息。如图，点击某行数据，即可在下方显示该数据包的信息。数据包解析窗口：显示被选中的数据包的解析信息，包含每个数据包的整体信息、数据链...

99+

2023-08-23

网络 tcp/ip 服务器
Python数据分析之pandas读取数据

一、三种数据文件的读取二、csv、tsv、txt 文件读取 1）CSV文件读取：语法格式：pandas.read_csv(文件路径) CSV文件内容如下： import pandas as pd file...

99+

2022-06-02

python pandas读取数据 pandas数据读取
【毕业设计】基于大数据的抖音短视频数据分析与可视化 - python 大数据可视化

文章目录 0 前言1 课题背景2 数据清洗3 数据可视化地区-用户观看时间分界线每周观看观看路径发布地点视频时长整体点赞、完播 4 进阶分析相关性分析留存率 5 深度分析客户价值判断 ...

99+

2023-10-08

python 大数据数据分析毕业设计抖音数据分析
Python 获取旅游景点信息及评论并作词云、数据可视化

大家好，我是啃书君！正所谓：有朋自远方来，不亦乐乎？有朋友来找我们玩，是一件很快乐的事情，那么我们要尽地主之谊，好好带朋友去玩耍！那么问题来了，什么时候去哪里玩最好呢，哪里玩的地方最多呢？今天将手把手教你使用线程池爬取同程旅行的景点信息及评...

99+

2023-05-14

Python 数据可视化线程池
分析语音数据增强及python实现

目录一、概述二、加噪2.1、第一种：控制噪声因子2.2、第二种：控制信噪比三、加混响3.1、方法一：Pyroomacoustics实现音频加混响3.2、方法二：Image Source Method 算法讲解四、生成...

99+

2022-06-02

python 语音数据
Python实现基于Fasttext的商品评论数据分类的操作流程

在以往的文本分类型的任务中，基本的流程主要是就是：文本数据加载数据清洗分词向量化分类模型训练性能评估这里面比如向量化和模型搭建是独立的两个节点，可以自由地进行设计，当然了也是一份...

99+

2022-11-11