iis服务器助手广告广告
返回顶部
首页 > 资讯 > 后端开发 > Python >使用python抓取B站数据的方法
  • 188
分享到

使用python抓取B站数据的方法

2023-06-15 02:06:10 188人浏览 八月长安

Python 官方文档:入门教程 => 点击学习

摘要

这篇文章给大家分享的是有关使用python抓取B站数据的方法的内容。小编觉得挺实用的,因此分享给大家做个参考,一起跟随小编过来看看吧。概述可以获取的数据包括:video-视频模块user-用户模块dynamic-动态模块这次用“Runnin

这篇文章给大家分享的是有关使用python抓取B站数据的方法的内容。小编觉得挺实用的,因此分享给大家做个参考,一起跟随小编过来看看吧。

概述

可以获取的数据包括:

video-视频模块

user-用户模块

dynamic-动态模块

这次用“Running Man”十周年特辑的视频,来做个获取弹幕的Demo。

我是对比

没有对比,就没有伤害,就像最近的“哈工大”某学生和“浙大”某学生一样。

这是之前获取弹幕的过程:

弹幕数据接口

https://comment.bilibili.com/123072475.xml (一个固定的url地址 + 视频的cid + .xml)

利用Request模块,获取数据

利用Xpath解析数据

接下来,是时候表演真正的技术了。

经过bilibili_api的封装,弹幕数据获取的部分仅用了一行代码:

danmu = video_info.get_danmaku()

相应的获取视频的基本信息和评论信息也是一样的便捷。

basic_info = video_info.get_video_info()comments = video_info.get_comments()

快速开始

接下来,本文将用bilibili_api获取“Running Man”十周年特辑的弹幕数据,并绘制词云。

视频的链接:

Https://www.bilibili.com/video/BV1GC4y1h722

B站有av号和bv号,改版之后,在链接中直接显示的是bv号,这两个必须提供一个。

bvid是b站新的视频唯一标识符,由12位数字、字母组成,大小写敏感,传入时请包含头部的“BV”

比如:“BV1gC4y1h722”

1)安装过程

安装需要依赖request 模块,它是把B站数据的API封装起来了。

通过pip安装即可:

pip install bilibili_api

导入模块

from bilibili_api import Verifyfrom bilibili_api.video import VideoInfofrom bilibili_api.video import Danmaku

VideoInfo类-获取视频的信息(弹幕、评论、投币数量、播放量等)

Danmaku类-弹幕类,用于获取和发送弹幕

Verify 类,可用可不用。部分视频信息需要登录(即需要 SESSDATA )后才能使用(如历史弹幕获取)。

对视频进行点赞、投币等用户操作则需要 SESSDATA 和 csrf 。

关于 SESSDATA 和 csrf 获取的详细方法,可参考如下链接:

https://GitHub.com/Passkou/bilibili_api/wiki/SESSDATA和CSRF获取方法(Chrome为例)

2)获取弹幕数据

创建VideoInfo对象,传入两个参数:

bvid="BV1gC4y1h722"(视频的BV号)

verify=verify(根据sessdata和csrf,获取弹幕)

获取的弹幕数据为“Danmaku类”的列表,通过遍历,打印它的text即可

贴个代码:

verify = Verify(sessdata="你的", csrf="你的")video_info = VideoInfo(bvid="BV1gC4y1h722", verify=verify)danmu = video_info.get_danmaku()for i in danmu:    print(i.text)

3)绘制词云

通过jieba分词和WorldCloud绘制词云。

可通过WordCloud对象,传入“背景颜色”,“背景图”,“字体”等参数。

贴个代码:

wc = WordCloud(    background_color='white',    mask=background_Image,    font_path=r'./SourceHanSerifCN-Medium.otf',    color_func=random_color_func,    random_state=50,)word_cloud = wc.generate(words_str) # 产生词云word_cloud.to_file("rm.jpg") #保存图片# 显示词云图片plt.imshow(word_cloud)plt.axis('off')plt.show()

4)最终效果

通过词云,可以看到最明显的就是 “快乐 十周年”、“RM 十周年”、“哈哈哈哈哈哈”等,

使用python抓取B站数据的方法

Python有哪些常用库

python常用的库:1.requesuts;2.scrapy;3.pillow;4.twisted;5.numpy;6.matplotlib;7.pygama;8.ipyhton等。

感谢各位的阅读!关于“使用python抓取B站数据的方法”这篇文章就分享到这里了,希望以上内容可以对大家有一定的帮助,让大家可以学到更多知识,如果觉得文章不错,可以把它分享出去让更多的人看到吧!

--结束END--

本文标题: 使用python抓取B站数据的方法

本文链接: https://www.lsjlt.com/news/276958.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑,方便收藏和打印~

下载Word文档
猜你喜欢
  • 使用python抓取B站数据的方法
    这篇文章给大家分享的是有关使用python抓取B站数据的方法的内容。小编觉得挺实用的,因此分享给大家做个参考,一起跟随小编过来看看吧。概述可以获取的数据包括:video-视频模块user-用户模块dynamic-动态模块这次用“Runnin...
    99+
    2023-06-15
  • 使用Python和Scrapy实现抓取网站数据
    目录一、安装Scrapy二、创建一个Scrapy项目三、定义一个Scrapy爬虫四、运行Scrapy爬虫五、保存抓取的数据六、遵守网站的robots.txt七、设置下载延迟八、使用中...
    99+
    2023-05-12
    Python Scrapy抓取网站数据 Python Scrapy抓取数据 Python Scrapy
  • 如何使用python爬取B站排行榜Top100的视频数据
    记得收藏呀!!! 1、第三方库导入 from bs4 import BeautifulSoup # 解析网页 import re # 正则表达式,进行文字匹配 import ...
    99+
    2024-04-02
  • python批量抓取的方法
    今天小编给大家分享一下python批量抓取的方法的相关知识点,内容详细,逻辑清晰,相信大部分人都还太了解这方面的知识,所以分享这篇文章给大家参考一下,希望大家阅读完这篇文章后有所收获,下面我们一起来了解一下...
    99+
    2024-04-02
  • 怎么用python抓取游戏数据
    要使用Python抓取游戏数据,你可以按照以下步骤进行操作: 导入所需的库,例如requests和BeautifulSoup: ...
    99+
    2023-10-26
    python
  • 【Python】使用Python做简易爬虫爬取B站评论
    目录 一、前言 二、分析网页 三、代码 1.头 2.获取根评论 3.获取子评论 四、总代码 五、总结 一、前言         B站评论没有查找功能,就随手写了一个爬虫爬取B站评论存储到本地txt中         首先需要安装pyth...
    99+
    2023-08-31
    python 爬虫 开发语言
  • Python获取B站粉丝数的示例代码
    要使用代码,需要安装Python 3.x,并且要安装库,在cmd输入pip install requests json time 复制代码,修改最上方变量改成你自己的UID,保存为x...
    99+
    2024-04-02
  • Java使用selenium爬取b站动态的实现方式
    目录seleniummac安装chromedriver完整代码maven依赖完整代码目标:爬取b站用户的动态里面的图片,示例动态 如下所示,我们需要获取这些图片 如图所示,哔哩哔哩...
    99+
    2024-04-02
  • PHP抓取网络数据的6种常见方法
    本小节的名称为 fsockopen,curl与file_get_contents,具体是探讨这三种方式进行网络数据输入输出的一些汇总。这里先简单罗列一下一些常见的抓取网络数据的一些方法。 1. 用 file_get_...
    99+
    2023-09-02
    php 网络 服务器 Powered by 金山文档
  • Python爬虫之使用BeautifulSoup和Requests抓取网页数据
    目录一、简介二、网络爬虫的基本概念三、Beautiful Soup 和 Requests 库简介四、选择一个目标网站五、使用 Requests 获取网页内容六、使用 Beautifu...
    99+
    2023-05-14
    Python爬虫 使用BeautifulSoup和Requests Python爬虫抓取网页数据
  • Python使用Appium在移动端抓取微博数据的实现
    目录使用Appium在移动端抓取微博数据查找Android App的Package和入口记录微博刷新动作爬取微博第一条信息使用Appium在移动端抓取微博数据 Appium是移动端的...
    99+
    2024-04-02
  • 如何使用Puppeteer进行新闻网站数据抓取和聚合
    导语 Puppeteer是一个基于Node.js的库,它提供了一个高级的API来控制Chrome或Chromium浏览器。通过Puppeteer,我们可以实现各种自动化任务,如网页截图、PDF生成、表单填写、网络监控等。本文将介绍如何使用...
    99+
    2023-08-30
    Puppeteer 网络爬虫 数据抓取 爬虫代理 亿牛云
  • 如何使用Node.js+Cheerio进行数据抓取
    这篇文章主要介绍“如何使用Node.js+Cheerio进行数据抓取”的相关知识,小编通过实际案例向大家展示操作过程,操作方法简单快捷,实用性强,希望这篇“如何使用Node.js+Cheerio进行数据抓取...
    99+
    2024-04-02
  • python爬取B站关注列表及数据库的设计与操作
    目录一、数据库的设计与操作1、数据的分析2、数据库设计3、数据库操作二、爬虫三、完整代码四、项目仓库一、数据库的设计与操作 1、数据的分析 B站的关注列表在 https://api...
    99+
    2024-04-02
  • Python爬虫实现自动化爬取b站实时弹幕的方法
    这篇文章主要介绍了Python爬虫实现自动化爬取b站实时弹幕的方法,具有一定借鉴价值,感兴趣的朋友可以参考下,希望大家阅读完这篇文章之后大有收获,下面让小编带着大家一起了解一下。Python主要用来做什么Python主要应用于:1、Web开...
    99+
    2023-06-14
  • 怎么用Python抓取国家医疗费用数据
    这篇文章主要介绍“怎么用Python抓取国家医疗费用数据”,在日常操作中,相信很多人在怎么用Python抓取国家医疗费用数据问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”怎么用Python抓取国家医疗费用数据...
    99+
    2023-06-16
  • 如何使用Python抓取今日头条街拍图片数据
    这篇文章主要介绍了如何使用Python抓取今日头条街拍图片数据,具有一定借鉴价值,感兴趣的朋友可以参考下,希望大家阅读完这篇文章之后大有收获,下面让小编带着大家一起了解一下。(1)抓取今日头条街拍图片(2)分析今日头条街拍图片结构keywo...
    99+
    2023-06-22
  • Python中如何利用appium抓取app应用数据
    今天就跟大家聊聊有关Python中如何利用appium抓取app应用数据,可能很多人都不太了解,为了让大家更加了解,小编给大家总结了以下内容,希望大家根据这篇文章可以有所收获。什么是selenium?Selenium原本是一个用于Web应用...
    99+
    2023-06-02
  • 怎么使用Python抓取和优化所有网站图像
    本篇内容介绍了“怎么使用Python抓取和优化所有网站图像”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!要求和假设已安装 Python 3 ...
    99+
    2023-07-05
  • 如何使用Python抓取和优化所有网站图像
    目录要求和假设安装模块导入 Python 模块启动网络爬网规范化和修剪爬网数据创建输出文件夹处理图像的网址流程映像优化图像结论我发布了一个通过FTP自动优化新图像的教程。这次我们将抓...
    99+
    2023-02-24
    Python 抓取和优化所有网站图像 Python 抓取网站图像
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作