广告
返回顶部
首页 > 资讯 > 后端开发 > Python >python爬虫爬取bilibili网页基本内容
  • 804
分享到

python爬虫爬取bilibili网页基本内容

2024-04-02 19:04:59 804人浏览 薄情痞子

Python 官方文档:入门教程 => 点击学习

摘要

用爬虫爬取bilibili网站排行榜游戏类的所有名称及链接: 导入requests、BeautifulSoup import requests from bs4 import Be

爬虫爬取bilibili网站排行榜游戏类的所有名称及链接:

导入requestsBeautifulSoup

import requests
from bs4 import BeautifulSoup

然后我们需要插入网站链接并且要解析网站并打印出来:

e = requests.get('https://www.bilibili.com/v/popular/rank/game')   #当前网站链接
html = e.content
soup = BeautifulSoup(html,'html.parser')    #解析html
print(soup)

我们可以看到密密麻麻的代码函数,但不太简洁明了,我们去优化一下

 继续插入如下代码这个代码是可以爬取我们想要的类,可以更简介的简化代码

div_people_list = soup.find('ul', attrs={'class': 'rank-list'})  #爬取ul类class为rank-list下的数据

可以看到还是不够简介:

继续插入如下代码:

ca_s = div_people_list.find_all('a', attrs={'class': 'title'})   #爬取a类class为title下的数据

可以看到链接及主题都提取出来了,但还是有瑕疵:

 我们加入这行代码挨个打印并提取标题及链接,由于链接提取出来的是//www.bilibili.com/video/BV1yZ4y1D7ef

前面没有http:点击进去会出现错误,所有我们需要在前面加入Http:进行连接在一起打印

for t in ca_s:
    url = t['href']
    name = t.get_text()
    print(name+'\t点击链接直接观看链接:'+f'http:{url}')

可以看到我们的标题及连接都爬取出来了 

完整代码:

import requests
from bs4 import BeautifulSoup
 
e = requests.get('https://www.bilibili.com/v/popular/rank/game')   #当前网站链接
html = e.content
soup = BeautifulSoup(html,'html.parser')    #解析html
div_people_list = soup.find('ul', attrs={'class': 'rank-list'})  #爬取ul类class为rank-list下的数据
ca_s = div_people_list.find_all('a', attrs={'class': 'title'})   #爬取a类class为title下的数据
 
#挨个传输到t,然后打印数据
for t in ca_s:
    url = t['href']
    name = t.get_text()
    print(name+'\t点击链接直接观看链接:'+f'http:{url}')

到此这篇关于python爬虫爬取bilibili网页基本内容的文章就介绍到这了,更多相关python爬取bilibili网页内容内容请搜索编程网以前的文章或继续浏览下面的相关文章希望大家以后多多支持编程网!

--结束END--

本文标题: python爬虫爬取bilibili网页基本内容

本文链接: https://www.lsjlt.com/news/161514.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑,方便收藏和打印~

下载Word文档
猜你喜欢
  • python爬虫爬取bilibili网页基本内容
    用爬虫爬取bilibili网站排行榜游戏类的所有名称及链接: 导入requests、BeautifulSoup import requests from bs4 import Be...
    99+
    2022-11-12
  • python爬虫中如何爬取网页新闻内容
    小编给大家分享一下python爬虫中如何爬取网页新闻内容,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获,下面让我们一起去了解一下吧!python可以做什么Python是一种编程语言,内置了许多...
    99+
    2023-06-14
  • Python 爬虫网页内容提取工具xpath
    上一节,我们详述了lxml.html的各种操作,接下来我们熟练掌握一下XPath,就可以熟练的提取网页内容了。XPath 是什么?XPath的全称是 XML Path Language,即XML 路径语言,是一种在XML(HTML)文档中查...
    99+
    2023-06-02
  • Python爬虫教你爬取视频内容
            前面介绍了基本的数据爬取,图片爬取的相关案例前面文章也有涉及,关于有些案例网站不能登录的问题,可以再找些别的网站,因为道理既然明白了,其实什么网站都一样,它有反爬机制,自然有应对它的办...
    99+
    2023-09-16
    爬虫 音视频 python
  • 怎么用python爬虫抓取网页文本
    使用Python爬虫抓取网页文本可以使用第三方库requests和beautifulsoup。首先,安装requests和beaut...
    99+
    2023-10-18
    python
  • Python爬虫基础--分布式爬取贝壳网
      1. server_code01 2. server_code02 3. server_code03   ...
    99+
    2023-01-30
    爬虫 分布式 贝壳
  • Python爬虫获取基金基本信息
    目录1 前言2 如何抓取基本信息3 xpath 获取数据4 bs4 获取数据5 最终结果展现1 前言 上篇文章Python爬虫获取基金列表我们已经讲述了如何从基金网站上获取基金的列表...
    99+
    2022-11-11
  • Python 爬虫:如何用 BeautifulSoup 爬取网页数据
    在网络时代,数据是最宝贵的资源之一。而爬虫技术就是一种获取数据的重要手段。Python 作为一门高效、易学、易用的编程语言,自然成为了爬虫技术的首选语言之一。而 BeautifulSoup 则是 Py...
    99+
    2023-10-23
    python 爬虫 beautifulsoup
  • python爬虫爬取指定内容的解决方法
    目录解决办法:实列代码如下:(以我们学校为例)爬取一些网站下指定的内容,一般来说可以用xpath来直接从网页上来获取,但是当我们获取的内容不唯一的时候我们无法选择,我们所需要的、所指...
    99+
    2022-11-13
  • python爬虫入门实战之爬取网页图片
    本篇文章给大家带来了关于Python的相关知识,其中主要整理了爬取网页图片的相关问题,要想高效的获取数据,爬虫是非常好用的,而用python做爬虫也十分简单方便,下面通过一个简单的小爬虫程序来看一看写爬虫的基本过程,下面一起来看一下,希望对...
    99+
    2022-07-11
    python
  • python爬虫爬取网页数据并解析数据
    本篇文章给大家带来了关于Python的相关知识,主要介绍了python爬虫如何爬取网页数据并解析数据,帮助大家更好的利用爬虫分析网页,下面一起来看一下,希望对大家有帮助。【相关推荐:Python3视频教程 】1.网络爬虫的基本概念网络爬虫(...
    99+
    2022-08-15
    python
  • Python爬虫如何爬取网页中所有的url
    这篇文章主要介绍Python爬虫如何爬取网页中所有的url,文中介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们一定要看完!python可以做什么Python是一种编程语言,内置了许多有效的工具,Python几乎无所不能,该语言通俗易懂...
    99+
    2023-06-14
  • Python网络爬虫之Web网页基础
    目录⭐️Web网页基础🌟1.网页的组成✨HTML✨CSS✨JavaScript🌟2.网页的结构🌟3.节点树和节点间的关系🌟4.选择器🌟5.总结⭐️Web网页基础 我们在学习爬虫之前,...
    99+
    2023-05-15
    Python网络爬虫Web网页基础 Python网络Web网页基础 Python Web网页基础
  • python怎么爬取网页内的指定内容
    要爬取网页内的指定内容,可以使用Python中的第三方库,如BeautifulSoup和Requests。首先,需要安装这两个库。使...
    99+
    2023-08-08
    python
  • python爬虫之场内ETF基金获取
    目录1 前言2 ETF列表和简称3 ETF 信息获取3.1 ETF列表信获取3.2 获取基金的简称4 最终结果展示1 前言 之前已经介绍了基金的变动信息,但是这些基金都是属于场外的,...
    99+
    2022-11-10
  • Python怎么爬取网页内容并存储
    本篇内容介绍了“Python怎么爬取网页内容并存储”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!前言想必大家都爬取过各个网站上首页上的东西把...
    99+
    2023-06-02
  • Python网络爬虫项目:内容提取器的定义
    1. 项目背景 在python 即时网络爬虫项目启动说明中我们讨论一个数字:程序员浪费在调测内容提取规则上的时间,从而我们发起了这个项目,把程序员从繁琐的调测规则中解放出来,投入到更高端的数据处理工作中。...
    99+
    2022-06-04
    爬虫 定义 项目
  • python网络爬虫基于selenium爬取斗鱼直播信息
    目录一、本文使用的第三方包和工具二、selenium的介绍和浏览器驱动的安装1.selenium的介绍2.浏览器驱动的安装三、代码思路分析1.解析数据的函数2.保存数据的函数3.主函...
    99+
    2022-11-13
  • Python入门,以及简单爬取网页文本内
      最近痴迷于Python的逻辑控制,还有爬虫的一方面,原本的目标是拷贝老师上课时U盘的数据。后来发现基础知识掌握的并不是很牢固。便去借了一本Python基础和两本爬虫框架的书。便开始了自己的入坑之旅   言归正传   前期准备   Im...
    99+
    2023-01-30
    入门 文本 简单
  • Python网络爬虫之Web网页基础是什么
    本文小编为大家详细介绍“Python网络爬虫之Web网页基础是什么”,内容详细,步骤清晰,细节处理妥当,希望这篇“Python网络爬虫之Web网页基础是什么”文章能帮助大家解决疑惑,下面跟着小编的思路慢慢深入,一起来学习新知识吧。1.网页的...
    99+
    2023-07-05
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作