一起学爬虫——使用Beautiful S

爬虫 Beautiful 2023-01-30 22:01:30 170人浏览薄情痞子

Python 官方文档：入门教程 => 点击学习

摘要

要想学好爬虫，必须把基础打扎实，之前发布了两篇文章，分别是使用XPATH和requests爬取网页，今天的文章是学习Beautiful Soup并通过一个例子来实现如何使用Beautiful Soup爬取网页。什么是Beautiful

要想学好爬虫，必须把基础打扎实，之前发布了两篇文章，分别是使用XPATH和requests爬取网页，今天的文章是学习Beautiful Soup并通过一个例子来实现如何使用Beautiful Soup爬取网页。

什么是Beautiful Soup

Beautiful Soup是一款高效的python网页解析分析工具，可以用于解析HTL和XML文件并从中提取数据。
Beautiful Soup输入文件的默认编码是Unicode，输出文件的编码是UTF-8。
Beautiful Soup具有将输入文件自动补全的功能，如果输入的html文件的title标签没有闭合，则在输出的文件中会自动补全，并且还可以将格式混乱的输入文件按照标准的缩进格式输出。

Beautiful Soup要和其他的解析器搭配使用，例如Python标准库中的HTML解析器和其他第三方的lxml解析器，由于lxml解析器速度快、容错能力强，因此一般和Beautiful Soup搭配使用。

初始化Beautiful Soup对象的代码：

html = 
'''
<html><title>Hello Beautiful Soup</title><p>Hello</p></html>
'''
soup = BeautifulSoup(html,'lxml')

只需把第二个参数写成"lxml"即可使用lxml解析器初始化Beautiful Soup对象。

Beautiful Soup提供了三种选择器用去爬取节点中的数据，分别是节点选择器、方法选择器和CSS选择器。下面分别介绍着三个选择器的用法。

节点选择器：
HTML网页有title、p、a、head、tr、td等节点。通过Beautiful Soup对象+"."+节点即可直接访问到节点。
Beautiful Soup对象+"."+节点+"."+string即可提取到节点的文本信息。

用法	描述
soup.title	选择第一个title节点
soup.title.string	提取第一个title节点的文本信息
soup.title.attrs	获取第一个title节点的所有属性，返回的结果的词典。如果有class属性，则class属性返回的是list，class属性之间以空格当做分隔符
soup.p.contents	获取第一个p节点的所有直接子节点。该方法返回的是第一个p节点中包含的所有直接子字节点和文本，不包含孙节点，两个节点之间的文本也当做是一个节点返回。返回的结果是列表
soup.p.children	返回第一个p节点的所有直接子节点，返回的结果是list_iterator对象
soup.p.descendants	获取第一个p节点的所有子孙节点
soup.a.parent	获取第一个a节点的父节点
soup.a.parents	获取第一个a节点的所有祖先节点
soup.p.next_siblings	获取第一个p节点的下一个兄弟节点
soup.p.previous_siblings	获取第一个p节点的上一个兄弟节点

方法选择器：
根据传入的参数查找符合条件的节点。
下面是方法选择器提供的方法：

方法	描述
find_all(name,attrs,recursive,text,**kwargs)	根据传入参数查找所有符合条件的节点， name是节点名，attrs属性值，text文本内容等。 text参数可以是字符串，也可以是正则表达式: soup.find_all(text=re.compile('test'))
find(name,attrs,recursive,text,**kwargs)	返回第一个符合条件的节点
find_parents()	返回所有祖先节点
find_parent()	返回父节点
find_next_siblings()	往后查找，所有兄弟节点
find_next_sibling()	往后查找，返回第一个兄弟节点
find_previous_siblings()	往前查找，返回所有兄弟节点
find_previous_sibling()	往前查找，返回第一个兄弟节点

在使用上面的方法时，如果参数中有Python的关键字，则需要在参数下面加一个下划线，例如下面的代码，class是Python的关键字，必须在class后加下划线class_="title_class"：

from bs4 import BeautifulSoup

html = '''
<html>
    <body>
        <title id="title_id" class="title_class" name="title name">Test BeautifulSoup</title>
        <p>
            <a href = "./test_beautifulsoup.html">test beautifulsoup link<a>
            
        </p>
        <ul>
            <li class="animal">cat</li>
            <li class="animal">dog</li>
        </ul>
    </body>
</html>
'''

soup = BeautifulSoup(html,'lxml')
print(soup.find_all(name='title',class_='title_class'))

CSS选择器：
BeautifulSoup还支持获取css元素，例如ul、div、li等元素。CSS选择器主要提供select()方法获取符合条件的节点(Tag对象)，然后通过节点的get_text()方法和text属性可以获取该节点的文本值。

select方法还可以根据css的样式规则选择相应的节点：

from bs4 import BeautifulSoup

html = '''
<html>
    <body>
        <title id="title_id" class="title_class" name="title name">Test BeautifulSoup</title>
        <p>
            <a href = "./test_beautifulsoup.html">test beautifulsoup link<a>
            
        </p>
        <ul class="animal" id="aninal_id">
            <li class="cat">cat</li>
            <li class="animal dog">dog</li>
        </ul>
        <ul class="fruit" id = "fruit_id">
            <li class="apple">apple</li>
            <li class="banana">banana</li>
        </ul>
    </body>
</html>
'''

soup = BeautifulSoup(html,'lxml')
print('获取id为title_的所有节点')
print(soup.select('#title_id'))
print('获取class为title_的所有节点')
print(soup.select('.title_class'))
print('获取所有ul节点下面的所有li节点')
print(soup.select('ul li'))
print('获取所有class为fruit节点下的所有li节点')
print(soup.select('.fruit li'))
print('获取所有class为fruit节点下的第一个li节点的文本值')
print(soup.select('.fruit li')[0].string)
print('获取所有class为fruit节点下的第一个li节点的文本值')
print(soup.select('.fruit li')[0].get_text())
print('获取所有class为fruit节点下的第一个li节点的class属性值，注意class属性返回的是list列表，属性之间用空格分隔')
print(soup.select('.fruit li')[0].attrs['class'])
print(soup.select('.animal li')[1].attrs['class'])
print('循环迭代所有ul下面的所有li节点的文本值')
for li in soup.select('ul li'):
    print(li.text)

下面使用Beautiful Soup爬取豆瓣音乐排行榜。
在浏览器中打开豆瓣音乐排行榜，打开浏览器，输入网址：https://music.douban.com/chart，我们要抓取的是每首歌曲的排名、歌曲名、演唱者、播放次数、上榜天数等数据。
python beautifulsoup

下面分析怎么通过beautiful soup抓取到我们的数据。
通过开发者工具，我们可以看到所有歌曲是在class为article的div中，然后每首个在class为clearfix的li中。
python beautifulsoup
因此首先使用css选择器获取到class为article下面的所有li节点：

soup.select(".article li")

然后查看每首歌曲的html代码：
python beautifulsoup
红色框部分是一首歌的html代码。
歌曲排名在class为“gree-num-box”的span节点中，因为span节点是<li class="clearfix">节点的子节点，获取排名的代码为：li.span.text

绿色框中A节点中是歌曲的链接和图片链接，获取歌曲链接的代码为：li.a['href']

蓝色框中是歌曲的名字、演唱者和播放次数，歌曲名是在class="icon-play"的H3节点中，因此可以使用方法选择器中的find()方法获取到H3节点，然后获取H3节点下面a节点中的文本信息就是歌曲的名字，代码为：li.find(class_="icon-play").a.text

获取演唱者和播放次数的代码为：
li.find(class_="intro").p.text.strip()

获取上榜天数的代码为：

li.find(class_="days").text.strip()

在豆瓣音乐排行榜的页面一个现实20首歌曲，前面10首歌曲会有图片，后面10首歌曲是没有图片的，因此后面10首歌曲将不获取图片的地址。

另外还有一点需要注意的是，后面10首歌曲的演唱者和播放次数是在class="icon-play"的p节点中：
python beautifulsoup

而该节点中有a节点，要想获取a节点外的信息，必须使用节点选择器的contents方法：
li.find(class_="intro").p.contents[2].strip()
contents返回的是p节点的直接子节点，以列表的形式返回，这里返回列表中有3个元素，分别是

后的字符串，a节点、演唱者/播次数。contents会将直接子节点之间的换行符也当做一个元素。

代码整理后如下：

# coding:utf-8

from bs4 import BeautifulSoup
import requests
def parseHtml(url):
    headers = {"User-Agent": "Mozilla/5.0 (windows NT 10.0; WOW64) AppleWEBKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36 SE 2.X MetaSr 1.0"}

    response = requests.get(url,headers=headers)
    soup = BeautifulSoup(response.text,'lxml')
    #使用css选择器获取class="article"的节点下面的所有li节点
    for index,li in enumerate(soup.select(".article li")):
        if(index <10):
            print('歌曲排名：' + li.span.text)
            print('歌曲链接：' + li.a['href'])
            print('歌曲名：' + li.find(class_="icon-play").a.text)#使用方法选择器
            print('演唱者/播放次数：' + li.find(class_="intro").p.text.strip())
            print('上榜时间：'+li.find(class_="days").text.strip())
        else:
            print('歌曲排名：' + li.span.text)
            print('歌曲名：' + li.find(class_="icon-play").a.text)
            print('演唱者/播放次数：' + li.find(class_="intro").p.contents[2].strip())#方法选择器和节点选择器搭配使用
            print('上榜时间：' + li.find(class_="days").text.strip())
        print('—————————————————强力分隔符———————————————————')

def main():
    url = "Https://music.douban.com/chart"
    parseHtml(url)

if __name__ == '__main__':
    main()

本文通过爬取豆瓣音乐排行榜的小项目学习了如何使用Beautiful Soup的节点选择器、方法选择器、CSS选择器来爬取一个网页。这三个选择器可以混合搭配使用。

您可能感兴趣的文档:

点击免费下载>>软考高级考试备考技巧/历年真题/备考精华资料

--结束END--

本文标题: 一起学爬虫——使用Beautiful S

本文链接: https://www.lsjlt.com/news/180350.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑，方便收藏和打印～

下载Word文档

去做题

猜你喜欢

一起学爬虫——使用Beautiful S

要想学好爬虫，必须把基础打扎实，之前发布了两篇文章，分别是使用XPATH和requests爬取网页，今天的文章是学习Beautiful Soup并通过一个例子来实现如何使用Beautiful Soup爬取网页。什么是Beautiful ...

99+

2023-01-30

爬虫 Beautiful
一起学爬虫——使用xpath库爬取猫眼电

之前分享了一篇使用requests库爬取豆瓣电影250的文章，今天继续分享使用xpath爬取猫眼电影热播口碑榜 XPATH语法 XPATH(XML Path Language)是一门用于从XML文件中查找信息的语言。通用适用于从HTML文...

99+

2023-01-30

爬虫猫眼 xpath
一起学爬虫——一步一步打造爬虫代理池

最近在使用爬虫爬取数据时，经常会返回403代码，大致意思是该IP访问过于频繁，被限制访问。限制IP访问网站最常用的反爬手段了，其实破解也很容易，就是在爬取网站是使用代理即可，这个IP被限制了，就使用其他的IP。对于高大上的公司来说，他们基...

99+

2023-01-30

爬虫
python爬虫beautiful soup的使用方式

目录前言一，Beautiful Soup简介二，Beautiful Soup的解析器2.1 各种解析器一览2.2 引入解析器的语法三，Beautiful Soup解析得到的四种对象3...

99+

2024-04-02
python网络爬虫精解之Beautiful Soup的使用说明

目录一、Beautiful Soup的介绍二、Beautiful Soup的使用1、节点选择器2、提取信息3、关联选择4、方法选择器5、CSS选择器一、Beautiful Soup的...

99+

2024-04-02
学习爬虫的第一天

爬虫是什么？网络就如同蜘蛛网，而数据相当于里面的节点，爬虫如同蜘蛛，通过节点去获取蜘蛛网上的内容，获取想要的数据信息获取网页数据方式： 1、浏览器访问——下载网页数据 2、模拟浏览器对网页进行访问——解析数据——将所需要的内容保存在本...

99+

2023-01-31

爬虫
六个步骤学会使用Python爬虫爬取数据(爬虫爬取微博实战)

用python的爬虫爬取数据真的很简单，只要掌握这六步就好，也不复杂。以前还以为爬虫很难，结果一上手，从初学到把东西爬下来，一个小时都不到就解决了。 Python爬虫六部曲第一步：安装request...

99+

2023-09-10

python 爬虫 python入门 python爬虫 python爬虫爬取网页数据
【100天精通python】Day43：python网络爬虫开发_爬虫基础（urlib库、Beautiful Soup库、使用代理+实战代码）

目录 1 urlib 库 2 Beautiful Soup库 3 使用代理 3.1 代理种类 HTTP、HTTPS 和 SOCKS5 3.2 使用 urllib 和 requests 库使用代理 3.3 案例：自建代理池 4 实战提取视频...

99+

2023-08-31

python 爬虫 http
如何使用python爬虫爬取大学排名信息

这篇文章将为大家详细讲解有关如何使用python爬虫爬取大学排名信息，小编觉得挺实用的，因此分享给大家做个参考，希望大家阅读完这篇文章后可以有所收获。这次爬取的网址请搜索“阿凡题”（纯技术讨论）“阿凡题”（纯技术讨论）在该网址选择查院校...

99+

2023-06-02
Python爬虫学习之requests的使用教程

目录requests库简介requests库安装1、pip命令安装2、下载代码进行安装requests库的使用发送请求get请求抓取二进制数据post请求POST请求的文件上传利用r...

99+

2024-04-02
Python爬虫入门(一)（适合初学者）

Python爬虫入门(一) （适合初学者）关于爬虫是什么，怎样保证爬虫的合法性小编在这就不再过多的阐述，从本章起，小编将和大家一起分享在学习python爬虫中的所学，希望可以和大家一起进步，也希望各...

99+

2023-09-02

爬虫
python爬虫Mitmproxy安装使用学习笔记

目录一、简介和安装1.1、概念和作用概念作用1.2、安装1.3、工具介绍二、设置代理2.1、PC端设置代理2.2、PC端安装证书2.3、移动端设置代理三、 mitmdump3.1、插...

99+

2024-04-02
python爬虫怎么利用requests制作代理池s

本篇内容介绍了“python爬虫怎么利用requests制作代理池s”的有关知识，在实际案例的操作过程中，不少人都会遇到这样的困境，接下来就让小编带领大家学习一下如何处理这些情况吧！希望大家仔细阅读，能够学有所成！　　爬取代理然后验证代理，...

99+

2023-06-02
小程序开发（一）：使用scrapy爬虫

过完年回来，业余时间一直在独立开发一个小程序。主要数据是8000+个视频和10000+篇文章，并且数据会每天自动更新。我会整理下整个开发过程中遇到的问题和一些细节问题，因为内容会比较多，我会分成三到四篇文章来进行，本文是该系列的第一篇文...

99+

2023-01-31

爬虫程序开发 scrapy
爬虫学习之第一章网络请求

爬虫的实际例子：搜索引擎（百度、谷歌、360搜索等）。伯乐在线。惠惠购物助手。数据分析与研究（数据冰山知乎专栏）。抢票软件等。什么是网络爬虫：通俗理解：爬虫是一个模拟人类请求网站行为的程序。可以自动请求网页、并数据...

99+

2023-01-31

爬虫网络
python爬虫-execjs使用

python爬虫-execjs使用 ecexjs的作用通过python代码去执行JavaScript代码的库 execjs的安装 pip install PyExecJS execjs使用之前，得先安装node环境，去网上先去下载no...

99+

2023-01-31

爬虫 python execjs
基础爬虫，谁学谁会，用requests、

爬取豆瓣Top250电影的评分、海报、影评等数据！本项目是爬虫中最基础的，最简单的一例；后面会有利用爬虫框架来完成更高级、自动化的爬虫程序。此项目过程是运用requests请求库来获取html，再用正则表达式来解析从中获取所...

99+

2023-01-30

爬虫谁会基础
使用python编写简单网络爬虫（一）

总算有时间动手用所学的python知识编写一个简单的网络爬虫了，这个例子主要实现用python爬虫从百度图库中下载美女的图片，并保存在本地，闲话少说，直接贴出相应的代码如下：---------------------------...

99+

2023-01-31

爬虫简单网络
Python爬虫1-使用urlopen

GitHub代码练习地址：https://github.com/Neo-ML/PythonPractice/blob/master/SpiderPrac01_urlopen.py 爬虫简介- 爬虫定义：网络爬虫（又被称为网页蜘蛛，网络机器...

99+

2023-01-30

爬虫 Python urlopen
macos 使用vscode 开发python 爬虫（安装一）

使用VS Code进行Python爬虫开发是一种常见的选择，下面是一些步骤和建议：安装VS Code：首先，确保你已经在你的macOS上安装了VS Code。你可以从官方网站（https://cod...

99+

2023-10-19

macos vscode python