首页 > 资讯 > 后端开发 > Python >Python中的Beautiful Soup模块的用法

167

分享到

Python中的Beautiful Soup模块的用法

2023-06-02 06:06:30 167人浏览独家记忆

Python 官方文档：入门教程 => 点击学习

摘要

这篇文章主要介绍“python中的Beautiful Soup模块的用法”，在日常操作中，相信很多人在Python中的Beautiful Soup模块的用法问题上存在疑惑，小编查阅了各式资料，整理出简单好用的操作方法，希望对大家解答”Pyt

这篇文章主要介绍“python中的Beautiful Soup模块的用法”，在日常操作中，相信很多人在Python中的Beautiful Soup模块的用法问题上存在疑惑，小编查阅了各式资料，整理出简单好用的操作方法，希望对大家解答”Python中的Beautiful Soup模块的用法”的疑惑有所帮助！接下来，请跟着小编一起来学习吧！

1.Beautiful Soup模块的介绍

Beautiful Soup 是一个可以从html或XML文件中提取数据的Python库，简单来说，它能将HTML的标签文件解析成树形结构，然后方便地获取到指定标签的对应属性，还可以方便的实现全站点的内容爬取和解析；
Beautiful Soup支持Python标准库中的HTML解析器，还支持一些第三方的解析器，如果我们不安装它，则 Python 会使用 Python默认的解析器；
lxml 是python的一个解析库，支持HTML和XML的解析，HTML5lib解析器能够以浏览器的方式解析，且生成HTML5文档；

pip install beautifulsoup4pip install html5libpip install lxml

2. Beautiful Soup模块解析HTML文档

假如现在有一段不完整的HTML代码，我们现在要使用Beautiful Soup模块来解析这段HTML代码

data = '''                                         <html><head><title>The DORMouse's story</title></he<body>                                             <p class="title"><b id="title">The Dormouse's story</b></p>   <p class="story">Once upon a time there were three <a href="Http://example.com/elsie" class="sister" i<a href="http://example.com/lacie" class="sister" i<a href="http://example.com/tillie" class="sister" and they lived at the bottom of a well.</p>        <p class="story">...</p>                           '''

首先需要导入BeautifulSoup模块，再实例化BeautifulSoup对象

from bs4 import BeautifulSoup           soup = BeautifulSoup(data,'lxml')

然后通过BeautifulSoup提供的方法就可以拿到HTML的元素、属性、链接、文本等，BeautifulSoup模块可以将不完整的HTML文档，格式化为完整的HTML文档，比如我们打印print(soup.prettify())看一下输出什么？

<html> <head>  <title>   The Dormouse's story  </title> </head> <body>  <p class="title">   <b id="title">    The Dormouse's story   </b>  </p>  <p class="story">   Once upon a time there were three   <a a="" and="" at="" bottom="" class="sister" href="http://example.com/elsie" i="" lived="" of="" the="" they="" well.="">    <p class="story">     ...    </p>   </a>  </p> </body></html>

获取标签，如title标签，a标签等

print('title = {}'.format(soup.title))             # 输出：title = <title>The Dormouse's story</title>print('a={}'.format(soup.a))

获取标签的名称，如title标签，body标签等

print('title_name = {}'.format(soup.title.name))# 输出：title_name = titleprint('body_name = {}'.format(soup.body.name))# 输出：body_name = body

获取标签的内容，如title标签

print('title_string = {}'.format(soup.title.string))#  输出：title_string = The Dormouse's story

如果想要获取某个标签的父标签的名称，可以使用parent，如title标签，可以得到父标签head标签，且会自定补齐不完整的标签；

print('title_pareat_name = {}'.format(soup.title.parent))# 输出：title_pareat_name = <head><title>The Dormouse's story</title></head>

获取第一个p标签

print('p = {}'.format(soup.p))# 输出：p = <p class="title"><b>The Dormouse's story</b></p>

获取第一个p标签的class的值，获取第一个a标签的class值

print('p_class = {}'.format(soup.p["class"]))# 输出：p_class = ['title']print('a_class = {}'.format(soup.a["class"]))# 输出：a_class = ['sister']

获取所有的标签

#  获取所有的a标签print('a = {}'.format(soup.find_all('a')))#  获取所有的p标签  print('p = {}'.format(soup.find_all('p')))

获取id为link3的标签

print('a_link = {}'.format(soup.find(id='title')))# 输出：a_link = <b id="title">The Dormouse's story</b>

3.BeautifulSoup中的对象

BeautifulSoup对象分为四类，分别是Tag(获取标签), NavigableString(获取标签内容) , BeautifulSoup(根标签), Comment(标签内的所有的文本) ；

语法：

soup.标签名：获取HTML中的标签；
soup.标签名.name：获取HTML中标签的名称；
soup.标签名.attrs：获取标签的所有属性；
soup.标签名.string：获取HTML中标签的文本内容；
soup.标签名.parent：获取HTML中标签的父标签；
prettify()方法：可以将Beautiful Soup的文档树格式化后以Unicode编码输出，每个XML/HTML标签都独占一行；

4.遍历文档

contents：获取所有子节点，返回一个列表，可以通过下标取值；

soup = BeautifulSoup(html,"lxml")# 返回一个列表print(soup.p.contents)# 拿到第一个子节点print(soup.p.contents[0])

children：返回子节点的生成器对象；

for tag in soup.p.children:    print(tag)

soup.strings：获取所有节点的内容，包括空格；

soup = BeautifulSoup(html,"lxml")for content in soup.strings:    print(repr(content))

soup.stripped_strings：获取所有节点的内容，不包括空格；

soup = BeautifulSoup(html,"lxml")for tag in soup.stripped_strings:    print(repr(tag))

5.查找标签

find_all()：查找所有指定标签名称的子节点（可同时查找多个标签），并判断是否符合过滤器的条件，返回一个列表；

soup = BeautifulSoup(html,"lxml")print(soup.find_all('a'))print(soup.find_all(['a','p']))print(soup.find_all(re.compile('^a')))

find()：和find_all()差不多，但是find_all() 方法的返回结果是值包含一个元素的列表，而 find() 方法直接返回结果；

soup = BeautifulSoup(html,"lxml")print(soup.find('a'))

到此，关于“Python中的Beautiful Soup模块的用法”的学习就结束了，希望能够解决大家的疑惑。理论与实践的搭配能更好的帮助大家学习，快去试试吧！若想继续学习更多相关知识，请继续关注编程网网站，小编会继续努力为大家带来更多实用的文章！

您可能感兴趣的文档:

点击免费下载>>软考高级考试备考技巧/历年真题/备考精华资料

--结束END--

本文标题: Python中的Beautiful Soup模块的用法

本文链接: https://www.lsjlt.com/news/229056.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑，方便收藏和打印～

下载Word文档

去做题

猜你喜欢

PythonOOP 的力量：封装与抽象类的超级英雄联盟

...

99+

2024-05-14
Python 代码的建筑师：封装与抽象类的蓝图和构建工具

...

99+

2024-05-14
PythonOOP 的航海图：封装与抽象类的船帆和指南针

...

99+

2024-05-14
Python 封装与抽象类的实验室：试验和发现的乐趣

...

99+

2024-05-14
Python 代码的可读性之钥：封装与抽象类的解读指南

...

99+

2024-05-14
PythonOOP 的秘密花园：封装与抽象类的花卉盛宴

...

99+

2024-05-14
Python 代码的组织大师：封装与抽象类的秩序之道

...

99+

2024-05-14
Python 封装与抽象类的终极秘籍：通往对象导向编程之路

...

99+

2024-05-14
PythonOOP 的宝藏：封装与抽象类的寻宝之旅

...

99+

2024-05-14
Python 代码的救星：封装与抽象类的代码重构秘籍

...

99+

2024-05-14

软考高级职称资格查询

软考职称历年真题下载

2023下半年-信息系统项目管理师-真题考点汇总（完整版）
164.2 KB 查看
2023年下半年信息系统项目管理师第一、二批次各科目真题考点整理(考友回忆版)
143.67 KB 查看
2023上半年软考高级《信息系统项目管理师》真题答案（抢先版）
500.26 KB 查看
2022年下半年软考高级职称考试考情分析
823.36 KB 查看
2022年下半年软考高级职称考试真题
569.84 KB 查看

软考职称资料下载

热门wiki

近期文章

基于聚合数据的短信API接口调用示例-Python版

基于聚合数据的老黄历接口调用示例-Python版

基于Python的免费手机号码归属地查询

基于Python的免费IP地址归属地查询

python利用pyqt5和opencv打开电脑摄像头并进行拍照

用python 修改word中表格数据，插入图片 +实例分析

基于Python的免费天气预报接口查询

基于Python的免费新闻头条接口查询

PythonOOP 的力量：封装与抽象类的超级英雄联盟

Python 代码的建筑师：封装与抽象类的蓝图和构建工具

回答

如何调试操作系统的错误？
操作系统

2023-11-15发布

回答

操作系统中的I/O系统是如何实现的？
操作系统

2023-11-15发布

回答

如何实现操作系统的内存管理？
操作系统

2023-11-15发布

回答

什么是虚拟内存，它对操作系统有什么影响？
操作系统

2023-11-15发布

回答

ASP中的MVC架构和WebForms架构有什么区别和使用场景？
ASP.NET

2023-11-15发布

回答

ASP中的数据验证和数据校验有什么不同？
ASP.NET

2023-11-15发布

回答

ASP中的ADO对象和DAO对象有什么区别和使用方法？
ASP.NET

2023-11-15发布

回答

Node.js中的包管理器NPM是什么？如何使用它进行依赖管理？
node.js

2023-11-15发布

回答

Vue.js中的动态组件是什么？如何使用它来动态渲染组件？
VUE

2023-11-15发布

回答

如何使用Vue.js实现懒加载和预加载？
VUE

2023-11-15发布

Python中的Beautiful Soup模块的用法

1.Beautiful Soup模块的介绍

2. Beautiful Soup模块解析HTML文档

3.BeautifulSoup中的对象

4.遍历文档

5.查找标签

本篇文章演示代码以及资料文档资料下载

PythonOOP 的力量：封装与抽象类的超级英雄联盟

Python 代码的建筑师：封装与抽象类的蓝图和构建工具

PythonOOP 的航海图：封装与抽象类的船帆和指南针

Python 封装与抽象类的实验室：试验和发现的乐趣

Python 代码的可读性之钥：封装与抽象类的解读指南

PythonOOP 的秘密花园：封装与抽象类的花卉盛宴

Python 代码的组织大师：封装与抽象类的秩序之道

Python 封装与抽象类的终极秘籍：通往对象导向编程之路

PythonOOP 的宝藏：封装与抽象类的寻宝之旅

Python 代码的救星：封装与抽象类的代码重构秘籍

python分析数据的方法是什么

如何使用Python实现抽奖小程序

python copy函数的作用是什么

python进程池创建队列的方法是什么

python字符串处理与应用的方法有哪些

python全局变量如何定义

python如何读取文件夹下所有文件

python keyerror错误怎么解决

python如何提取字符串的数字

python中怎么将回车作为输入内容