Python爬虫之解析HTML页面详解

Python解析HTML Python爬虫HTML 2023-05-18 11:05:21 686人浏览泡泡鱼

Python 官方文档：入门教程 => 点击学习

摘要

目录用python解析html页面HTML 页面的结构XPath 解析CSS 选择器解析正则表达式解析总结用Python解析HTML页面在网络爬取的过程中，我们通常需要对所爬取的页

用Python解析HTML页面

在网络爬取的过程中，我们通常需要对所爬取的页面进行解析，从中提取我们需要的数据。网页的结构通常是由 HTML 标签所组成的，通过对这些标签的解析，可以得到网页中所包含的有用信息。在 Python 中，有三种常见的 HTML 解析方式：正则表达式解析、XPath 解析和 CSS 选择器解析。本文将为大家介绍这三种解析方式的基本使用方法。

HTML 页面的结构

在讲解 HTML 解析方式之前，我们需要先了解一下 HTML 页面的基本结构。当我们在浏览器中打开一个网站，并通过鼠标右键菜单选择“显示网页源代码”菜单项时，就可以看到网页对应的 HTML 代码。HTML 代码通常由标签、属性和文本组成。标签用于承载页面要显示的内容，属性用于补充标签的信息，而文本则是标签所显示的内容。下面是一个简单的 HTML 页面代码结构示例：

<!DOCTYPE html>
<html>
    <head>
        <!-- head 标签中的内容不会在浏览器窗口中显示 -->
        <title>这是页面标题</title>
    </head>
    <body>
        <!-- body 标签中的内容会在浏览器窗口中显示 -->
        <h1>这是一级标题</h1>
        <p>这是一段文本</p>
    </body>
</html>

在这个 HTML 页面代码示例中，<!DOCTYPE html>是文档类型声明，<html>标签是整个页面的根标签，<head>和<body>是<html>标签的子标签，放在<body>标签下的内容会显示在浏览器窗口中，这部分内容是网页的主体；放在<head>标签下的内容不会在浏览器窗口中显示，但是却包含了页面重要的元信息，通常称之为网页的头部。HTML 页面大致的代码结构如下所示：

<!DOCTYPE html>
<html>
    <head>
        <!-- 页面的元信息，如字符编码、标题、关键字、媒体查询等 -->
    </head>
    <body>
        <!-- 页面的主体，显示在浏览器窗口中的内容 -->
    </body>
</html>

在 HTML 页面中，标签、层叠样式表（CSS）和 javascript 是构成页面的三要素。标签用来承载页面要显示的内容，CSS 负责对页面的渲染，而 JavaScript 用来控制页面的交互式行为。要实现 HTML 页面的解析，可以使用 XPath 的语法，它原本是 XML 的一种查询语法，可以根据 HTML 标签的层次结构提取标签中的内容或标签属性；此外，也可以使用 CSS 选择器来定位页面元素，就跟用 CSS 渲染页面元素是同样的道理。

XPath 解析

XPath 是在 XML（eXtensible Markup Language）文档中查找信息的一种语法，XML 跟 HTML 类似也是一种用标签承载数据的标签语言，不同之处在于 XML 的标签是可扩展的，可以自定义的，而且 XML 对语法有更严格的要求。XPath 使用路径表达式来选取 XML 文档中的节点或者节点集，这里所说的节点包括元素、属性、文本、命名空间、处理指令、注释、根节点等。

XPath 的路径表达式是一种类似于文件路径的语法，可以通过“/”和“//”来选取节点。单斜杠“/”表示选取根节点，双斜杠“//”表示选取任意位置的节点。例如，“/bookstore/book”表示选取根节点 bookstore 下的所有 book 子节点，“//title”表示选取任意位置的 title 节点。

XPath 还可以使用谓语（Predicate）来过滤节点。谓语是被嵌在方括号中的表达式，它可以是一个数字、一个比较运算符或一个函数调用。例如，“/bookstore/book[1]”表示选取 bookstore 的第一个子节点 book，“//book[@lang]”表示选取所有具有 lang 属性的 book 节点。

XPath 的函数包括字符串、数学、逻辑、节点、序列等函数，这些函数可以用于选取节点、计算值、转换数据类型等操作。例如，“string-length(string)”函数可以返回字符串的长度，“count(node-set)”函数可以返回节点集中节点的个数。

下面我们通过一个例子来说明如何使用 XPath 对页面进行解析。假设我们有如下的 XML 文件：

<?xml version="1.0" encoding="UTF-8"?>
<bookstore>
    <book>
      <title lang="eng">Harry Potter</title>
      <price>29.99</price>
    </book>
    <book>
      <title lang="zh">Learning XML</title>
      <price>39.95</price>
    </book>
</bookstore>

对于这个 XML 文件，我们可以用如下所示的 XPath 语法获取文档中的节点。

路径表达式	结果
/bookstore	选取根元素 bookstore。注意：假如路径起始于正斜杠( / )，则此路径始终代表到某元素的绝对路径！
//book	选取所有 book 子元素，而不管它们在文档中的位置。
//@lang	选取名为 lang 的所有属性。
/bookstore/book[1]	选取 bookstore 的第一个子节点 book。

CSS 选择器解析

CSS 选择器是一种基于 HTML 标签的属性和关系来定位元素的方法。它可以根据 HTML 标签的层次结构、类名、id 等属性来定位元素。在 Python 中，我们可以使用 BeautifulSoup 库来进行 CSS 选择器解析。

下面我们通过一个例子来说明如何使用 CSS 选择器对页面进行解析。假设我们有如下的 HTML 代码：

<!DOCTYPE html>
<html>
<head>
	<meta charset="utf-8">
	<title>这是页面标题</title>
</head>
<body>
	<div class="content">
		<h1>这是一级标题</h1>
		<p>这是一段文本</p>
	</div>
	<div class="footer">
		<p>版权所有 © 2021</p>
	</div>
</body>
</html>

我们可以使用如下所示的 CSS 选择器语法来选取页面元素。

选择器	结果
div.content	选取 class 为 content 的 div 元素。
h1	选取所有的 h1 元素。
div.footer p	选取 class 为 footer 的 div 元素下的所有 p 元素。
[href]	选取所有具有 href 属性的元素。

正则表达式解析

正则表达式是一种用来匹配、查找和替换文本的工具，它可以用于对 HTML 页面进行解析。在 Python 中，我们可以使用 re 模块来进行正则表达式解析。

下面我们通过一个例子来说明如何使用正则表达式对页面进行解析。假设我们有如下的 HTML 代码：

<!DOCTYPE html>
<html>
<head>
	<meta charset="utf-8">
	<title>这是页面标题</title>
</head>
<body>
	<div class="content">
		<h1>这是一级标题</h1>
		<p>这是一段文本</p>
	</div>
	<div class="footer">
		<p>版权所有 © 2021</p>
	</div>
</body>
</html>

我们可以使用如下所示的正则表达式来选取页面元素。

import re
html = '''
<!DOCTYPE html>
<html>
<head>
	<meta charset="utf-8">
	<title>这是页面标题</title>
</head>
<body>
	<div class="content">
		<h1>这是一级标题</h1>
		<p>这是一段文本</p>
	</div>
	<div class="footer">
		<p>版权所有 © 2021</p>
	</div>
</body>
</html>
'''
pattern = re.compile(r'<div class="content">.*?<h1>(.*?)</h1>.*?<p>(.*?)</p>.*?</div>', re.S)
match = re.search(pattern, html)
if match:
    title = match.group(1)
    text = match.group(2)
    print(title)
    print(text)

以上代码中，我们使用 re 模块的 compile 方法来编译正则表达式，然后使用 search 方法来匹配 HTML 代码。在正则表达式中，“.*?”表示非贪婪匹配，也就是匹配到第一个符合条件的标签就停止匹配，而“re.S”表示让“.”可以匹配包括换行符在内的任意字符。最后，我们使用 group 方法来获取匹配的结果。

总结

本文介绍了 Python 中常用的三种 HTML 解析方式：XPath 解析、CSS 选择器解析和正则表达式解析。在具体的应用过程中，我们可以根据需要选择不同的解析方式。XPath 解析适用于对 HTML 页面的层次结构进行解析，能够比较方便地定位页面元素；CSS 选择器解析适用于对 HTML 页面的类名、id 等属性进行解析，可以快速定位元素；正则表达式解析适用于对 HTML 页面的标签和文本进行解析，可以灵活地处理页面元素。希望本文能够对大家进行 HTML 解析方面的学习和实践有所帮助。

到此这篇关于python爬虫之解析HTML页面详解的文章就介绍到这了,更多相关Python解析HTML内容请搜索编程网以前的文章或继续浏览下面的相关文章希望大家以后多多支持编程网！

您可能感兴趣的文档:

点击免费下载>>软考高级考试备考技巧/历年真题/备考精华资料

--结束END--

本文标题: Python爬虫之解析HTML页面详解

本文链接: https://www.lsjlt.com/news/211966.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑，方便收藏和打印～

下载Word文档

去做题

猜你喜欢

Python爬虫之解析HTML页面详解

目录用Python解析HTML页面HTML 页面的结构XPath 解析CSS 选择器解析正则表达式解析总结用Python解析HTML页面在网络爬取的过程中，我们通常需要对所爬取的页...

99+

2023-05-18

Python解析HTML Python爬虫HTML
PythonRequests爬虫之求取关键词页面详解

目录需求:爬取搜狗首页的页面数据使用UA伪装求取关键词页面总结需求:爬取搜狗首页的页面数据 import requestsif __name__=='__main__': #...

99+

2024-04-02
python爬虫教程之bs4解析和xpath解析详解

目录bs4解析原理:如何实例化BeautifulSoup对象:用于数据解析的方法和属性:xpath解析xpath解析原理:实例化一个etree对象:xpath( ‘xpa...

99+

2024-04-02
Python爬虫之urllib库详解

目录一、说明：二、urllib四个模块组成：三、urllib.request1、urlopen函数2、response 响应类型3、Request对象　4、高级请求方式四、urlli...

99+

2024-04-02
Python爬虫10-页面解析数据提取思

GitHub代码练习地址：正则1：https://github.com/Neo-ML/PythonPractice/blob/master/SpiderPrac15_RE1.py　　　　　　　　　　正则2：match、search、fi...

99+

2023-01-31

爬虫页面数据
Python爬虫实战之xpath解析

XPath 是一门在 XML 文档中查找信息的语言，最初是用来搜寻 XML 文档的，但是它同样适用于 HTML 文档的搜索。所以在Python爬虫中，我们经常使用xpath解析这种高效便捷的方式来提...

99+

2023-09-23

python 爬虫开发语言
python爬虫之scrapy框架详解

1.在pycharm下安装scrapy函数库 2.将安装好scrapy函数库下的路径配置到系统path的环境变量中 3.打开cmd终端输入：scrapy.exe检查是否安装成功 ...

99+

2024-04-02
【Python爬虫】数据解析之bs4解析和xpath解析

🔥一个人走得远了，就会忘记自己为了什么而出发，希望你可以不忘初心，不要随波逐流，一直走下去🎶 🦋 欢迎关注🖱点赞👍收...

99+

2023-09-06

python 爬虫开发语言
爬虫之数据解析

　　一、啥是数据解析　　在上一篇关于爬虫的博客里，我提到过，整个爬虫分为四个部分，上一篇博客已经完成了前两步，也就是我说的最难的地方，接下来这一步数据解析不是很难，但就是很烦人，但只要你有耐心，一步一步查找、排除就会提取出目标信息，这一...

99+

2023-01-30

爬虫数据
Python爬虫,获取,解析,存储详解

目录1.获取数据2.解析数据3.数据保存为CSV格式和存入数据库总结1.获取数据 import requests def drg(url): try: h...

99+

2024-04-02
python爬虫系列三：html解析大法

Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库。它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式。在爬虫开发中主要用的是Beautiful Soup的查...

99+

2023-01-31

爬虫大法系列
Python爬虫网页，解析工具lxml.html（二）

【前情回顾】如何灵活的解析网页，提取我们想要的数据，是我们写爬虫时非常关心和需要解决的问题。从Python的众多的可利用工具中，我们选择了lxml的，它的好我们知道，它的妙待我们探讨。前面我们已经从HTML字符串转换成的HtmlElemen...

99+

2023-06-02
Python 爬虫网页，解析工具lxml.html（一）

狭义上讲，爬虫只负责抓取，也就是下载网页。而实际上，爬虫还要负责从下载的网页中提取我们想要的数据，即对非结构化的数据（网页）进行解析提取出结构化的数据（有用数据）。比如，我们要抓取了一个新闻页面的网页（html）下来，但我们想要的是这个网页...

99+

2023-06-02
python爬虫指南之xpath实例解析

Python爬虫指南之XPath实例解析XPath是一种用于在XML文档中进行导航和查找元素的语言。在爬虫中，XPath可以用于解析...

99+

2023-08-15

python
python爬虫之requests库的使用详解

目录python爬虫—requests库的用法基本的get请求带参数的GET请求：解析json使用代理获取cookie会话维持证书验证设置超时异常捕获异常处理总结 python爬虫...

99+

2024-04-02
python怎么爬虫lxml库解析xpath网页

这篇文章主要介绍“python怎么爬虫lxml库解析xpath网页”，在日常操作中，相信很多人在python怎么爬虫lxml库解析xpath网页问题上存在疑惑，小编查阅了各式资料，整理出简单好用的操作方法，希望对大家解答”python怎么爬...

99+

2023-06-30
java爬虫jsoup解析HTML实例分析

本篇内容介绍了“java爬虫jsoup解析HTML实例分析”的有关知识，在实际案例的操作过程中，不少人都会遇到这样的困境，接下来就让小编带领大家学习一下如何处理这些情况吧！希望大家仔细阅读，能够学有所成！前言使用python写爬虫的人，应该...

99+

2023-07-02
python爬虫之解析库正则表达式

上次说到了requests库的获取,然而这只是开始,你获取了网页的源代码,但是这并不是我们的目的,我们的目的是解析链接里面的信息,比如各种属性 @href @class span 抑或是p节点里面的文本内容,但是我们需要一种工...

99+

2023-01-30

爬虫正则表达式 python
python爬虫之三：解析网络报文xml

本节主要是讲解在项目中怎么解析获取的xml报文并获取相关字段。 xml解析第三方库学习地址：http://www.runoob.com/python/python-xml.html xml文件如下： <xml versio...

99+

2023-01-31

报文爬虫之三
python爬虫selenium模块详解

目录selenium模块 selenium基本概念基本使用基于浏览器自动化的操作selenium处理iframe：selenium模拟登陆QQ空间无头浏览器和规避检测selenium...

99+

2024-04-02