首页 > 资讯 > 后端开发 > Python >Python使用XPath解析HTML的方法详解

918

分享到

Python使用XPath解析HTML的方法详解

Python XPath解析HTML Python 解析HTML Python XPath 2023-05-19 11:05:49 918人浏览薄情痞子

Python 官方文档：入门教程 => 点击学习

摘要

目录引言XPath语法XPath方法python中使用XPath解析html文档XPath表达式示例选择节点谓词运算符示例代码总结引言 XPath是一种用于选择XML文档中节点的语言

引言

XPath是一种用于选择XML文档中节点的语言，它可以通过路径表达式来定位节点。由于HTML文档的结构与XML文档类似，XPath也可以用于解析HTML文档。Python是一种非常流行的编程语言，它提供了许多库用于解析HTML文档。本文将介绍Python中使用XPath解析HTML文档的方法和技巧。

XPath语法

XPath表达式组成

XPath的路径表达式类似于文件系统中的路径，它用于描述节点在文档树中的位置。XPath表达式由以下几个部分组成：

标签名：标签名用于描述节点的类型，它可以是HTML标签名或XML标签名。例如，img表示图片节点，a表示链接节点。

轴：轴用于描述节点与当前节点的关系，它可以是父节点、子节点、兄弟节点等。

谓词：谓词用于描述节点的属性或位置。

XPath方法

在lxml库中，可以使用XPath方法来解析HTML文档。XPath方法有以下几种：

etree.HTML()：将HTML字符串转化为一个Element对象。
find()：返回第一个匹配的元素。
findall()：返回所有匹配的元素。
xpath()：返回所有匹配XPath表达式的元素。

Python中使用XPath解析HTML文档

Python中有许多库用于解析HTML文档，其中比较流行的有BeautifulSoup和lxml。这两个库都支持使用XPath解析HTML文档。在本文中，我们将使用lxml库来解析HTML文档。

安装lxml库

在使用lxml库之前，需要先安装它。可以使用pip命令来安装lxml库，命令如下：

pip install lxml

解析HTML文档

在使用lxml库解析HTML文档之前，需要先将HTML文档加载到内存中。可以使用requests库来加载HTML文档，代码如下：

import requests
url = 'https://www.example.com'
response = requests.get(url)
html = response.content

接下来，我们将使用lxml库来解析HTML文档。代码如下：

from lxml import etree

将HTML文档转换为Element对象

element = etree.HTML(html)

使用XPath表达式来选择节点

nodes = element.xpath('//a[@class="link"]')

遍历节点并输出节点的文本

for node in nodes:
    print(node.text)

在上面的代码中，我们使用etree.HTML()方法将HTML文档转换为Element对象。然后使用XPath表达式来选择所有class属性为link的a标签节点。最后遍历所有节点并输出节点的文本。

XPath表达式示例

下面我们将介绍一些常用的XPath表达式及其对应的示例。

选择节点

选择所有节点：

//*

选择指定节点：

//a

选择指定节点和属性：

//a[@href]

选择指定节点和属性值：

//a[@href='Https://www.example.com']

选择指定节点和多个属性值：

//a[@href='https://www.example.com' and @class='link']

选择指定节点和文本：

//a[text()='Link']

选择父节点：

../

选择指定父节点：

../div

选择子节点

选择子节点：

/*

选择指定子节点：

/div

选择兄弟节点：

/following-sibling::*

选择指定兄弟节点：

/following-sibling::div

选择前一个兄弟节点：

/preceding-sibling::div[1]

谓词

选择属性等于指定值的节点：

//*[@class='link']

选择属性不等于指定值的节点：

//*[@class!='link']

选择属性包含指定值的节点：

//*[contains(@class, 'link')]

选择属性以指定值开头的节点：

//*[starts-with(@href, 'https://')]

选择属性以指定值结尾的节点：

//*[ends-with(@href, '.html')]

选择指定位置的节点：

//*[position()=3]

选择指定范围内的节点：

//*[position()>2 and position()<6]

运算符

选择属性值为数字的节点：

//*[starts-with(@id, 'item') and @id > 10]

选择属性值为数字的节点并按照属性值排序：

//*[starts-with(@id, 'item') and number(@id) > 10]/@id | //*[starts-with(@id, 'item') and number(@id) > 10]/@class

示例代码

from lxml import etree

# 构造html
html_string = '''
<html>
  <head>
    <title>Contains Test</title>
  </head>
  <body>
    <div id="content">
      <h1>Welcome to my WEBsite</h1>
      <p>This is a test page to demonstrate the use of contains in XPath.</p>
      <ul>
        <li><a href="#">Link 1</a></li>
        <li><a href="#">Link 2</a></li>
        <li><a href="#">Link 3</a></li>
      </ul>
    </div>
  </body>
</html>
'''

# 解析html
doc = etree.HTML(html_string)

# 使用contains函数查找包含“test”的段落元素
p_elements = doc.xpath('//p[contains(text(), "test")]')

# 打印结果
for p in p_elements:
    print(p.text)

输出结果为：

This is a test page to demonstrate the use of contains in XPath.

除了使用contains函数，我们还可以使用其他的xpath语法来解析html。以下是一些示例代码：

1.查找所有链接元素

# 使用xpath表达式选择所有名称为“a”的元素
link_elements = doc.xpath('//a')
# 打印结果
for link in link_elements:
    print(link.text, link.get('href'))

输出：

Link 1 #
Link 2 #
Link 3 #

2.查找所有列表项元素

# 使用xpath表达式选择所有名称为“li”下的a节点的元素
li_elements = doc.xpath('//li')
# 打印结果
for li in li_elements:
    print(etree.tostring(li))      #'输出节点'
    print(li.xpath('./a/text()')) #'输出a节点文本'

输出：

3.查找所有带有id属性的元素

# 使用xpath表达式选择所有带有id属性的元素
id_elements = doc.xpath('//*[@id]')
# 打印结果
for element in id_elements:
    print(element.tag, element.get('id'))

输出：

div content

4.查找特定id的元素

# 使用xpath表达式选择id为“content”的元素
content_element = doc.xpath('//*[@id="content"]')[0]
# 打印结果
print(content_element.tag, content_element.text)

输出：

div

总结

本文介绍了Python中使用XPath解析HTML文档的方法和技巧。XPath是一种强大的语言，它可以通过路径表达式来定位节点，同时还支持多种谓词和运算符。在Python中，lxml库是一种常用的解析HTML文档的库，它支持使用XPath表达式来选择节点。通过本文的介绍，相信读者已经掌握了使用XPath解析HTML文档的基本方法和技巧，可以应用于实际开发中。

到此这篇关于Python使用XPath解析HTML的方法详解的文章就介绍到这了,更多相关Python XPath解析HTML内容请搜索编程网以前的文章或继续浏览下面的相关文章希望大家以后多多支持编程网！

您可能感兴趣的文档:

点击免费下载>>软考高级考试备考技巧/历年真题/备考精华资料

--结束END--

本文标题: Python使用XPath解析HTML的方法详解

本文链接: https://www.lsjlt.com/news/213133.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑，方便收藏和打印～

下载Word文档

去做题

猜你喜欢

Python使用XPath解析HTML的方法详解

目录引言XPath语法XPath方法Python中使用XPath解析HTML文档XPath表达式示例选择节点谓词运算符示例代码总结引言 XPath是一种用于选择XML文档中节点的语言...

99+

2023-05-19

Python XPath解析HTML Python 解析HTML Python XPath
python数据解析之XPath详解

目录XPathXPath使用方法案例—58二手房总结XPath XPath即为XML路径语言（XML Path Language），它是一种用来确定XML文档中某部分位置的语言。 x...

99+

2024-04-02
如何使用xpath解析html字符串

一分耕耘，一分收获！既然打开了这篇文章《如何使用xpath解析html字符串》，就坚持看下去吧！文中内容包含等等知识点...希望你能在阅读本文后，能真真实实学到知识或者帮你解决心中的疑惑，也欢迎大佬...

99+

2024-04-04
Python使用lxml解析xpath爬取konachan

要使用lxml解析xpath来爬取konachan，你可以按照以下步骤进行：1. 首先，确保你已经安装了lxml库。你可以使用以下命...

99+

2023-08-22

Python
python数据XPath使用案例详解

目录XPathXPath使用方法xpath解析原理：安装lxml案例—58二手房XPath XPath即为XML路径语言（XML Path Language），它是一种用来确定XML...

99+

2024-04-02
详解Python列表解析式的使用方法

目录列表解析式的优势如何在 Python 中创建列表循环map() 对象列表解析式哪种方法更有效高级解析式条件逻辑集合解析式字典解析式海象运算符什么时候不要使用解析式注意嵌套的解析式...

99+

2024-04-02
python爬虫教程之bs4解析和xpath解析详解

目录bs4解析原理:如何实例化BeautifulSoup对象:用于数据解析的方法和属性:xpath解析xpath解析原理:实例化一个etree对象:xpath( ‘xpa...

99+

2024-04-02
使用Python Beautiful Soup解析HTML内容的方法

今天小编给大家分享的是使用Python Beautiful Soup解析HTML内容的方法，相信很多人都不太了解，为了让大家更加了解，所以给大家总结了以下内容，一起往下看吧。一定会有所收获的哦。目录Beautiful S...

99+

2023-07-06
Python中Lxml与Xpath解析库如何使用

本篇文章给大家分享的是有关Python中Lxml与Xpath解析库如何使用，小编觉得挺实用的，因此分享给大家学习，希望大家阅读完这篇文章后可以有所收获，话不多说，跟着小编一起来看看吧。一、xpath 概念、xpath节点、xpath语法、x...

99+

2023-06-15
python 网页解析器掌握第三方 lxml 扩展库与 xpath 的使用方法

今天说的则是使用另外一种扩展库 lxml 来对网页完成解析。同样的，lxml 库能完成对 html、xml 格式的文件解析，并且能够用来解析大型的文档、解析速度也是相对比较快的。要...

99+

2024-04-02
python解析本地html方法

Python爬虫每次运行时都会访问一次主机，为了避免增加主机访问负荷，一般都是在本地解析。Python解析本地html文件方法如下：将html文件本地保存在Python中打开html文件，可使用BeautifulSoup方法直接打开 s...

99+

2023-09-03

python html 开发语言
python中bs4解析和xpath解析的示例分析

这篇文章给大家分享的是有关python中bs4解析和xpath解析的示例分析的内容。小编觉得挺实用的，因此分享给大家做个参考，一起跟随小编过来看看吧。bs4解析原理:实例化一个BeautifulSoup对象，并且将页面源码数据加载到该对象中...

99+

2023-06-29
Python的xpath数据解析案例分析

这篇“Python的xpath数据解析案例分析”文章的知识点大部分人都不太理解，所以小编给大家总结了以下内容，内容详细，步骤清晰，具有一定的借鉴价值，希望大家阅读完这篇文章能有所收获，下面我们一起来看看这篇“Python的xpath数据解析...

99+

2023-06-29
JavaScript处理XMLDOM、XPath和XSLT方法详解

目录一、浏览器对XML DOM的支持1、将XML解析为DOM文档2、将DOM文档序列化为XML文档二、浏览器对XPath的支持三、浏览器对使用XSLT的支持一、浏览器对XML DO...

99+

2024-04-02
JavaSE XML解析技术的使用方法详解

目录XML解析技术XML解析技术介绍Dom4j解析XML文件Dom4j解析各个节点Dom4j解析案例实战总结XML解析技术 XML解析技术介绍 XML的数据作用是什么最终需要怎样处...

99+

2023-05-15

javase xml解析 java解析xml数据 java解析xml配置文件
Python实战使用XPath采集数据示例解析

目录lxml发送请求明确需求:解析数据保存数据lxml lxml 是 Python 的一个库，用于解析和呈现 XML 和 HTML。它支持多种内置和第三方 XML 和 HTML 标记...

99+

2023-05-16

Python XPath采集数据 Python XPath
一个Python案例带你掌握xpath数据解析方法

目录xpath基本概念xpath解析原理环境安装如何实例化一个etree对象xpath(‘xpath表达式’)xpath爬取58二手房实例xpath图片解析下...

99+

2024-04-02
python中使用XPath爬取小说的方法

这篇“python中使用XPath爬取小说的方法”文章的知识点大部分人都不太理解，所以小编给大家总结了以下内容，内容详细，步骤清晰，具有一定的借鉴价值，希望大家阅读完这篇文章能有所收获，下面我们一起来看看这篇“python中使用XPath爬...

99+

2023-06-30
详解Python中魔法方法的使用

目录迭代器的大小元编程自省(introspection)魔法属性创建自己魔法方法python中的魔法方法是一些可以让你对类添加“魔法”的特殊方法,它们经常是两...

99+

2022-12-19

Python魔法方法使用 Python魔法方法
python中defaultdict方法的使用详解

目录默认值可以很方便使用判断语句检查使用dict.setdefault()方法使用collections.defaultdict类defaultdict类是如何实现的在旧版本的Pyt...

99+

2023-05-16

python defaultdict用法 python defaultdict使用 python defaultdict