Python爬虫必备之XPath解析库

XPath解析库的使用 Python Xpath 2022-06-02 22:06:08 878人浏览薄情痞子

Python 官方文档：入门教程 => 点击学习

摘要

目录一、简介二、安装三、节点3.1 选取节点3.2 选取未知节点3.3 节点关系四、XPath实例一、简介 XPath 是一门在 XML 文档中查找信息的语言。XPath 可用来在 XML 文档中对元素和属性进行遍历

一、简介

XPath 是一门在 XML 文档中查找信息的语言。XPath 可用来在 XML 文档中对元素和属性进行遍历。XPath 是 W3C XSLT 标准的主要元素，并且 XQuery 和 XPointer 都构建于 XPath 表达之上。

Xpath解析库介绍：数据解析的过程中使用过正则表达式, 但正则表达式想要进准匹配难度较高, 一旦正则表达式书写错误, 匹配的数据也会出错。

网页由三部分组成: html, CSS, javascript, HTML页面标签存在层级关系, 即DOM树, 在获取目标数据时可以根据网页层次关系定位标签, 在获取标签的文本或属性。

二、安装


pip install lxml

三、节点

3.1 选取节点

XPath 使用路径表达式在 XML 文档中选取节点。节点是通过沿着路径或者 step 来选取的。下面列出了最有用的路径表达式：

表达式	描述
nodename	选取此节点的所有子节点。
/	从根节点选取。
//	从匹配选择的当前节点选择文档中的节点，而不考虑它们的位置。
…	选取当前节点的父节点。
.	选取当前节点。
@	选取属性。

3.2 选取未知节点

XPath 通配符可用来选取未知的 XML 元素。

通配符	描述
*	匹配任何元素节点。
@*	匹配任何属性节点。
node()	匹配任何类型的节点。

在下面的表格中，我们列出了一些路径表达式，以及这些表达式的结果：

路径表达式	结果
/bookstorea/div[@class="content"]/span/text()') # 视频 video_list = tree.xpath('///video[@controls="controls"]/source/@src') index = 0 for i in video_list: # 获取视频二进制流 video_content = requests.get(url= 'https:' + i,headers=headers).content # 标题 title_1 = content[0].strip('\n') # 将视频二进制写入文件 with open(f'Video/{title_1}.mp4','wb') as f: f.write(video_content) index += 1 到此这篇关于python爬虫必备之XPath解析库的文章就介绍到这了,更多相关XPath解析库内容请搜索编程网以前的文章或继续浏览下面的相关文章希望大家以后多多支持编程网！您可能感兴趣的文档:* Python 官方文档：入门教程 Python 简明教程 Python 最佳实践指南 2018 Python 3 标准库实例教程点击免费下载>>软考高级考试备考技巧/历年真题/备考精华资料 --结束END-- 本文标题: Python爬虫必备之XPath解析库本文链接: https://www.lsjlt.com/news/10911.html(转载时请注明来源链接) 有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341 本篇文章演示代码以及资料文档资料下载下载Word文档到电脑，方便收藏和打印～下载Word文档去做题猜你喜欢 Python爬虫必备之XPath解析库目录一、简介二、安装三、节点3.1 选取节点3.2 选取未知节点3.3 节点关系四、XPath实例一、简介 XPath 是一门在 XML 文档中查找信息的语言。XPath 可用来在 XML 文档中对元素和属性进行遍历... 99+ 2022-06-02 XPath解析库的使用 Python Xpath Python爬虫必备之XPath解析库的示例分析小编给大家分享一下Python爬虫必备之XPath解析库的示例分析，希望大家阅读完这篇文章之后都有所收获，下面让我们一起去探讨吧！一、简介XPath 是一门在 XML 文档中查找信息的语言。XPath 可用来在 XML 文档中对元素和属性进... 99+ 2023-06-15 Python爬虫必备之Xpath简介及实例讲解目录前言一、Xpath简介二、Xpath语法规则语法规则标签定位属性定位索引定位取文本内容三、语法规则练习总结前言网上已经有很多大佬发过Xpath，而且讲的都很好，我是因为刚开始学... 99+ 2022-11-10 Python爬虫实战之xpath解析 XPath 是一门在 XML 文档中查找信息的语言，最初是用来搜寻 XML 文档的，但是它同样适用于 HTML 文档的搜索。所以在Python爬虫中，我们经常使用xpath解析这种高效便捷的方式来提... 99+ 2023-09-23 python 爬虫开发语言 Python爬虫之必备chardet库一、chardet库的安装与介绍玩儿过爬虫的朋友应该知道，在爬取不同的网页时，返回结果会出现乱码的情况。比如，在爬取某个中文网页的时候，有的页面使用GBK/GB2312，有的使用UTF8，如果你需要去爬一些页面，知... 99+ 2022-06-02 Python chardet库 python常用库 python爬虫指南之xpath实例解析 Python爬虫指南之XPath实例解析XPath是一种用于在XML文档中进行导航和查找元素的语言。在爬虫中，XPath可以用于解析... 99+ 2023-08-15 python 【Python爬虫】数据解析之bs4解析和xpath解析 🔥一个人走得远了，就会忘记自己为了什么而出发，希望你可以不忘初心，不要随波逐流，一直走下去🎶 🦋 欢迎关注🖱点赞👍收... 99+ 2023-09-06 python 爬虫开发语言 python爬虫教程之bs4解析和xpath解析详解目录bs4解析原理:如何实例化BeautifulSoup对象:用于数据解析的方法和属性:xpath解析xpath解析原理:实例化一个etree对象:xpath( ‘xpa... 99+ 2022-11-13 python怎么爬虫lxml库解析xpath网页这篇文章主要介绍“python怎么爬虫lxml库解析xpath网页”，在日常操作中，相信很多人在python怎么爬虫lxml库解析xpath网页问题上存在疑惑，小编查阅了各式资料，整理出简单好用的操作方法，希望对大家解答”python怎么爬... 99+ 2023-06-30 python爬虫指南之xpath实例解析(附实战) 目录前言环境的安装属性定位索引定位取文本取属性总结前言 XPath，全称XML Path Language，即XML路径语言，它是一门在XML文档中查找信息的语言，它最初是用来搜寻X... 99+ 2022-11-13 python爬虫lxml库解析xpath网页过程示例目录前言（一）xpath是什么（二）xpath的基本语法路径查询。（三） lxml库（四）lxml库的使用导入lxml.etree（五）实例演示前言在我们抓取网页内容的时候，通... 99+ 2022-11-11 python网络爬虫精解之XPath的使用说明目录一、XPath的介绍二、XPath使用1、选取所有节点2、获取子节点3、获取父节点4、属性匹配5、文本获取6、属性获取7、属性多值匹配8、多属性匹配9、按序选择10、节点轴选择X... 99+ 2022-11-12 python爬虫之解析库正则表达式上次说到了requests库的获取,然而这只是开始,你获取了网页的源代码,但是这并不是我们的目的,我们的目的是解析链接里面的信息,比如各种属性 @href @class span 抑或是p节点里面的文本内容,但是我们需要一种工... 99+ 2023-01-30 爬虫正则表达式 python Python爬虫之urllib库详解目录一、说明：二、urllib四个模块组成：三、urllib.request1、urlopen函数2、response 响应类型3、Request对象　4、高级请求方式四、urlli... 99+ 2022-11-13 python爬虫之bs4数据解析一、实现数据解析因为正则表达式本身有难度，所以在这里为大家介绍一下 bs4 实现数据解析。除此之外还有 xpath 解析。因为 xpath 不仅可以在 python 中使用，所以 bs4 和正则解析一样，仅仅是简... 99+ 2022-06-02 python bs4数据解析 python bs4 python爬虫 Python爬虫之解析HTML页面详解目录用Python解析HTML页面HTML 页面的结构XPath 解析CSS 选择器解析正则表达式解析总结用Python解析HTML页面在网络爬取的过程中，我们通常需要对所爬取的页... 99+ 2023-05-18 Python解析HTML Python爬虫HTML Python爬虫笔记3-解析库Xpat 当爬取到Html数据后，可以用正则对数据进行提取，但有时候正则表达式编写起来不方便，而且万一写错了，可能导致匹配失败。这时候就需要借助其他解析工具了。 XML引入什么是XML？ XML 指可扩展标记语言（EXtensible Mark... 99+ 2023-01-31 爬虫笔记 Python python爬虫之requests库的使用详解目录python爬虫—requests库的用法基本的get请求带参数的GET请求：解析json使用代理获取cookie会话维持证书验证设置超时异常捕获异常处理总结 python爬虫... 99+ 2022-11-12 Python爬虫进阶之Beautiful Soup库详解一、Beautiful Soup库简介 BeautifulSoup4 是一个 HTML/XML 的解析器，主要的功能是解析和提取 HTML/XML 的数据。和 lxml 库一样。 lxml 只会局部遍历，而 Beau... 99+ 2022-06-02 Python Beautiful Soup库详解 Python爬虫Beautiful Soup库 python爬虫之三：解析网络报文xml 本节主要是讲解在项目中怎么解析获取的xml报文并获取相关字段。 xml解析第三方库学习地址：http://www.runoob.com/python/python-xml.html xml文件如下： <xml versio... 99+ 2023-01-31 报文爬虫之三软考高级职称资格查询软考职称历年真题下载 2023下半年-信息系统项目管理师-真题考点汇总（完整版） 164.2 KB 查看 2023年下半年信息系统项目管理师第一、二批次各科目真题考点整理(考友回忆版) 143.67 KB 查看 2023上半年软考高级《信息系统项目管理师》真题答案（抢先版） 500.26 KB 查看 2022年下半年软考高级职称考试考情分析 823.36 KB 查看 2022年下半年软考高级职称考试真题 569.84 KB 查看软考职称资料下载 2023下半年-系统集成项目管理工程师-真题考点汇总（完整版） 143.91 KB 查看 2023年下半年系统集成项目管理工程师第一、二、三批次真题考点整理(考友回忆版) 183.71 KB 查看 2023年上半年软考中级《系统集成项目管理工程师》-基础知识-考试真题及答案 644.84 KB 查看 2023年上半年软考中级《系统集成项目管理工程师》-应用技术-考试真题及答案 314.7 KB 查看 2023年下半年第一二批次系统集成项目管理工程师《案例分析》真题考点 115.57 KB 查看热门wiki mysql删除数据恢复 mysql删表能回滚吗 mysql找回删除的表 mysql不小心删除了表 mysql不小心把表删了怎么恢复数据 mysql数据表删除后能恢复么 mysql误删表数据恢复 mysql误删表恢复 mysql删除表怎么恢复 mysql删除表近期文章基于聚合数据的短信API接口调用示例-Python版基于聚合数据的老黄历接口调用示例-Python版基于Python的免费手机号码归属地查询基于Python的免费IP地址归属地查询 python利用pyqt5和opencv打开电脑摄像头并进行拍照用python 修改word中表格数据，插入图片 +实例分析基于Python的免费天气预报接口查询基于Python的免费新闻头条接口查询 PythonOOP 的力量：封装与抽象类的超级英雄联盟 Python 代码的建筑师：封装与抽象类的蓝图和构建工具推荐阅读 python分析数据的方法是什么 2024-03-01 如何使用Python实现抽奖小程序 2024-03-01 python copy函数的作用是什么 2024-03-01 python进程池创建队列的方法是什么 2024-02-29 python字符串处理与应用的方法有哪些 2024-02-29 python全局变量如何定义 2024-02-29 python如何读取文件夹下所有文件 2024-02-29 python keyerror错误怎么解决 2024-02-29 python如何提取字符串的数字 2024-02-29 python中怎么将回车作为输入内容 2024-02-29 热门问答 1 回答如何调试操作系统的错误？操作系统 2023-11-15发布 1 回答操作系统中的I/O系统是如何实现的？操作系统 2023-11-15发布 1 回答如何实现操作系统的内存管理？操作系统 2023-11-15发布 1 回答什么是虚拟内存，它对操作系统有什么影响？操作系统 2023-11-15发布 1 回答 ASP中的MVC架构和WebForms架构有什么区别和使用场景？ ASP.NET 2023-11-15发布 1 回答 ASP中的数据验证和数据校验有什么不同？ ASP.NET 2023-11-15发布 1 回答 ASP中的ADO对象和DAO对象有什么区别和使用方法？ ASP.NET 2023-11-15发布 1 回答 Node.js中的包管理器NPM是什么？如何使用它进行依赖管理？ node.js 2023-11-15发布 1 回答 Vue.js中的动态组件是什么？如何使用它来动态渲染组件？ VUE 2023-11-15发布 1 回答如何使用Vue.js实现懒加载和预加载？ VUE 2023-11-15发布热门标签传统错误处理移动机器学习异常传播部署工具异常规范移动游戏开发内存安全性大型软件项目跨平台数据分析数据管道可解释性工具不同领域 golang集成对象导向特定用例弱类型特化现代c++ c++优化 i/o优化云主机试用云主机免费试用30天免费虚拟主机永久使用模板化代码模板可重用预测分析模板机制微服务容器化数据分析语言编程网，编程工程师的家园，是目前国内优秀的开源技术社区之一，形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容，为IT开发者提供了一个发现、使用、并交流开源技术的平台。前端后端数据库服务器操作系统商务合作：279061341@qq.com 网站地图投稿合作：279061341@qq.com 标签大全虚位以待官方手机版微信公众号商务合作 Powered by 编程网 \| Copyright © 2018-2023, 版权所有. \| 网站地图 \| 苏ICP备17033115号返回顶部

路径表达式

结果

/bookstorea/div[@class="content"]/span/text()') # 视频 video_list = tree.xpath('//*/video[@controls="controls"]/source/@src') index = 0 for i in video_list: # 获取视频二进制流 video_content = requests.get(url= 'https:' + i,headers=headers).content # 标题 title_1 = content[0].strip('\n') # 将视频二进制写入文件 with open(f'Video/{title_1}.mp4','wb') as f: f.write(video_content) index += 1

到此这篇关于python爬虫必备之XPath解析库的文章就介绍到这了,更多相关XPath解析库内容请搜索编程网以前的文章或继续浏览下面的相关文章希望大家以后多多支持编程网！

您可能感兴趣的文档:

点击免费下载>>软考高级考试备考技巧/历年真题/备考精华资料

--结束END--

本文标题: Python爬虫必备之XPath解析库

本文链接: https://www.lsjlt.com/news/10911.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341