iis服务器助手广告广告
返回顶部
首页 > 资讯 > 后端开发 > Python >Python爬虫实战之xpath解析
  • 794
分享到

Python爬虫实战之xpath解析

python爬虫开发语言 2023-09-23 08:09:02 794人浏览 安东尼

Python 官方文档:入门教程 => 点击学习

摘要

XPath 是一门在 XML 文档中查找信息的语言,最初是用来搜寻 XML 文档的,但是它同样适用于 html 文档的搜索。 所以在python爬虫中,我们经常使用xpath解析这种高效便捷的方式来提

XPath 是一门在 XML 文档中查找信息的语言,最初是用来搜寻 XML 文档的,但是它同样适用于 html 文档的搜索。
所以在python爬虫中,我们经常使用xpath解析这种高效便捷的方式来提取信息。

环境的安装

使用 xpath 需要安装 lxml 库

pip install lxml -i https://pypi.tuna.tsinghua.edu.cn/simple

基础使用

实例化一个etree的对象,且需要将被解析的页面源码数据加载到该对象中。有两种方式:
1、将本地的html文档中的源码数据加载到etree对象中
etree.parse('filePath', etree.HTMLParser()) # filePath为文件的路径
示例:

from lxml import etree # 导包html = etree.parse('./test.html', etree.HTMLParser()) # ./test.html为本地的html文件的路径html.xpath('xpath表达式')

将从互联网上获取的源码数据加载到etree对象中
etree.HtML('page_data') # page_data为从页面获取的源码数据
示例:

from lxml import etree # 导包html = etree.HtML('page_data') # page_data为从页面获取的源码数据html.xpath('xpath表达式')

使用xpath解析数据,最重要的步骤就是xpath表达式的书写。下面介绍xpath的常用表达式。

xpath常用表达式

表达式含义
nodename选取此节点的所有子节点
/表示的是从根节点开始定位。表示的是一个层级
//从当前节点选取子孙节点(后代)
.选取当前节点
@选取属性
text()获取文本
*通配符,任何元素节点
nodename[@attrib=‘value’]选取给定属性具有给定值的指定元素。如 div[@class=‘cell’] 表示 class 属性的值为 cell 的所有 div 元素

对以上的表达式的实例详解
先引入一段将要测试的 HTML 代码

DOCTYPE html><html lang="en"><head>    <meta charset="UTF-8">    <title>测试title>head><body>    <div class="big">        <ul>            <li><a href="Https://www.baidu.com/">百度a>li>            <li><a href="https://weibo.com/">微博a>li>            <li><a href="https://www.tmall.com/">天猫a>li>            <p>test1p>        ul>        <div>            <a id="aa" href="https://www.iqiyi.com/">爱奇艺a>            <a id="bb" href="https://v.qq.com/">腾讯视频a>            <p>test2p>        div>    div>body>html>

为了方便直观,我们对 HTML 文件进行本地读取测试

取节点

/ 和 // 的用法

我们先感受一下使用 xpath 来对网页进行解析的过程
代码:

from lxml import etreehtml = etree.parse('./test.html', etree.HTMLParser())result1 = html.xpath('/html/body/div/ul/li/a') # /表示层级关系,第一个/是根节点print(result1)

运行结果:

[<Element a at 0x28696f20ac0>, <Element a at 0x28696f20b00>, <Element a at 0x28696f20b40>]

可以看出运行结果中有3个节点,正好是从上往下数前面3个a节点。我们也可以看出上面使用了 / 来表示层级关系,所谓层级关系,其实就是一层包着一层,比如测试HTML代码中的 HTML 节点包着 body 节点,我们要取到 body 节点,就可以用 /html/body 来表示。以此类推,就可以取到我们想要的节点了。

我们既然能取出前3个a节点,那该如何取出所有的a节点呢?
这时我们就要用到 //
代码:

result2 = html.xpath('/html/body/div//a')print(result2)

运行结果:

[<Element a at 0x222bf9afc80>, <Element a at 0x222bf9afcc0>, <Element a at 0x222bf9afd00>, <Element a at 0x222bf9afd40>, <Element a at 0x222bf9afd80>]

不难看出 class=“big” 的div节点包着所有的 a节点,即所有的 a节点都是 class=“big” 的div节点的子孙节点(或简单理解为后代),我们用 /html/body/div//a 即可取出所有的 a节点
在这里插入图片描述

通配符 * 的用法

比如我们想取到下图的两个p节点,就可以用通配符 * 来提取
在这里插入图片描述

代码:

'''第一个p节点的表达式为: '/html/body/div/ul/p'第二个p节点的表达式为: '/html/body/div/div/p'可以看到这两个表达式唯一不同的地方的是 p节点前面的节点(父节点)一个是ul,一个是div这时我们只需用通配符 * 来代替p节点前面的父节点,因为通配符 * 可以表示任意节点'''# html.xpath('/html/body/div/ul/p')# html.xpath('/html/body/div/div/p')result = html.xpath('/html/body/div/*/p')print(result)

运行结果:

[<Element p at 0x1e2c335f880>, <Element p at 0x1e2c335f8c0>]

当然如果要取这两个p节点也可以用 // 来取,这里只是演示通配符 * 的用法

索引定位

比如我们想取到第一个a节点,就可以使用索引定位了
代码:

result3 = html.xpath('/html/body/div/ul/li[1]/a') #li[1]表示第一个li节点,注意索引是从[1]开始print(result3)

运行结果:

[<Element a at 0x28705120ac0>]

这里一定要注意索引是从 [1]开始!!!

属性定位

比如我想取 id=“aa” 的a节点,就可以使用属性定位 nodename[@attrib='value']
在这里插入图片描述

代码:

result4 = html.xpath('//a[@id="aa"]')print(result4)

运行结果:

[<Element a at 0x2718236fc00>]

取文本

在xpath中,使用 text() 即可取出网页中的文本信息
代码:

result5 = html.xpath('/html/body/div/ul/li[1]/a/text()') # text()获取文本print(result5)

运行结果:

['百度']

可以看到这个结果是一个列表,如果我们想取到里面的字符串,可以这样

result6 = html.xpath('/html/body/div/ul/li[1]/a/text()')[0] # 从列表中取第一个元素print(result6)

运行结果:

百度

取属性

如果我们想取到下图这个属性,我可以使用 @属性 这个表达式
在这里插入图片描述

代码:

result7 = html.xpath('//a[@id="bb"]/@href')print(result7)

运行结果:

['https://v.qq.com/']

写xpath表达式的小技巧

我们在写爬虫时,往往会遇到比较复杂的页面代码,我们写xpath表达式也比较费劲。这里告诉大家一个偷懒的方法,直接借助浏览器copy

学会偷懒

具体操作:在浏览器中 F12 打开开发者工具 ——> 用左上角的箭头选取需要的内容 ——> 在对应的代码上鼠标右击 ——> Copy ——> Copy XPath
在这里插入图片描述

Copy的结果://*[@id="js_top_news"]/div[2]/h2/a

这样的话,我们就轻松拿到了需要的xpath表达式。
当然我们不能只会使用这种copy的方法,还要真正理解xpath表达式的语法规则。因为在python爬虫中xpath解析是有局限的,有些情况我们不能使用xpath表达式。

xpath解析的局限性

如果网页的数据是通过ajax动态加载的,我们就不能使用xpath表达式来提取信息
一个简单的判断方法:在网页中鼠标右击 ——> 查看网页源代码 ——> ctrl+F 搜索想要的信息 ——> 搜索无结果 ——> 不能使用xpath解析
在这里插入图片描述

写xpath表达式的避坑指南

有时,我们直接复制 xpath表达式或者自己写xpath表达式会遇到提取信息后返回一个 空列表 这种情况,反复对照代码发现自己好像又没写错,这是怎么回事呢?
其实,很大可能是你没有以 网页源代码 为准来写xpath表达式,而是根据开发工具展示的代码来写xpath表达式。原因就是开发者工具是实时的网页代码(比如通过js加载一些数据后的),而我们提取到的页面源码数据不一定是实时的网页代码。
比如:
在这里插入图片描述

在这里插入图片描述

一般情况下,我们可以直接根据开发者工具展示的代码来写xpath表达式,但是一定要结合网页源代码,以网页源代码为准!
重要的事情说三遍!以网页源代码为准!以网页源代码为准!以网页源代码为准!

爬虫实战

下面进入爬虫实战。我们的目标是爬取某斗图网的表情包图片和描述文字,并把描述文字作为表情包图片的文件名

# 导入必要的库import requestsfrom lxml import etreeimport timeimport reimport osheaders = {    "User-Agent": "Mozilla/5.0 (windows NT 10.0; Win64; x64) AppleWEBKit/537.36 (KHTML, like Gecko) Chrome/103.0.0.0 Safari/537.36",    "Referer": "https://www.doutub.com/"  # 防盗链:溯源,当前本次请求的上一级是谁。请看下面图一、图二}num = int(input("你想爬取前几页:"))if os.path.exists("images") == False:    os.mkdir("images") #如果不存在images文件夹,则创建images文件夹for n in range(num): # for循环提取多页内容    url = f'https://www.doutub.com/img_lists/new/{n+1}'    # url 是网址,这里使用字符串拼接网址    # 如 https://www.doutub.com/img_lists/new/1(第一页网址)  https://www.doutub.com/img_lists/new/2(第二页网址)等等    resp = requests.get(url, headers=headers)    html = etree.HTML(resp.text)    divs = html.xpath("//div[@class='cell']")[0:50]    # 返回的 divs 是一个列表,切片去除无用信息,第51个div我们不需要,详细看图三    for div in divs:        imgSrc = div.xpath("./a/img/@data-src")[0]        Word = div.xpath("./a/span/text()")[0].strip()        name = re.sub(r'[\:*?"<>/|]', '', word) #使用正则表达式sub函数去除 \:*?"<>/|这些字符。原因看图四        img_type = imgSrc.split(".")[-1] #因为图片文件的格式有些是jpg,有些是gif,这里取出图片格式        # 下载图片        img_resp = requests.get(imgSrc, headers=headers)        with open("images/" + name + "." + img_type, mode="wb") as f:            f.write(img_resp.content)        print(name + "." + img_type, "下载完成")        time.sleep(0.3)  # 防止频繁访问被封ip,这里休息0.3秒    print(f"\n第{n+1}页下载完成!\n")print("全部下载完成!!!")

图一:
防盗链问题
在这里插入图片描述

图二:
解决防盗链
在这里插入图片描述

图三:
在这里插入图片描述

图四:
在这里插入图片描述

最终效果:
在这里插入图片描述

大功告成!

来源地址:https://blog.csdn.net/weixin_58667126/article/details/126105955

--结束END--

本文标题: Python爬虫实战之xpath解析

本文链接: https://www.lsjlt.com/news/416291.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑,方便收藏和打印~

下载Word文档
猜你喜欢
  • Python爬虫实战之xpath解析
    XPath 是一门在 XML 文档中查找信息的语言,最初是用来搜寻 XML 文档的,但是它同样适用于 HTML 文档的搜索。 所以在Python爬虫中,我们经常使用xpath解析这种高效便捷的方式来提...
    99+
    2023-09-23
    python 爬虫 开发语言
  • python爬虫指南之xpath实例解析(附实战)
    目录前言环境的安装属性定位索引定位取文本取属性总结前言 XPath,全称XML Path Language,即XML路径语言,它是一门在XML文档中查找信息的语言,它最初是用来搜寻X...
    99+
    2024-04-02
  • python爬虫指南之xpath实例解析
    Python爬虫指南之XPath实例解析XPath是一种用于在XML文档中进行导航和查找元素的语言。在爬虫中,XPath可以用于解析...
    99+
    2023-08-15
    python
  • 【Python爬虫】数据解析之bs4解析和xpath解析
    🔥一个人走得远了,就会忘记自己为了什么而出发,希望你可以不忘初心,不要随波逐流,一直走下去🎶 🦋 欢迎关注🖱点赞👍收...
    99+
    2023-09-06
    python 爬虫 开发语言
  • python爬虫教程之bs4解析和xpath解析详解
    目录bs4解析原理:如何实例化BeautifulSoup对象:用于数据解析的方法和属性:xpath解析xpath解析原理:实例化一个etree对象:xpath( ‘xpa...
    99+
    2024-04-02
  • python爬虫中xpath实例分析
    这篇文章主要介绍“python爬虫中xpath实例分析”,在日常操作中,相信很多人在python爬虫中xpath实例分析问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”python爬虫中xpath实例分析”的疑...
    99+
    2023-06-29
  • Python爬虫必备之XPath解析库的示例分析
    小编给大家分享一下Python爬虫必备之XPath解析库的示例分析,希望大家阅读完这篇文章之后都有所收获,下面让我们一起去探讨吧!一、简介XPath 是一门在 XML 文档中查找信息的语言。XPath 可用来在 XML 文档中对元素和属性进...
    99+
    2023-06-15
  • 5.网络爬虫——Xpath解析
    网络爬虫——Xpath解析 Xpath简介Xpath解析节点选择路径表达式谓语未知节点 Xpath实战演示豆果美食实战获取数据源代码 前言: 📝​&#x...
    99+
    2023-09-01
    爬虫 python 开发语言 云原生
  • python动态网站爬虫实战(requests+xpath+demjson+redis)
    目录前言一、主要思路1、观察网站2、编写爬虫代码二、爬虫实战1、登陆获取cookie三、总结前言 之前简单学习过python爬虫基础知识,并且用过scrapy框架爬取数据,都是直接能...
    99+
    2024-04-02
  • Python爬虫必备之Xpath简介及实例讲解
    目录前言一、Xpath简介二、Xpath语法规则语法规则标签定位属性定位索引定位取文本内容三、语法规则练习总结前言 网上已经有很多大佬发过Xpath,而且讲的都很好,我是因为刚开始学...
    99+
    2024-04-02
  • python怎么爬虫lxml库解析xpath网页
    这篇文章主要介绍“python怎么爬虫lxml库解析xpath网页”,在日常操作中,相信很多人在python怎么爬虫lxml库解析xpath网页问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”python怎么爬...
    99+
    2023-06-30
  • python-爬虫实战
    想看看最近的电影院播放的今日影视,就以这个网址https://movie.douban.com/people/1166776/为例,先使用urllib.request模块抓取整个网页,再使用re模块获取影视信息 编写simpleCrawle...
    99+
    2023-01-30
    爬虫 实战 python
  • Python爬虫XPath怎么用
    这篇文章主要为大家展示了“Python爬虫XPath怎么用”,内容简而易懂,条理清晰,希望能够帮助大家解决疑惑,下面让小编带领大家一起研究并学习一下“Python爬虫XPath怎么用”这篇文章吧。一、问题描述1.什么是XPath?xpath...
    99+
    2023-06-25
  • Python爬虫11-XML与XPath
    GitHub代码练习地址:用lxml解析HTML,文件读取,etree和XPath的配合使用:https://github.com/Neo-ML/PythonPractice/blob/master/SpiderPrac17_xpath%...
    99+
    2023-01-31
    爬虫 Python XPath
  • Python爬虫实战之爬取携程评论
    目录一、分析数据源二、分析数据包三、采集全部评论一、分析数据源 这里的数据源是指html网页?还是Aajx异步。对于爬虫初学者来说,可能不知道怎么判断,这里辰哥也手把手过一遍。 提示...
    99+
    2024-04-02
  • python网络爬虫精解之XPath的使用说明
    目录一、XPath的介绍二、XPath使用1、选取所有节点2、获取子节点3、获取父节点4、属性匹配5、文本获取6、属性获取7、属性多值匹配8、多属性匹配9、按序选择10、节点轴选择X...
    99+
    2024-04-02
  • python爬虫实战项目之爬取pixiv图片
    自从接触python以后就想着爬pixiv,之前因为梯子有点问题就一直搁置,最近换了个梯子就迫不及待试了下。 爬虫无非request获取html页面然后用正则表达式或者beautif...
    99+
    2024-04-02
  • python爬虫lxml库解析xpath网页过程示例
    目录前言(一)xpath是什么(二)xpath的基本语法 路径查询。(三) lxml库(四)lxml库的使用 导入lxml.etree(五)实例演示前言 在我们抓取网页内容的时候,通...
    99+
    2024-04-02
  • Python网络爬虫实战案例之:7000
    一、前言 本文是《Python开发实战案例之网络爬虫》的第三部分:7000本电子书下载网络爬虫开发实战详解。配套视频课程详见51CTO学院请添加链接描述。 二、章节目录 3.1 业务流程3.2 页面结构分析:目录页3.3 页面结构分析:详情...
    99+
    2023-01-31
    爬虫 实战 案例
  • Python爬虫实战之爬取某宝男装信息
    目录知识点介绍实现步骤1. 分析目标网站2. 获取单个商品界面3. 获取多个商品界面4. 获取商品信息5. 保存到MySQL数据库完整代码知识点介绍 本次爬取用到的知识点有: 1. ...
    99+
    2024-04-02
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作