Python爬虫Xpath定位数据的两种方法

2024-04-02 19:04:59 369人浏览独家记忆

Python 官方文档：入门教程 => 点击学习

摘要

方法一：直接右键，将文章路径复制下来点击Copy full Xpath 使用selenium+lxml中的etree进行配合使用，使用etree解析html网页 import req

方法一：直接右键，将文章路径复制下来点击Copy full Xpath

使用selenium+lxml中的etree进行配合使用，使用etree解析html网页

import requests
from lxml import etree
import time
import Socket
import csv
from selenium import WEBdriver
from configparser import ConfigParser
from selenium.webdriver import Chrome
from selenium.webdriver import ChromeOptions
#禁止图片和CSS加载
chrome_options = webdriver.ChromeOptions()
prefs = {"profile.managed_default_content_settings.images": 2}
chrome_options.add_experimental_option("prefs", prefs)
option = ChromeOptions()
option.add_experimental_option('excludeSwitches', ['enable-automation'])
# 如果想加载图片，就把下面第二句话改第一句话，删掉上面的“禁止图片和css加载”部分
# wb = Chrome(options=option)
wb=webdriver.Chrome(options=chrome_options)
#最大化窗口、输入网址、等待至网页加载完成（防止元素还没加载出来就开始爬了这样自然爬不到数据。如果一直加载不出就等10秒，加载好了就立刻结束等待）
wb.maximize_window()
wb.get("https://www.tianyancha.com/")
wb.implicitly_wait(5)

然后获取网页数据，这里表明哪怕后面出错了，仍然可以延续wb的位置继续控制浏览器

data = wb.page_source
time.sleep(3)
data = wb.page_source
time.sleep(3)
page_all.append(data)
html = etree.HTML(data)
company = html.xpath('/html/body/div/div/div[2]/div/div[1]/div[1]/div[3]/div[1]/div[1]/div[1]/h1/text()')
print(company )

在这里插入图片描述

方法二：使用@制定标签属性，搜索指定位置

这样的好处就是，对于批量处理的网页，有的标签位置不在同一个地方，那么我们就是不使用全Xpath路径，而使用相对路径，用@制定某种属性的标签，下载相关数据

"//div[@class='mainArea']/ul/li"

使用//div[@class=‘mainArea’]的意思是：从根部（//）查找 class值为 mainArea的Node.

所以，那么就很简单了 //某元素[@class=‘CLASS值’]

大家可以按照这个公式来查找 class的元素了。

剩下的 /ul/li 表示的是，继续查找 class='mainArea’的div包括的ul元素下面的li 节点集合。

到此这篇关于python爬虫Xpath定位数据的方法的文章就介绍到这了,更多相关python爬虫Xpath定位数据内容请搜索编程网以前的文章或继续浏览下面的相关文章希望大家以后多多支持编程网！

您可能感兴趣的文档:

点击免费下载>>软考高级考试备考技巧/历年真题/备考精华资料

--结束END--

本文标题: Python爬虫Xpath定位数据的两种方法

本文链接: https://www.lsjlt.com/news/119227.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑，方便收藏和打印～

下载Word文档

去做题

猜你喜欢

Python爬虫Xpath定位数据的两种方法

方法一：直接右键，将文章路径复制下来点击Copy full Xpath 使用selenium+lxml中的etree进行配合使用，使用etree解析html网页 import req...

99+

2024-04-02
Python爬虫的两套解析方法和四种爬虫实现

【本文转载自微信公众号：数据科学家养成记，作者：louwill，转载授权请联系原作者】对于大多数朋友而言，爬虫绝对是学习python的最好的起手和入门方式。因为爬虫思维模式固定，编程模式也相对简单，一般在细节处理上积累一些经验都...

99+

2023-06-02
Python爬虫网页元素定位的方法

这篇文章主要介绍“Python爬虫网页元素定位的方法”，在日常操作中，相信很多人在Python爬虫网页元素定位的方法问题上存在疑惑，小编查阅了各式资料，整理出简单好用的操作方法，希望对大家解答”Python爬虫网页元素定位的方法”的疑惑有所...

99+

2023-06-30
python-爬虫-xpath方法-批量爬取王者皮肤图片

import requestsfrom lxml import etree 获取NBA成员信息 # 发送的地址url = 'https://nba.hupu.com/stats/players'# U...

99+

2023-09-13

python 爬虫 jupyter
【Python爬虫】数据解析之bs4解析和xpath解析

🔥一个人走得远了，就会忘记自己为了什么而出发，希望你可以不忘初心，不要随波逐流，一直走下去🎶 🦋 欢迎关注🖱点赞👍收...

99+

2023-09-06

python 爬虫开发语言
python爬虫爬取指定内容的解决方法

目录解决办法：实列代码如下：（以我们学校为例）爬取一些网站下指定的内容，一般来说可以用xpath来直接从网页上来获取，但是当我们获取的内容不唯一的时候我们无法选择，我们所需要的、所指...

99+

2024-04-02
Python爬虫（1）一次性搞定Selenium(新版)8种find_element元素定位方式

selenium中有8种不错的元素定位方式，每个方式和应用场景都不一样，需要根据自己的使用情况来进行修改 8种find_element元素定位方式 1.id定位2.CSS定位3.XPATH定...

99+

2023-08-31

python 爬虫 selenium Python 定位方式
python爬虫获取数据的方法是什么

Python爬虫获取数据的方法有以下几种：1. 使用第三方库：Python有很多强大的第三方库，如Requests、Beautifu...

99+

2023-10-19

python
python保存两位小数的多种方法汇总

目录一、保留两位小数且做四舍五入处理1、使用字符串格式化2、使用python内置的round() 函数3、使用python内置的decimal模块二、保留两位小数且不做四舍五...

99+

2024-04-02
python保留两位小数的3种方法实例

目录1.’%.2f’%f2.format函数3.round函数（不推荐使用）附：Python round() 函数总结1.’%.2f’...

99+

2022-12-26

python保留两位小数 python保留小数的方法 Python输出小数点后两位
Python爬虫：导出爬取的数据

最近想要做一个爬虫，检验一下Python的学习成果，眼看快要做完了，又遇到了问题，想要导出爬取的数据就必须要了解CSV文件，可是！下面是我百度出的结果！啊啊啊啊！作为一枚小白，我看不懂百科在说些什么？！后来，在网上发现一个讲爬...

99+

2023-01-31

爬虫数据 Python
absolute定位css元素居中的两种方法

有两种方法可以使绝对定位的CSS元素居中：1. 使用transform属性：可以使用CSS的transform属性来将绝对定位的元素...

99+

2023-09-14

css
SpringBoot中定位切点的两种常用方法

有时候，我们使用AOP来进行放的增强，编写切面类的时候，需要定位在哪个方法上试用该切面进行增强，本片文章主要讲解两种在SpringBoot中定位切点的方法，一种是使用executio...

99+

2024-04-02
python中使用XPath爬取小说的方法

这篇“python中使用XPath爬取小说的方法”文章的知识点大部分人都不太理解，所以小编给大家总结了以下内容，内容详细，步骤清晰，具有一定的借鉴价值，希望大家阅读完这篇文章能有所收获，下面我们一起来看看这篇“python中使用XPath爬...

99+

2023-06-30
Python保留指定位数的小数【5种方法】

1 %.2f’ %[变量] 【四舍五入】可以在print()打印处使用，也可以赋值给新的变量进行输出 # 四舍五入方法a = 2.345566print('%.4f'% a)# 2.3456prin...

99+

2023-08-31

python 开发语言
Python股票数据定向爬虫是怎么样的

Python股票数据定向爬虫是怎么样的，相信很多没有经验的人对此束手无策，为此本文总结了问题出现的原因和解决方法，通过这篇文章希望你能解决这个问题。功能简介目标：获取上交所和深交所所有股票的名称和交易信息。输出：保存到文件中。技术路线：...

99+

2023-06-17
C++两种素数判定方法

目录1.什么是素数2.素数的两种判断方法（1）暴力法从 2 到 √n6n-1与6n+1（2）筛法埃氏筛欧拉筛1.什么是素数素数又称质数。一个大于1的自然数，除了1和它自...

99+

2022-11-13

C++ 素数判定 C++ 素数
python怎么保留两位小数?几种方法总结！

很多小伙伴在学习python的时候可能会遇到对数据进行格式化输出的需求，其中最常见的需求为:保留几位小数。今天小编就以python怎么保留两位小数为例，来介绍一下python数据格式化的方法。使用字符串格式化大部分语言都可以使用字符串格...

99+

2023-10-23

python 开发语言算法
关于Python爬虫种类、法律、轮子的

Welcome to the D-age 对于网络上的公开数据，理论上只要由服务端发送到前端都可以由爬虫获取到。但是Data-age时代的到来，数据是新的黄金，毫不夸张的说，数据是未来的一切。基于统计学数学模型的各种人工智能的出现，离不开...

99+

2023-01-31

爬虫轮子种类
Python爬虫数据的分类及json数据用法示例

小编给大家分享一下Python爬虫数据的分类及json数据用法示例，希望大家阅读完这篇文章之后都有所收获，下面让我们一起去探讨吧！数据的结构化分类一般来讲对...

99+

2023-06-14