Python实战使用XPath采集数据示例解析

Python XPath采集数据 Python XPath 2023-05-16 14:05:04 531人浏览独家记忆

Python 官方文档：入门教程 => 点击学习

摘要

目录lxml发送请求明确需求:解析数据保存数据lxml lxml 是 python 的一个库，用于解析和呈现 XML 和 html。它支持多种内置和第三方 XML 和 HTML 标记

lxml

lxml 是 python 的一个库，用于解析和呈现 XML 和 html。它支持多种内置和第三方 XML 和 HTML 标记，例如 <a>，<img>，<fORM>，<ul>，<li>，<ol>，<dl>，<dt>，<dd> 等。lxml 还支持使用正则表达式来解析和呈现 XML 和 HTML。

本文我们就介绍lxml的使用方法，我们使用lxml获取我们想要的数据。

发送请求

首先，我们要进行数据来源分析，知道我们的需求是什么？

明确需求:

明确采集网站是什么?
明确采集数据是什么?

我们都玩过4399小游戏，我们想获取游戏名称和游戏链接，并保存下来。首先，我们导入相关的库文件。

import csv
import requests
from lxml import etree

接下来，我们可以发送请求，获取网页源代码，代码如下。

url = 'https://www.4399.com/flash_fl/2_1.htm'
headers = {
    'user-agent': 'Mozilla/5.0 (windows NT 10.0; WOW64) AppleWEBKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36'
}
res = requests.get(url, headers=headers)
res.encoding = res.apparent_encoding

这段代码是一个 Python 的 requests 模块的示例代码，用于从 Https://www.4399.com/flash_fl/2_1.htm 这个网站上获取数据并将其转换为 HTML 格式。

首先，我们定义了一个 url 变量，它包含了要从网站上获取数据的 URL。然后，我们使用 headers 字典来设置请求头，包括 user-agent 头部，用于指定浏览器的 User-Agent 信息。

接下来，我们使用 requests.get() 函数来发送一个 HTTP GET 请求，并将 headers 字典作为请求头传递给它。这个函数会返回一个 Response 对象，我们可以使用 res.encoding 属性来获取请求的编码方式，并将其设置为 res.apparent_encoding，以便在输出 HTML 时使用相同的编码方式。

最后，我们将请求的编码方式设置为浏览器的默认编码方式，以便在输出 HTML 时使用相同的编码方式。

解析数据

接下来，我们用xpath解析数据。我们用开发者工具定位到标签位置。

html_data = etree.HTML(res.text)
lis = html_data.xpath('//*[@class="bre m15"]//ul/li')
for li in lis:
    href = li.xpath('./a/@href')[0]
    title = li.xpath('./a/img/@alt')[0]

接下来，我们使用 html_data.xpath 方法来解析 HTML 文档中的 ul 和 li 元素，并将它们存储在 lis 变量中。

最后，我们使用 for 循环遍历 lis，并使用 li.xpath 方法来获取每个 li 元素的 a 元素的 href 和 alt 属性，并将它们存储在 href 和 title 变量中。我们运行结果之后，我们还要对链接进行拼接。

保存数据

接下来就是保存数据，先写入头文件。

f = open('4399小游戏.csv', mode='a', encoding='utf-8', newline='')
csv_writer = csv.DictWriter(f, fieldnames=['游戏名称', '游戏网站'])
csv_writer.writeheader()

这段代码中，我们首先使用 Python 的 open() 函数打开了一个名为 "4399小游戏.csv" 的文件，文件模式为 a，表示追加模式。

然后，我们使用 Python 的 csv 模块创建了一个名为 csv_writer 的 DictWriter 对象，并使用 writeheader() 方法来写入表头。

最后，我们使用 write() 方法向文件中写入数据，数据内容为一个字典对象。

这段代码的作用是将一个字典对象写入到文件中，其中包含了游戏名称和游戏网站两个字段的数据。

需要注意的是，在写入数据之前，我们需要使用 csv.DictWriter() 函数来创建一个 DictWriter 对象，并使用 fieldnames 参数来指定字段名称。此外，我们还需要使用 newline='' 参数来避免在 Windows 系统中出现换行符问题。 '''

dit = {
    '游戏名称': title,
    '游戏网站': data_url,
}
csv_writer.writerow(dit)

'''

以上就是Python实战使用XPath采集数据示例解析的详细内容，更多关于Python XPath采集数据的资料请关注编程网其它相关文章！

您可能感兴趣的文档:

点击免费下载>>软考高级考试备考技巧/历年真题/备考精华资料

--结束END--

本文标题: Python实战使用XPath采集数据示例解析

本文链接: https://www.lsjlt.com/news/210114.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑，方便收藏和打印～

下载Word文档

去做题

猜你喜欢

Python实战使用XPath采集数据示例解析

目录lxml发送请求明确需求:解析数据保存数据lxml lxml 是 Python 的一个库，用于解析和呈现 XML 和 HTML。它支持多种内置和第三方 XML 和 HTML 标记...

99+

2023-05-16

Python XPath采集数据 Python XPath
Python采集C站热榜数据实战示例

目录前言功能实现解析数据保存数据总结前言大家好，我们今天来爬取c站的热搜榜，把其文章名称，链接和作者获取下来，我们保存到本地，我们通过测试，发现其实很简单，我们只要简单获取数据就可...

99+

2023-05-19

Python采集C站热榜数据 Python 数据采集
Python采集电影评论实战示例

目录数据采集发送请求解析数据获取内容输出内容总结数据采集我们上一篇介绍了，如何采集王者皮肤，买不起皮肤，当个桌面壁纸挺好的。我们今天来学习如何采集电影评论，看看这个电影好不好看。 ...

99+

2023-05-16

Python采集电影评论 Python采集
Python采集图片数据的实现示例

目录前言：发送请求保存数据保存图片总结：前言：在网络时代，图片已经成为了我们生活中不可或缺的一部分。随着各种社交媒体的兴起，我们可以在网上看到越来越多的图片，但是如何从这些图片中获...

99+

2023-05-17

Python采集图片 Python图片采集
Python采集王者最低战力信息实战示例

目录🥩数据采集🍖确定网址请求URL：请求方式：参数：请求示例返回示例🍖获取数据🍖解析数据保存数据🥩数据采集 🍖确定网址王者新赛季马上就要开始了，大家都开始冲榜了，准备拿一个小省标，...

99+

2023-05-16

Python采集王者战力信息 Python 采集
Python采集C站高校信息实战示例

目录前言功能实现内容获取总结前言大家好，我们今天来爬取c站的高校名单，把其高校名单，成员和内容数获取下来，不过，我们发现这个网站比我们平时多了一个验证，下面看看我是怎么解决的。功...

99+

2023-05-19

Python采集C站高校信息 Python 信息采集
Python采集王者皮肤图片实战示例

目录数据采集确定网址获取英雄编号获取皮肤名称获取皮肤保存数据总结数据采集我们上一篇介绍了，如何采集王者最低战力，本文就来给大家介绍如何采集王者皮肤，买不起皮肤，当个桌面壁纸挺好的。...

99+

2023-05-16

Python采集王者皮肤图片 Python采集
python数据XPath使用案例详解

目录XPathXPath使用方法xpath解析原理：安装lxml案例—58二手房XPath XPath即为XML路径语言（XML Path Language），它是一种用来确定XML...

99+

2024-04-02
Python的xpath数据解析案例分析

这篇“Python的xpath数据解析案例分析”文章的知识点大部分人都不太理解，所以小编给大家总结了以下内容，内容详细，步骤清晰，具有一定的借鉴价值，希望大家阅读完这篇文章能有所收获，下面我们一起来看看这篇“Python的xpath数据解析...

99+

2023-06-29
Python实现批量采集商品数据的示例详解

目录本次目的知识点开发环境代码本次目的 python批量采集某商品数据知识点 requests 发送请求 re 解析网页数据 json 类型数据提取 csv 表格数据保存开发环境...

99+

2024-04-02
python爬虫指南之xpath实例解析(附实战)

目录前言环境的安装属性定位索引定位取文本取属性总结前言 XPath，全称XML Path Language，即XML路径语言，它是一门在XML文档中查找信息的语言，它最初是用来搜寻X...

99+

2024-04-02
Python采集某度贴吧排行榜实战示例

目录数据采集发送请求解析数据获取内容获取内容总结数据采集我们上一篇介绍了，如何采集电影评论，看看这个电影好不好看.今天，我们来采集大家熟悉的百度贴吧的排行榜。发送请求我们首先确...

99+

2023-05-16

Python采集度贴吧排行榜 Python采集贴吧
Python采集大学教务系统成绩单实战示例

目录前言采集数据发送请求获取数据保存数据总结前言采集教务系统成绩单是一个非常有意义的项目。在现代教育中，教务系统已经成为了学校管理和教学工作的重要组成部分。然而，由于各种原因，教务...

99+

2023-05-16

Python采集教务系统成绩单 Python 采集成绩
Python爬虫采集Tripadvisor数据案例实现

目录前言第三方库开发环境开始代码请求数据2. 获取数据(网页源代码)3. 解析数据(提取我们想要的数据内容详情页链接)4. 发送请求(访问所有的详情页链接) 获取数据5. 解析数据...

99+

2024-04-02
Python采集热搜数据实现详解

目录功能实现发送请求解析数据获取内容拓展内容总结功能实现随着互联网的发展，信息的传播越来越快速和便捷。在这个信息爆炸的时代，如何快速获取有用的信息已经成为了一个重要的能力。而爬取网...

99+

2023-05-19

Python采集热搜数据 Python 数据采集
python使用XPath解析数据爬取起点小说网数据

目录1. xpath 的介绍优点：安装lxml库XML的树形结构：选取节点的表达式举例：2. 爬取起点小说网在浏览器中获取书名和作者测试使用xpath获取起点小说网的数据1. xpa...

99+

2024-04-02
使用jmx exporter采集kafka指标示例详解

目录预置条件使用JMX exporter暴露指标kafka集群启用监控采集producer/consumer的指标预置条件安装kafka、prometheus 使用JMX expo...

99+

2022-11-13

jmx exporter采集kafka jmx exporter
python如何使用XPath解析数据爬取起点小说网数据

小编给大家分享一下python如何使用XPath解析数据爬取起点小说网数据，相信大部分人都还不怎么了解，因此分享这篇文章给大家参考一下，希望大家阅读完这篇文章后大有收获，下面让我们一起去了解一下吧！python的数据类型有哪些python的...

99+

2023-06-14
Python中关于数据采集和解析是怎样的

本篇文章为大家展示了Python中关于数据采集和解析是怎样的，内容简明扼要并且容易理解，绝对能使你眼前一亮，通过这篇文章的详细介绍希望你能有所收获。我们已经了解到了开发一个爬虫需要做的工作以及一些常见的问题，下面我们给出一个爬虫开发相关技术...

99+

2023-06-02
Python爬虫实战演练之采集糗事百科段子数据

目录知识点爬虫基本步骤:爬虫代码导入所需模块获取网页地址发送请求数据解析保存数据运行代码，得到数据知识点 1.爬虫基本步骤 2.requests模块 3.parsel模块 4.xpa...

99+

2024-04-02