iis服务器助手广告广告
返回顶部
首页 > 资讯 > 后端开发 > Python >Python使用lxml模块和Requests模块抓取HTML页面的教程
  • 545
分享到

Python使用lxml模块和Requests模块抓取HTML页面的教程

模块页面教程 2022-06-04 19:06:32 545人浏览 泡泡鱼

Python 官方文档:入门教程 => 点击学习

摘要

WEB抓取 Web站点使用html描述,这意味着每个web页面是一个结构化的文档。有时从中 获取数据同时保持它的结构是有用的。web站点不总是以容易处理的格式, 如 csv 或者 JSON 提供它们的数据。

WEB抓取
Web站点使用html描述,这意味着每个web页面是一个结构化的文档。有时从中 获取数据同时保持它的结构是有用的。web站点不总是以容易处理的格式, 如 csv 或者 JSON 提供它们的数据。

这正是web抓取出场的时机。Web抓取是使用计算机程序将web页面数据进行收集 并整理成所需格式,同时保存其结构的实践。

lxml和Requests
lxml(Http://lxml.de/)是一个优美的扩展库,用来快速解析XML以及HTML文档 即使所处理的标签非常混乱。我们也将使用 Requests (http://docs.python-requests.org/en/latest/#)模块取代内建的urllib2模块,因为其速度更快而且可读性更好。你可以通过使用 pip install lxml 与 pip install requests 命令来安装这两个模块。

让我们以下面的导入开始:


from lxml import html
import requests

下一步我们将使用 requests.get 来从web页面中取得我们的数据, 通过使用 html 模块解析它,并将结果保存到 tree 中。


page = requests.get('http://econpy.Pythonanywhere.com/ex/001.html')
tree = html.fromstring(page.text)

tree 现在包含了整个HTML文件到一个优雅的树结构中,我们可以使用两种 方法访问:XPath以及CSS选择器。在这个例子中,我们将选择前者。

XPath是一种在结构化文档(如HTML或XML)中定位信息的方式。一个关于XPath的 不错的介绍参见 W3Schools 。

有很多工具可以获取元素的XPath,如Firefox的FireBug或者Chrome的Inspector。 如果你使用Chrome,你可以右键元素,选择 ‘Inspect element',高亮这段代码, 再次右击,并选择 ‘Copy XPath'。

在进行一次快速分析后,我们看到在页面中的数据保存在两个元素中,一个是title是 ‘buyer-name' 的div,另一个class是 ‘item-price' 的span:


<div title="buyer-name">Carson Busses</div>
<span class="item-price">$29.95</span>

知道这个后,我们可以创建正确的XPath查询并且使用lxml的 xpath 函数, 像下面这样:


#这将创建buyers的列表:
buyers = tree.xpath('//div[@title="buyer-name"]/text()')
#这将创建prices的列表:
prices = tree.xpath('//span[@class="item-price"]/text()')

让我们看看我们得到了什么:


print 'Buyers: ', buyers
print 'Prices: ', prices
Buyers: ['Carson Busses', 'Earl E. Byrd', 'Patty Cakes',
'Derri Anne Connecticut', 'Moe Dess', 'Leda Doggslife', 'Dan Druff',
'Al Fresco', 'Ido Hoe', 'Howie Kisses', 'Len Lease', 'Phil Meup',
'Ira Pent', 'Ben D. Rules', 'Ave Sectomy', 'Gary Shattire',
'Bobbi Soks', 'Sheila Takya', 'Rose Tattoo', 'Moe Tell']

Prices: ['$29.95', '$8.37', '$15.26', '$19.25', '$19.25',
'$13.99', '$31.57', '$8.49', '$14.47', '$15.86', '$11.11',
'$15.98', '$16.27', '$7.50', '$50.85', '$14.26', '$5.68',
'$15.00', '$114.07', '$10.09']

恭喜!我们已经成功地通过lxml与Request,从一个web页面中抓取了所有我们想要的 数据。我们将它们以列表的形式存在内存中。现在我们可以对它做各种很酷的事情了: 我们可以使用Python分析它,或者我们可以将之保存为一个文件并向世界分享。

我们可以考虑一些更酷的想法:修改这个脚本来遍历该例数据集中剩余的页面,或者 使用多线程重写这个应用从而提升它的速度。

--结束END--

本文标题: Python使用lxml模块和Requests模块抓取HTML页面的教程

本文链接: https://www.lsjlt.com/news/14885.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑,方便收藏和打印~

下载Word文档
猜你喜欢
  • 如何使用Requests模块抓取网页
    这篇文章主要介绍“如何使用Requests模块抓取网页”的相关知识,小编通过实际案例向大家展示操作过程,操作方法简单快捷,实用性强,希望这篇“如何使用Requests模块抓取网页”文章能帮助大家解决问题。爬取网页其实就是通过URL获取网页信...
    99+
    2023-07-06
  • 怎样使用Requests模块抓取网页?
    ​爬取网页其实就是通过URL获取网页信息,网页信息的实质是一段添加了JavaScript和CSS的HTML代码。Python提供了一个抓取网页信息的第三方模块requests,requests模块自称“HTTP for Humans”,直译...
    99+
    2023-05-14
    CSS JavaScript URL
  • Python爬虫使用lxml模块爬取豆瓣
    上次使用了BeautifulSoup库爬取电影排行榜,爬取相对来说有点麻烦,爬取的速度也较慢。本次使用的lxml库,我个人是最喜欢的,爬取的语法很简单,爬取速度也快。 本次爬取的豆瓣书籍排行榜的首页地址是: https://www.dou...
    99+
    2023-01-31
    爬虫 豆瓣 模块
  • python requests模块的使用示例
    目录为什么使用requests:模拟get请求:模拟请求头部信息模拟post请求requests上传文件requests设置代理time模块设置请求超时retrying模块设置刷新c...
    99+
    2024-04-02
  • python os模块和fnmatch模块的使用介绍
    目录一、先介绍一下os模块1、拆分路径的方法介绍2、构建文件路径的方法介绍3、获取文件属性的方法介绍4、判断文件的类型5、文件和目录操作6、修改文件属性和判断文件属性7、遍历目录树二...
    99+
    2024-04-02
  • Python redis模块的使用教程指南
    目录1.安装模块2.连接池3.Redis 基本命令 String4.redis 基本命令 hash5.redis基本命令 list6.redis基本命令 set7.其他常用操作8.管道1.安装模块 python 要使用 ...
    99+
    2024-04-02
  • Python redis模块的使用教程指南
    目录1.安装模块2.连接池3.redis 基本命令 String4.redis 基本命令 hash5.redis基本命令 list6.redis基本命令 set7.其他常用操作8.管...
    99+
    2024-04-02
  • python中os模块和sys模块的使用详解
    目录一、os模块二、os模块中的os.walk()函数三、sys模块一、os模块 os.getcwd() 获取当前的工作目录 os.chdir(‘绝对路径/相对于当前工作...
    99+
    2023-03-21
    python os模块 python sys模块
  • Python中itertools模块的使用教程详解
    目录itertools模块的介绍无限迭代器(Infinite Iterators)组合迭代器(Combinatoric Iterators)有限迭代器(Iterators Termi...
    99+
    2024-04-02
  • 使用Python中的pytesseract模块实现抓取图片中文字
    目录一、需求分析二、方案选择三、实验实操3.1、配置环境3.2、 Anaconda配置3.3、安装tesseract程序3.4、安装pytesseract模块3.5、见证奇迹的环节一...
    99+
    2022-11-13
    Python pytesseract模块抓取图片中文字 Python pytesseract图片文字 python识别图片文字
  • python使用requests模块下载文件并获取进度提示
    使用python3写了一个获取某网站文件的小脚本,使用了requests模块的get方法得到内容,然后通过文件读写的方式保存到硬盘同时需要实现下载进度的显示 安装模块pip3 install requests&...
    99+
    2023-01-31
    进度 模块 提示
  • Python内置模块Collections的使用教程详解
    目录1、模块说明2、 实战代码(1) testNamedTuple函数(2) testDeque函数(3)testDefaultdict函数(4) testOrderedDict函数...
    99+
    2024-04-02
  • Python selenium模块的安装和配置教程
    目录一、selenium的安装以及简单应用二、selenium的简单使用三、selenium提取数据1、driver对象常用的属性和方法2、driver对象定位标签元素获取标签对象的...
    99+
    2024-04-02
  • Node.js模块Modules的使用实战教程
    目录模块功能模块共享模块模块重新导出依赖注入Global modules动态模块模块 模块就是一个声明了装饰器@Module()的类。装饰器@Module()提供了元数据,以便让Ne...
    99+
    2023-05-15
    Node.js模块 Node.js Modules
  • Python学习之sys模块使用教程详解
    sys模块 与 os包一样,也是对系统资源进行调用。功能同样也是非常丰富,接下来我们会对 sys模块的一些简单且常用的函数进行介绍,主要针对一些非功能性的函数与属性来认识一些不太常见...
    99+
    2024-04-02
  • python打印日志方法的使用教程(logging模块)
    目录一、必备技能1、logging模块的使用二、logging1、logging的基本使用1.1、日志的五个等级(DEBUG/INFO/WARNING/ERROR/CRITICAL)...
    99+
    2024-04-02
  • Python函数和模块的使用详情
    目录一、定义函数二、函数的参数三、用模块管理函数四、变量的作用域 一、定义函数 在Python中可以使用def关键字来定义函数,命名规则跟变量的命名规则是一致的。在函数名后...
    99+
    2024-04-02
  • Python 多线程之threading 模块的使用
    目录简介 创建线程 构造器方式 继承方式 守护线程 线程本地数据 定时器 简介 Python 通过 _thread 和 threading 模块提供了对多线程的支持,threadi...
    99+
    2024-04-02
  • Python中的os和sys模块如何使用
    本篇内容主要讲解“Python中的os和sys模块如何使用”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“Python中的os和sys模块如何使用”吧!一、os模块os 模块是 Python中的一...
    99+
    2023-07-05
  • Python中各个模块的介绍和使用
    北京 | 高性能计算之GPU CUDA课程11月24-26日3天密集学习 快速带你晋级阅读全文> 作者,许胜利,Python开发工程师,任职于上海某财富管理有限公司。 在Python中有一个概念叫做模块(module),这个和...
    99+
    2023-01-31
    模块 Python
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作