Python爬虫的两套解析方法和四种爬虫实现

2023-06-02 12:06:24 904人浏览安东尼

Python 官方文档：入门教程 => 点击学习

摘要

【本文转载自微信公众号：数据科学家养成记，作者：louwill，转载授权请联系原作者】对于大多数朋友而言，爬虫绝对是学习python的最好的起手和入门方式。因为爬虫思维模式固定，编程模式也相对简单，一般在细节处理上积累一些经验都

【本文转载自微信公众号：数据科学家养成记，作者：louwill，转载授权请联系原作者】

对于大多数朋友而言，爬虫绝对是学习 python的最好的起手和入门方式。因为爬虫思维模式固定，编程模式也相对简单，一般在细节处理上积累一些经验都可以成功入门。本文想针对某一网页对Python基础爬虫的两大解析库（BeautifulSoup和lxml）和几种信息提取实现方法进行分析，以开python爬虫之初见。

基础爬虫的固定模式

笔者这里所谈的基础爬虫，指的是不需要处理像异步加载、验证码、代理等高阶爬虫技术的爬虫方法。一般而言，基础爬虫的两大请求库urllib和requests中requests通常为大多数人所钟爱，当然urllib也功能齐全。两大解析库BeautifulSoup因其强大的html文档解析功能而备受青睐，另一款解析库lxml在搭配xpath表达式的基础上也效率提高。就基础爬虫来说，两大请求库和两大解析库的组合方式可以依个人偏好来选择。

笔者喜欢用的爬虫组合工具是：

requests+BeautifulSoup
requests+lxml

同一网页爬虫的四种实现方式

笔者以腾讯新闻首页的新闻信息抓取为例。
首页外观如下：

Python爬虫的两套解析方法和四种爬虫实现

比如说我们想抓取每个新闻的标题和链接，并将其组合为一个字典的结构打印出来。首先查看HTML源码确定新闻标题信息组织形式。

Python爬虫的两套解析方法和四种爬虫实现

可以目标信息存在于em标签下a标签内的文本和href属性中。可直接利用requests库构造请求，并用BeautifulSoup或者lxml进行解析。

方式一：requests+BeautifulSoup+select# select method import requests from bs4 import BeautifulSoupheaders = {'User-Agent': 'Mozilla/5.0 (windows NT 10.0; Win64; x64) AppleWEBKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.119 Safari/537.36'}url = 'Http://news.qq.com/' Soup = BeautifulSoup(requests.get(url=url, headers=headers).text.encode("utf-8"), 'lxml')em = Soup.select('em[class="f14 l24"] a') for i in em: title = i.get_text() link = i['href'] print({'标题': title, '链接': link })
很常规的处理方式，抓取效果如下：
- 方式二：requests+BeautifulSoup+find_all进行信息提取
```
# find_all method import requests from bs4 import BeautifulSoupheaders = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.119 Safari/537.36'}url = 'http://news.qq.com/' Soup = BeautifulSoup(requests.get(url=url, headers=headers).text.encode("utf-8"), 'lxml')em = Soup.find_all('em', attrs={'class': 'f14 l24'})for i in em:    title = i.a.get_text()    link = i.a['href']    print({'标题': title,            '链接': link    })
```
同样是requests+BeautifulSoup的爬虫组合，但在信息提取上采用了find_all的方式。效果如下：
- 方式三：requests+lxml/etree+xpath表达式
```
# lxml/etree method import requests from lxml import etreeheaders = {    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.119 Safari/537.36'}url = 'http://news.qq.com/' html = requests.get(url = url, headers = headers)con = etree.HTML(html.text)title = con.xpath('//em[@class="f14 l24"]/a/text()')link = con.xpath('//em[@class="f14 l24"]/a/@href') for i in zip(title, link):    print({'标题': i[0],           '链接': i[1]    })
```
使用lxml库下的etree模块进行解析，然后使用xpath表达式进行信息提取，效率要略高于BeautifulSoup+select方法。这里对两个列表的组合采用了zip方法。效果如下：
- 方式四：requests+lxml/html/fromstring+xpath表达式
```
# lxml/html/fromstring method import requests import lxml.html as HTMLheaders = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.119 Safari/537.36'}url = 'http://news.qq.com/' con = HTML.fromstring(requests.get(url = url, headers = headers).text)title = con.xpath('//em[@class="f14 l24"]/a/text()')link = con.xpath('//em[@class="f14 l24"]/a/@href') for i in zip(title, link):    print({'标题': i[0],'链接': i[1]    })
```
跟方法三类似，只是在解析上使用了lxml库下的html.fromstring模块。抓取效果如下：

很多人觉得爬虫有点难以掌握，因为知识点太多，需要懂前端、需要Python熟练、还需要懂数据库，更不用说正则表达式、XPath表达式这些。其实对于一个简单网页的数据抓取，不妨多尝试几种抓取方案，举一反三，也更能对python爬虫有较深的理解。长此以往，对于各类网页结构都有所涉猎，自然经验丰富，水到渠成。

您可能感兴趣的文档:

点击免费下载>>软考高级考试备考技巧/历年真题/备考精华资料

--结束END--

本文标题: Python爬虫的两套解析方法和四种爬虫实现

本文链接: https://www.lsjlt.com/news/230041.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑，方便收藏和打印～

下载Word文档

去做题

猜你喜欢

Python爬虫的两套解析方法和四种爬虫实现

【本文转载自微信公众号：数据科学家养成记，作者：louwill，转载授权请联系原作者】对于大多数朋友而言，爬虫绝对是学习python的最好的起手和入门方式。因为爬虫思维模式固定，编程模式也相对简单，一般在细节处理上积累一些经验都...

99+

2023-06-02
Python爬虫Xpath定位数据的两种方法

方法一：直接右键，将文章路径复制下来点击Copy full Xpath 使用selenium+lxml中的etree进行配合使用，使用etree解析html网页 import req...

99+

2024-04-02
01_爬虫伪装成浏览器的四种方法

好多网站对于爬虫中没有进行浏览器伪装的会进行反爬，以糗事百科网站为例下面提供了三种方法添加headers，使爬虫能够伪装成浏览器访问。备注：方法二和方法三中省略了 import urllib.request url = 'http...

99+

2023-01-30

爬虫四种伪装成
Python爬虫实战之xpath解析

XPath 是一门在 XML 文档中查找信息的语言，最初是用来搜寻 XML 文档的，但是它同样适用于 HTML 文档的搜索。所以在Python爬虫中，我们经常使用xpath解析这种高效便捷的方式来提...

99+

2023-09-23

python 爬虫开发语言
Python Ajax爬虫方法案例分析

今天小编给大家分享一下Python Ajax爬虫方法案例分析的相关知识点，内容详细，逻辑清晰，相信大部分人都还太了解这方面的知识，所以分享这篇文章给大家参考一下，希望大家阅读完这篇文章后有所收获，下面我们一起来了解一下吧。1. 抓...

99+

2023-06-29
python爬虫爬取指定内容的解决方法

目录解决办法：实列代码如下：（以我们学校为例）爬取一些网站下指定的内容，一般来说可以用xpath来直接从网页上来获取，但是当我们获取的内容不唯一的时候我们无法选择，我们所需要的、所指...

99+

2024-04-02
python淘宝爬虫的实现方法教程

这篇文章主要介绍“python淘宝爬虫的实现方法教程”，在日常操作中，相信很多人在python淘宝爬虫的实现方法教程问题上存在疑惑，小编查阅了各式资料，整理出简单好用的操作方法，希望对大家解答”python淘宝爬虫的实现方法教程”的疑惑有所...

99+

2023-06-25
PHP实现简单爬虫的方法

PHP实现简单爬虫的方法，php实现爬虫本文实例讲述了PHP实现简单爬虫的方法。分享给大家供大家参考。具体如下： ...

99+

2023-09-08

php 爬虫开发语言
python爬虫实战之爬取百度首页的方法

这篇文章给大家分享的是有关python爬虫实战之爬取百度首页的方法的内容。小编觉得挺实用的，因此分享给大家做个参考，一起跟随小编过来看看吧。Python的优点有哪些1、简单易用，与C/C++、Java、C# 等传统语言相比，Python对代...

99+

2023-06-14
python实现selenium网络爬虫的方法小结

selenium最初是一个自动化测试工具，而爬虫中使用它主要是为了解决requests无法直接执行JavaScript代码的问题，selenium本质是通过驱动浏览器，完全模拟浏览器...

99+

2024-04-02
python爬虫系列三：html解析大法

Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库。它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式。在爬虫开发中主要用的是Beautiful Soup的查...

99+

2023-01-31

爬虫大法系列
python 用递归实现通用爬虫解析器

目录需求分析进一步分析再进一步分析代码实现我们在写爬虫的过程中，除了研究反爬之外，几乎全部的时间都在写解析逻辑。那么，生命苦短，为什么我们不写一个通用解析器呢？对啊！为什么不呢？开整...

99+

2024-04-02
python爬虫指南之xpath实例解析

Python爬虫指南之XPath实例解析XPath是一种用于在XML文档中进行导航和查找元素的语言。在爬虫中，XPath可以用于解析...

99+

2023-08-15

python
Python爬虫实现自动化爬取b站实时弹幕的方法

这篇文章主要介绍了Python爬虫实现自动化爬取b站实时弹幕的方法，具有一定借鉴价值，感兴趣的朋友可以参考下，希望大家阅读完这篇文章之后大有收获，下面让小编带着大家一起了解一下。Python主要用来做什么Python主要应用于：1、Web开...

99+

2023-06-14
Python使用爬虫爬取贵阳房价的方法详解

目录1序言1.1生存压力带来的哲思1.2 买房&房奴2爬虫 2.1基本概念2.2 爬虫的基本流程 3爬取贵阳房价并写入表格3.1结果展...

99+

2024-04-02
Python爬虫解析网页的4种方式分别是什么

本篇文章为大家展示了Python爬虫解析网页的4种方式分别是什么，内容简明扼要并且容易理解，绝对能使你眼前一亮，通过这篇文章的详细介绍希望你能有所收获。用Python写爬虫工具在现在是一种司空见惯的事情，每个人都希望能够写一段程序去互联网上...

99+

2023-06-16
【Python爬虫】数据解析之bs4解析和xpath解析

🔥一个人走得远了，就会忘记自己为了什么而出发，希望你可以不忘初心，不要随波逐流，一直走下去🎶 🦋 欢迎关注🖱点赞👍收...

99+

2023-09-06

python 爬虫开发语言
python中——requests爬虫【中文乱码】的3种解决方法

requests是一个较为简单易用的HTTP请求库，是python中编写爬虫程序最基础常用的一个库。而【中文乱码】问题，是最常遇到的问题，对于初学者来说，是很困恼的。本文将详细说明，python中...

99+

2023-09-01

python 爬虫开发语言
python爬虫IP被限制的解决方法

这篇文章主要介绍python爬虫IP被限制的解决方法，文中介绍的非常详细，具有一定的参考价值，感兴趣的小伙伴们一定要看完！Python主要用来做什么Python主要应用于：1、Web开发；2、数据科学研究；3、网络爬虫；4、嵌入式应用开发；...

99+

2023-06-14
基于python实现垂直爬虫系统的方法详解

html_downloader from urllib import request def download(url): if url is None: r...

99+

2024-04-02