【Python3爬虫】使用异步协程编写爬

爬虫 2023-01-30 23:01:19 753人浏览泡泡鱼

Python 官方文档：入门教程 => 点击学习

摘要

进程：进程是一个具有独立功能的程序关于某个数据集合的一次运行活动。进程是操作系统动态执行的基本单元。线程：一个进程中包含若干线程，当然至少有一个线程，线程可以利用进程所拥有的资源。线程是独立运行和独立调度的基本单元。协程：协程是一种

进程：进程是一个具有独立功能的程序关于某个数据集合的一次运行活动。进程是操作系统动态执行的基本单元。

线程：一个进程中包含若干线程，当然至少有一个线程，线程可以利用进程所拥有的资源。线程是独立运行和独立调度的基本单元。

协程：协程是一种用户态的轻量级线程。协程无需线程上下文切换的开销，也无需原子操作锁定及同步的开销。

同步：不同程序单元为了完成某个任务，在执行过程中需靠某种通信方式以协调一致，称这些程序单元是同步执行的。

异步：为完成某个任务，不同程序单元之间过程中无需通信协调，也能完成任务的方式，不相关的程序单元之间可以是异步的。

多进程：多进程就是利用 CPU 的多核优势，在同一时间并行地执行多个任务。多进程模式优点就是稳定性高，因为一个子进程崩溃了，不会影响主进程和其他子进程，但是操作系统能同时运行的进程数是有限的。

多线程：多线程模式通常比多进程快一点，但是也快不到哪去，而且，多线程模式致命的缺点就是任何一个线程挂掉都可能直接造成整个进程崩溃，因为所有线程共享进程的内存。

python 中使用协程最常用的库莫过于 asyncio，然后我们还需要了解一些概念：

event_loop：事件循环，相当于一个无限循环，我们可以把一些函数注册到这个事件循环上，当满足条件发生的时候，就会调用对应的处理方法。

coroutine：协程对象类型，我们可以将协程对象注册到事件循环中，它会被事件循环调用。我们可以使用 async 关键字来定义一个方法，这个方法在调用时不会立即被执行，而是返回一个协程对象。

task：任务，它是对协程对象的进一步封装，包含了任务的各个状态，比如 running、finished 等。

另外我们还需要了解两个关键字：async（定义一个协程），await（用来挂起阻塞方法的执行）。下面是一个示例：

 1 import asyncio
 2 
 3 
 4 async def show(num):
 5     print("Number is {}".fORMat(num))
 6 
 7 
 8 cor = show(1)
 9 print("Coroutine: ", cor)
10 print("After execute...")
11 task = asyncio.ensure_future(cor)
12 print("Task: ", task)
13 loop = asyncio.get_event_loop()
14 loop.run_until_complete(cor)
15 print("Task: ", task)
16 print("After loop...")

运行结果如下：

Coroutine: <coroutine object show at 0x0000000012ED91A8>
After execute...
Task: <Task pending coro=<show() running at E:/Python/1.py:4>>
Number is 1
Task: <Task finished coro=<show() done, defined at E:/Python/1.py:4> result=None>
After loop...

这里首先使用async定义了一个show方法，传入一个数字然后打印出来，我们调用了这个方法，但是这个方法并没有执行，而是返回了一个Coroutine协程对象。然后我们使用了asyncio的ensure_future()方法，该方法会返回一个task对象，此时task的状态是pending。然后我们使用 get_event_loop() 方法创建了一个事件循环 loop，并调用了run_until_complete() 方法将协程注册到事件循环loop中，然后启动。最后我们才看到了show() 方法打印了输出结果，此时task的状态已经是finished了。

再来看一个例子：

 1 import time
 2 import asyncio
 3 
 4 
 5 async def show(num):
 6     print("Number is {}".format(num))
 7     await asyncio.sleep(1)  # 必须加await实现协程 这里asyncio.sleep(1)是一个子协程
 8     # time.sleep(1)  # time.sleep()不能与await搭配使用
 9 
10 
11 start = time.time()
12 tasks = [asyncio.ensure_future(show(i)) for i in [1, 2, 3, 4, 5]]
13 
14 loop = asyncio.get_event_loop()
15 loop.run_until_complete(asyncio.wait(tasks))
16 end = time.time()
17 print("Cost time: ", end - start)

这里我们有多个任务组成了一个列表tasks，然后我们将tasks添加到事件循环中，等到执行完毕了打印出所花费的时间。当我们使用await asyncio.sleep(1)的时候，结果如下：

Number is 1
Number is 2
Number is 3
Number is 4
Number is 5
Cost time: 1.0040574073791504

使用time,sleep(1)的时候结果如下：

Number is 1
Number is 2
Number is 3
Number is 4
Number is 5
Cost time: 5.001286029815674

结果很明显了，前者所花费的时间更少，原因在于await会将asyncio.sleep(1)这个协程暂时挂起阻塞，第一个任务（show(1)）运行到这里的时候就会挂起，然后执行下一个任务（show(2)），以此类推，等到所有的任务都执行完毕，再执行asyncio.sleep(1)，所以最后花费的时间就是一秒多一点了。

1、aioHttp

要利用协程来写网络爬虫，还需要使用一个第三方库--aiohttp，aiohttp是一个支持异步请求的库，利用它和 asyncio配合我们可以非常方便地实现异步请求操作。没有安装的可以使用pip install aiohttp进行安装，其官方文档的链接是：https://aiohttp.readthedocs.io/en/stable/，需要注意的是aiohttp支持的python版本是3.5.3+，如果运行出错的话建议先检查下你的python版本。先来看看官网上给出的例子吧：

 1 import aiohttp
 2 import asyncio
 3 
 4 async def fetch(session, url):
 5     async with session.get(url) as response:
 6         return await response.text()
 7 
 8 async def main():
 9     async with aiohttp.ClientSession() as session:
10         html = await fetch(session, 'http://python.org')
11         print(html)
12 
13 loop = asyncio.get_event_loop()
14 loop.run_until_complete(main())

首先是导入我们需要的模块，然后定义了一个fetch方法，传入的参数是一个session和一个url，然后使用session的get()方法去请求这个链接，并返回结果。在main方法中，首先引用了aiohttp里的ClientSession类，建立了一个session对象，然后将这个session和一个链接传入到fetch方法中，最后将fetch方法返回的结果打印出来。

2、具体步骤

这次写的爬虫实现了对崔庆才的个人博客上的文章基本信息的爬取，包括标题、链接、浏览的数目、评论的数目以及喜欢的人数，最后分别将浏览数、评论数以及喜欢数排前十的文章统计出来并绘制出图表。

首先进入崔庆才个人博客，可以看到一页有二十篇文章，把页面下拉，就会出现更多的文章，显然这是动态加载的，于是我们打开开发者工具，继续下拉页面，然后在XHR选项中看到了我们需要的内容：

不停地下拉页面，会发现最后数字会定格在35，也就是说总共有35页，每页的链接都形如https://cuiqinGCai.com/page/2，这样的话我们爬取的话就简单多了。基本思路是将所有链接组成一个列表，然后利用aiohttp去请求网页并返回结果，然后我们再对结果进行解析，对于解析得到的结果，保存在mongoDB数据库中。然后再对数据进行一下简单的分析，并绘制图表，结果如下：

完整代码已上传到GitHub！

您可能感兴趣的文档:

点击免费下载>>软考高级考试备考技巧/历年真题/备考精华资料

--结束END--

本文标题: 【Python3爬虫】使用异步协程编写爬

本文链接: https://www.lsjlt.com/news/180841.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑，方便收藏和打印～

下载Word文档

去做题

猜你喜欢

【Python3爬虫】使用异步协程编写爬

进程：进程是一个具有独立功能的程序关于某个数据集合的一次运行活动。进程是操作系统动态执行的基本单元。线程：一个进程中包含若干线程，当然至少有一个线程，线程可以利用进程所拥有的资源。线程是独立运行和独立调度的基本单元。协程：协程是一种...

99+

2023-01-30

爬虫
Python用yieldfrom实现异步协程爬虫的实践

目录一、什么是yield二、yield于列表的区别三、yield from 实现协程一、什么是yield 如果还没有怎么用过的话，直接把yield看做成一种特殊的return（PS：...

99+

2023-01-18

Python yield from异步协程爬虫 Python 异步协程爬虫
如何使用PHP编写爬虫程序

在互联网时代，信息就像一条无休无止的河流，源源不断地涌出来。有时候我们需要从Web上抓取一些数据，以便分析或者做其他用途。这时候，爬虫程序就显得尤为重要。爬虫程序，顾名思义，就是用来自动化地获取Web页面内容的程序。作为一门广泛应用的编程...

99+

2023-09-03

php 爬虫开发语言
python异步爬虫之多线程

多线程，多进程（不建议使用）优点：可以为相关阻塞的操作单独开启线程或者进程，阻塞操作可以异步执行弊端：无法无限制开启多线程或多进程。原则：线程池处理的是阻塞且耗时的操作单线爬虫示例...

99+

2024-04-02
使用PHP编写爬虫的方法

本篇内容介绍了“使用PHP编写爬虫的方法”的有关知识，在实际案例的操作过程中，不少人都会遇到这样的困境，接下来就让小编带领大家学习一下如何处理这些情况吧！希望大家仔细阅读，能够学有所成！说到爬虫，大家的第一印象就会想到Python，但是P...

99+

2023-06-20
python3爬虫中多线程的使用示例

这篇文章主要介绍了python3爬虫中多线程的使用示例，具有一定借鉴价值，感兴趣的朋友可以参考下，希望大家阅读完这篇文章之后大有收获，下面让小编带着大家一起了解一下。本文教程操作环境：windows7系统、Python 3.9.1，DELL...

99+

2023-06-14
怎么使用Python3多线程处理爬虫

本文小编为大家详细介绍“怎么使用Python3多线程处理爬虫”，内容详细，步骤清晰，细节处理妥当，希望这篇“怎么使用Python3多线程处理爬虫”文章能帮助大家解决疑惑，下面跟着小编的思路慢慢深入，一起来学习新知识吧。多线程到底什么是多线程...

99+

2023-07-05
使用python编写简单网络爬虫（一）

总算有时间动手用所学的python知识编写一个简单的网络爬虫了，这个例子主要实现用python爬虫从百度图库中下载美女的图片，并保存在本地，闲话少说，直接贴出相应的代码如下：---------------------------...

99+

2023-01-31

爬虫简单网络
六个步骤学会使用Python爬虫爬取数据(爬虫爬取微博实战)

用python的爬虫爬取数据真的很简单，只要掌握这六步就好，也不复杂。以前还以为爬虫很难，结果一上手，从初学到把东西爬下来，一个小时都不到就解决了。 Python爬虫六部曲第一步：安装request...

99+

2023-09-10

python 爬虫 python入门 python爬虫 python爬虫爬取网页数据
如何利用aiohttp制作异步爬虫

这篇文章主要介绍“如何利用aiohttp制作异步爬虫”，在日常操作中，相信很多人在如何利用aiohttp制作异步爬虫问题上存在疑惑，小编查阅了各式资料，整理出简单好用的操作方法，希望对大家解答”如何利用aiohttp制作异步爬虫”的疑惑有所...

99+

2023-06-17
使用Nodejs怎么编写一个定时爬虫

使用Nodejs怎么编写一个定时爬虫？针对这个问题，这篇文章详细介绍了相对应的分析和解答，希望可以帮助更多想解决这个问题的小伙伴找到更简单易行的方法。const axios = require('axi...

99+

2023-06-09
Python3网络爬虫实战-21、使用U

在前面一节我们了解了 Request 的发送过程，但是在网络情况不好的情况下，出现了异常怎么办呢？这时如果我们不处理这些异常，程序很可能报错而终止运行，所以异常处理还是十分有必要的。 Urllib 的 error 模块定义了由 reques...

99+

2023-01-31

爬虫实战网络
Python3网络爬虫实战-23、使用U

利用 Urllib 的 robotparser 模块我们可以实现网站 Robots 协议的分析，本节我们来简单了解一下它的用法。 Robots 协议也被称作爬虫协议、机器人协议，它的全名叫做网络爬虫排除标准（Robots Exclusio...

99+

2023-01-31

爬虫实战网络
Python3网络爬虫实战-20、使用U

学习爬虫，最初的操作便是来模拟浏览器向服务器发出一个请求，那么我们需要从哪个地方做起呢？请求需要我们自己来构造吗？我们需要关心请求这个数据结构的实现吗？我们需要了解 HTTP、TCP、IP 层的网络传输通信吗？我们需要知道服务器的响应和应答...

99+

2023-01-31

爬虫实战网络
怎么使用PyCharm Profile分析异步爬虫效率

这篇文章主要介绍“怎么使用PyCharm Profile分析异步爬虫效率”的相关知识，小编通过实际案例向大家展示操作过程，操作方法简单快捷，实用性强，希望这篇“怎么使用PyCharm Profile分析异步...

99+

2024-04-02
Python3网络爬虫实战-22、使用U

Urllib 库里还提供了 parse 这个模块，它定义了处理 URL 的标准接口，例如实现 URL 各部分的抽取，合并以及链接转换。它支持如下协议的 URL 处理：file、ftp、gopher、hdl、http、https、imap、m...

99+

2023-01-31

爬虫实战网络
Python异步爬虫requests和aiohttp中代理IP的使用

爬虫要想爬的好，IP代理少不了。。现在网站基本都有些反爬措施，访问速度稍微快点，就会发现IP被封，不然就是提交验证。下面就两种常用的模块来讲一下代理IP的使用方式。话不多说，直接开始...

99+

2024-04-02
python异步协程爬虫报错：【TypeError: object int can‘t be used in ‘await‘ expression】探讨

近日，通过异步协程爬虫抓取rar压缩包文件时，学习运用异步协程来提高效率。但发生如下问题：TypeError: object int can't be used in 'await' expression 研究了好久，发现是在持久化保存时...

99+

2023-09-05

爬虫 python
PHP编写数据库爬虫程序的方法

随着Internet的发展，大量的数据都以数据库的方式存储在网络上。在此类数据中寻找特定的信息往往转化为搜索引擎等复杂工具的开发。然而，虽然数据是可用的，却并不一定能够自由而易地获得所需。此时若能运用到爬虫技术，则可将任务大大简化。下文将详...

99+

2023-05-15

数据库 PHP 爬虫程序
使用C++编写一个DHT爬虫,实现从DHT网络爬取BT种子

以下是一个简单的使用C++编写的DHT爬虫，以从DHT网络中爬取BT种子：```cpp#include #include #incl...

99+

2023-10-12

C++