Python爬虫中的并发编程详解

Python并发编程 Python爬虫 2023-05-18 14:05:41 416人浏览八月长安

Python 官方文档：入门教程 => 点击学习

摘要

目录并发编程在爬虫中的应用什么是并发编程并发编程在爬虫中的应用单线程版本多线程版本异步I/O版本并发编程在爬虫中的应用本文将为大家介绍 python 中的多线程、多进程和异步编程，

并发编程在爬虫中的应用

本文将为大家介绍 python 中的多线程、多进程和异步编程，并且以爬取“360图片”网站的图片并保存到本地为例，为大家分别展示使用单线程、多线程和异步 I/O 编程的爬虫程序有什么区别，同时也对它们的执行效率进行简单的对比。

什么是并发编程

并发编程是指在一个时间段内，能够执行多个操作的程序设计，通常表现为程序中有多个任务同时启动，可以运行并且相互之间不会产生影响。并发编程的好处是可以提高程序的性能和响应能力。

并发编程在爬虫中的应用

爬虫程序是典型的 I/O 密集型任务，对于 I/O 密集型任务来说，多线程和异步 I/O 都是很好的选择，因为当程序的某个部分因 I/O 操作阻塞时，程序的其他部分仍然可以运转，这样我们不用在等待和阻塞中浪费大量的时间。

单线程版本

我们首先来看单线程版本的爬虫程序。这个爬虫程序使用了requests库获取 JSON 数据，并通过open函数将图片保存到本地。

"""
example04.py - 单线程版本爬虫
"""
import os
import requests
def download_picture(url):
    filename = url[url.rfind('/') + 1:]
    resp = requests.get(url)
    if resp.status_code == 200:
        with open(f'images/beauty/{filename}', 'wb') as file:
            file.write(resp.content)
def main():
    if not os.path.exists('images/beauty'):
        os.makedirs('images/beauty')
    for page in range(3):
        resp = requests.get(f'<https://image.so.com/zjl?ch=beauty&sn=>{page * 30}')
        if resp.status_code == 200:
            pic_dict_list = resp.json()['list']
            for pic_dict in pic_dict_list:
                download_picture(pic_dict['qhimg_url'])
if __name__ == '__main__':
    main()

在 MacOS 或 linux 系统上，我们可以使用time命令来了解上面代码的执行时间以及 CPU 的利用率，如下所示。

time python3 example04.py

下面是单线程爬虫代码在我的电脑上执行的结果。

Python3 example04.py 2.36s user 0.39s system 12% cpu 21.578 total

这里我们只需要关注代码的总耗时为21.578秒，CPU 利用率为12%。

多线程版本

我们使用之前讲到过的线程池技术，将上面的代码修改为多线程版本。

"""
example05.py - 多线程版本爬虫
"""
import os
from concurrent.futures import ThreadPoolExecutor
import requests
def download_picture(url):
    filename = url[url.rfind('/') + 1:]
    resp = requests.get(url)
    if resp.status_code == 200:
        with open(f'images/beauty/{filename}', 'wb') as file:
            file.write(resp.content)
def main():
    if not os.path.exists('images/beauty'):
        os.makedirs('images/beauty')
    with ThreadPoolExecutor(max_workers=16) as pool:
        for page in range(3):
            resp = requests.get(f'<Https://image.so.com/zjl?ch=beauty&sn=>{page * 30}')
            if resp.status_code == 200:
                pic_dict_list = resp.json()['list']
                for pic_dict in pic_dict_list:
                    pool.submit(download_picture, pic_dict['qhimg_url'])
if __name__ == '__main__':
    main()

执行如下所示的命令。

time python3 example05.py

代码的执行结果如下所示：

python3 example05.py 2.65s user 0.40s system 95% cpu 3.193 total

异步I/O版本

我们使用aiohttp将上面的代码修改为异步 I/O 的版本。为了以异步 I/O 的方式实现网络资源的获取和写文件操作，我们首先得安装三方库aiohttp和aiofile。

pip install aiohttp aiofile

下面是异步 I/O 版本的爬虫代码。

"""
example06.py - 异步I/O版本爬虫
"""
import asyncio
import json
import os
import aiofile
import aiohttp
async def download_picture(session, url):
    filename = url[url.rfind('/') + 1:]
    async with session.get(url, ssl=False) as resp:
        if resp.status == 200:
            data = await resp.read()
            async with aiofile.async_open(f'images/beauty/{filename}', 'wb') as file:
                await file.write(data)
async def main():
    if not os.path.exists('images/beauty'):
        os.makedirs('images/beauty')
    async with aiohttp.ClientSession() as session:
        tasks = []
        for page in range(3):
            resp = await session.get(f'<https://image.so.com/zjl?ch=beauty&sn=>{page * 30}')
            if resp.status == 200:
                pic_dict_list = (await resp.json())['list']
                for pic_dict in pic_dict_list:
                    tasks.append(asyncio.ensure_future(download_picture(session, pic_dict['qhimg_url'])))
        await asyncio.gather(*tasks)
if __name__ == '__main__':
    loop = asyncio.get_event_loop()
    loop.run_until_complete(main())

执行如下所示的命令。

time python3 example06.py

代码的执行结果如下所示：

python3 example06.py 0.92s user 0.27s system 290% cpu 0.420 total

相对于单线程版本的爬虫程序，多线程版本和异步 I/O 版本的爬虫程序在执行上的时间上有了显著的提升，而且异步 I/O 版本的爬虫程序表现最佳。

总结：通过对单线程版本、多线程版本和异步 I/O 版本的爬虫程序的对比，我们可以看出在爬虫程序中使用异步 I/O 可以更好地发挥程序的性能和响应能力。因此，我们在实际的开发中应该更加注重并发编程的应用。

到此这篇关于python爬虫中的并发编程详解的文章就介绍到这了,更多相关Python并发编程内容请搜索编程网以前的文章或继续浏览下面的相关文章希望大家以后多多支持编程网！

您可能感兴趣的文档:

点击免费下载>>软考高级考试备考技巧/历年真题/备考精华资料

--结束END--

本文标题: Python爬虫中的并发编程详解

本文链接: https://www.lsjlt.com/news/212156.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑，方便收藏和打印～

下载Word文档

去做题

猜你喜欢

Python爬虫中的并发编程详解

目录并发编程在爬虫中的应用什么是并发编程并发编程在爬虫中的应用单线程版本多线程版本异步I/O版本并发编程在爬虫中的应用本文将为大家介绍 Python 中的多线程、多进程和异步编程，...

99+

2023-05-18

Python并发编程 Python爬虫
Python爬虫中的并发编程怎么应用

什么是并发编程并发编程是指在一个时间段内，能够执行多个操作的程序设计，通常表现为程序中有多个任务同时启动，可以运行并且相互之间不会产生影响。并发编程的好处是可以提高程序的性能和响应能力。并发编程在爬虫中的应用爬虫程序是典型的 I/O 密集型...

99+

2023-05-14

Python
Python爬虫的并发编程如何应用

这篇文章主要讲解了“Python爬虫的并发编程如何应用”，文中的讲解内容简单清晰，易于学习与理解，下面请大家跟着小编的思路慢慢深入，一起来研究和学习“Python爬虫的并发编程如何应用”吧！什么是并发编程并发编程是指在一个时间段内，能够执行...

99+

2023-07-06
Python爬虫和反爬技术过程详解

目录一、浏览器模拟（Headers）如何找到浏览器信息打开浏览器，按F12（或者鼠标右键+检查）点击如下图所示的Network按钮按键盘Ctrl+R（MAC：Command+R）进行...

99+

2024-04-02
Python爬虫库urllib的使用教程详解

目录Python urllib库urllib.request模块urlopen函数Request 类urllib.error模块URLError 示例HTTPError示例...

99+

2022-11-21

Python爬虫库urllib使用 Python urllib使用 Python urllib
Python中爬虫编程的常见问题及解决方案

Python中爬虫编程的常见问题及解决方案引言：随着互联网的发展，网络数据的重要性日益突出。爬虫编程成为大数据分析、网络安全等领域中必备的技能。然而，爬虫编程不仅需要良好的编程基础，还需要面对着各种常见的问题。本文将介绍Python中爬虫编...

99+

2023-10-22

解决方案常见问题关键词：爬虫编程
python爬虫selenium模块详解

目录selenium模块 selenium基本概念基本使用基于浏览器自动化的操作selenium处理iframe：selenium模拟登陆QQ空间无头浏览器和规避检测selenium...

99+

2024-04-02
Python爬虫之urllib库详解

目录一、说明：二、urllib四个模块组成：三、urllib.request1、urlopen函数2、response 响应类型3、Request对象　4、高级请求方式四、urlli...

99+

2024-04-02
python爬虫入门教程(非常详细),超级简单的Python爬虫教程

一、基础入门 1.1什么是爬虫爬虫(spider，又网络爬虫)，是指向网站/网络发起请求，获取资源后分析并提取有用数据的程序。从技术层面来说就是通过程序模拟浏览器请求站点的行为，把站点返回的HT...

99+

2023-09-01

python 爬虫 python爬虫爬虫入门 python零基础
详解Java中的OkHttp JSONP爬虫

目录什么是JSOUP什么是OkHttp爬虫需要掌握的技术需要的依赖JSON入门DemoJSOUP常用方法使用JSOUP 方式连接User-Agent(随机)后台爬虫的三大问题sele...

99+

2024-04-02
学习Go语言并编写爬虫的详细指南

从零开始：使用Go语言编写爬虫的详细步骤引言：随着互联网的快速发展，爬虫变得越来越重要。爬虫是一种通过程序自动访问和获取互联网上特定信息的技术手段。在本文中，我们将介绍如何使用Go语言编写一个简单的爬虫，并...

99+

2024-01-30

Go语言爬虫步骤格式化输出
Golang在爬虫开发中的应用案例详解

go 语言以并发性和高性能著称，使其成为网络爬虫开发的理想选择。创建网站爬虫： go 语言提供简洁易学的语法，适用于快速编写爬虫。分布式爬虫： go 语言的 goroutine 和消息队...

99+

2024-05-12

go 爬虫 golang 高可扩展性
python爬虫scrapy项目详解（关

python爬虫scrapy项目（一）　　爬取目标：腾讯招聘网站（起始url：https://hr.tencent.com/position.phpkeywords=&tid=0&start）　　爬取内容：职位；职位类...

99+

2023-01-30

爬虫详解项目
python爬虫之scrapy框架详解

1.在pycharm下安装scrapy函数库 2.将安装好scrapy函数库下的路径配置到系统path的环境变量中 3.打开cmd终端输入：scrapy.exe检查是否安装成功 ...

99+

2024-04-02
Python并发编程中的GIL，理解全局解释器锁对Python并发编程的影响

在Python中，GIL是如何运作的： GIL是一个由Python解释器管理的全局锁，当一个线程想要执行Python字节码时，必须先获取GIL，一旦它获取了GIL，就可以独占地执行Python字节码，直到它释放GIL为止。其他线程在该线程...

99+

2024-02-05

什么是GIL: GIL是Python解释器为了保证线程安全而采取的一种同步策略它是一个全局锁在任何时刻只能有一个线程持有GIL 从而确保在解释执行Python字节码时只有一个线程处于活动状态
python链家网高并发异步爬虫and异

python链家网二手房异步IO爬虫，使用asyncio、aiohttp和aiomysql 很多小伙伴初学python时都会学习到爬虫，刚入门时会使用requests、urllib这些同步的库进行单线程爬虫，速度是比较慢的，后学会用scr...

99+

2023-01-31

爬虫链家 python
Python爬虫urllib和requests的区别详解

我们讲了requests的用法以及利用requests简单爬取、保存网页的方法，这节课我们主要讲urllib和requests的区别。 1、获取网页数据第一步，引入模块。两者引入...

99+

2024-04-02
python爬虫之requests库的使用详解

目录python爬虫—requests库的用法基本的get请求带参数的GET请求：解析json使用代理获取cookie会话维持证书验证设置超时异常捕获异常处理总结 python爬虫...

99+

2024-04-02
ChatGPT帮我自动编写Python爬虫脚本的详细过程

目录1、爬取知乎上的专栏文章2. 爬取京东某商品的评论3.继续更多的测试都知道最近ChatGPT聊天机器人爆火，我也想方设法注册了账号，据说后面要收费了。 ChatGPT是一种基于大...

99+

2023-02-16

ChatGPT自动编写 Python 爬虫脚本 ChatGPT编写 Python 爬虫
python爬虫教程之bs4解析和xpath解析详解

目录bs4解析原理:如何实例化BeautifulSoup对象:用于数据解析的方法和属性:xpath解析xpath解析原理:实例化一个etree对象:xpath( ‘xpa...

99+

2024-04-02