Python爬虫之线程池的使用

2024-04-02 19:04:59 420人浏览泡泡鱼

Python 官方文档：入门教程 => 点击学习

摘要

目录一、前言二、同步代码演示三、异步，线程池代码四、同步爬虫爬取图片五、使用线程池的异步爬虫爬取4K美女图片一、前言学到现在，我们可以说已经学习了爬虫的基础知识，如果没有那些奇奇怪

一、前言

学到现在，我们可以说已经学习了爬虫的基础知识，如果没有那些奇奇怪怪的反爬虫机制，基本上只要有时间分析，一般的数据都是可以爬取的，那么到了这个时候我们需要考虑的就是爬取的效率了，关于提高爬虫效率，也就是实现异步爬虫，我们可以考虑以下两种方式：一是线程池的使用（也就是实现单进程下的多线程），一是协程的使用（如果没有记错，我所使用的协程模块是从python3.4以后引入的，我写博客时使用的python版本是3.9）。

今天我们先来讲讲线程池。

二、同步代码演示

我们先用普通的同步的形式写一段代码


import time

def func(url):
    print("正在下载：", url)
    time.sleep(2)
    print("下载完成：", url)

if __name__ == '__main__':
    start = time.time() # 开始时间

    url_list = [
        "a", "b", "c"
    ]

    for url in url_list:
        func(url)

    end = time.time() # 结束时间

    print(end - start)

对于代码运行的结果我们心里都有数，但还是让我们来看一下吧

在这里插入图片描述

不出所料。运行时间果然是六秒

三、异步，线程池代码

那么如果我们使用线程池运行上述代码又会怎样呢？


import time
from multiprocessing import Pool

def func(url):
    print("正在下载：", url)
    time.sleep(2)
    print("下载完成：", url)

if __name__ == '__main__':
    start = time.time() # 开始时间

    url_list = [
        "a", "b", "c"
    ]

    pool = Pool(len(url_list)) # 实例化一个线程池对象，并且设定线程池的上限数量为列表长度。不设置上限也可以。

    pool.map(func, url_list)

    end = time.time() # 结束时间

    print(end - start)

下面就是见证奇迹的时候了，让我们运行程序

在这里插入图片描述

我们发现这次我们的运行时间只用2～3秒。其实我们可以将线程池简单的理解为将多个任务同时进行。

注意：

1.我使用的是 PyCharm，如果使用的是 VS 或者说是 Python 自带的 idle，在运行时我们只能看到最后时间的输出。

2.我们输出结果可能并不是按 abc 的顺序输出的。

四、同步爬虫爬取图片

因为我们的重点是线程池的爬取效率提高，我们就简单的爬取一页的图片。


import requests
import time
import os
from lxml import etree

def save_photo(url, title):
    # UA伪装
    header = {
        "User-Agent": "Mozilla/5.0 (windows NT 10.0; Win64; x64) AppleWEBKit/537.36 (Khtml, like Gecko) Chrome/90.0.4430.93 Safari/537.36"
    }

    # 发送请求
    photo = requests.get(url=url, headers=header).content

    # 创建路径，避免重复下载
    if not os.path.exists("C:\\Users\\ASUS\\Desktop\\CSDN\\高性能异步爬虫\\线程池\\同步爬虫爬取4K美女图片\\" + title + ".jpg"):
        with open("C:\\Users\\ASUS\\Desktop\\CSDN\\高性能异步爬虫\\线程池\\同步爬虫爬取4K美女图片\\" + title + ".jpg", "wb") as fp:
            print(title, "开始下载！！！")
            fp.write(photo)
            print(title, "下载完成！！！")

if __name__ == '__main__':
    start = time.time()

    # 创建文件夹
    if not os.path.exists("C:\\Users\\ASUS\\Desktop\\CSDN\\高性能异步爬虫\\线程池\\同步爬虫爬取4K美女图片"):
        os.mkdir("C:\\Users\\ASUS\\Desktop\\CSDN\\高性能异步爬虫\\线程池\\同步爬虫爬取4K美女图片")

    # UA伪装
    header = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.93 Safari/537.36"
    }

    # 指定url
    url = "https://pic.netbian.com/4kmeinv/"

    # 发送请求，获取源码
    page = requests.get(url = url, headers = header).text

    # xpath 解析，获取图片的下载地址的列表
    tree = etree.HTML(page)
    url_list = tree.xpath('//*[@id="main"]/div[3]/ul/li/a/@href')
    # 通过下载地址获取高清图片的地址和图片名称
    for href in url_list:
        new_url = "Https://pic.netbian.com" + href
        # 再一次发送请求
        page = requests.get(url = new_url, headers = header).text
        # 再一次 xpath 解析
        new_tree = etree.HTML(page)
        src = "https://pic.netbian.com" + new_tree.xpath('//*[@id="img"]/img/@src')[0]
        title = new_tree.xpath('//*[@id="img"]/img/@title')[0].split(" ")[0]
        # 编译文字
        title = title.encode("iso-8859-1").decode("gbk")
        # 下载，保存
        save_photo(src, title)

    end = time.time()
    print(end - start)

让我们看看同步爬虫需要多长时间

在这里插入图片描述

然后再让我们看看使用线程池的异步爬虫爬取这些图片需要多久

五、使用线程池的异步爬虫爬取4K美女图片


import requests
import time
import os
from lxml import etree
from multiprocessing import Pool

def save_photo(src_title):
    # UA伪装
    header = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.93 Safari/537.36"
    }

    # 发送请求
    url = src_title[0]
    title = src_title[1]
    photo = requests.get(url=url, headers=header).content

    # 创建路径，避免重复下载
    if not os.path.exists("C:\\Users\\ASUS\\Desktop\\CSDN\\高性能异步爬虫\\线程池\\异步爬虫爬取4K美女图片\\" + title + ".jpg"):
        with open("C:\\Users\\ASUS\\Desktop\\CSDN\\高性能异步爬虫\\线程池\\异步爬虫爬取4K美女图片\\" + title + ".jpg", "wb") as fp:
            print(title, "开始下载！！！")
            fp.write(photo)
            print(title, "下载完成！！！")

if __name__ == '__main__':
    start = time.time()

    # 创建文件夹
    if not os.path.exists("C:\\Users\\ASUS\\Desktop\\CSDN\\高性能异步爬虫\\线程池\\异步爬虫爬取4K美女图片"):
        os.mkdir("C:\\Users\\ASUS\\Desktop\\CSDN\\高性能异步爬虫\\线程池\\异步爬虫爬取4K美女图片")

    # UA伪装
    header = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.93 Safari/537.36"
    }

    # 指定url
    url = "https://pic.netbian.com/4kmeinv/"

    # 发送请求，获取源码
    page = requests.get(url = url, headers = header).text

    # xpath 解析，获取图片的下载地址的列表
    tree = etree.HTML(page)
    url_list = tree.xpath('//*[@id="main"]/div[3]/ul/li/a/@href')
    # 存储最后的网址和标题的列表
    src_list = []
    title_list = []
    # 通过下载地址获取高清图片的地址和图片名称
    for href in url_list:
        new_url = "https://pic.netbian.com" + href
        # 再一次发送请求
        page = requests.get(url = new_url, headers = header).text
        # 再一次 xpath 解析
        new_tree = etree.HTML(page)
        src = "https://pic.netbian.com" + new_tree.xpath('//*[@id="img"]/img/@src')[0]
        src_list.append(src)
        title = new_tree.xpath('//*[@id="img"]/img/@title')[0].split(" ")[0]
        # 编译文字
        title = title.encode("iso-8859-1").decode("gbk")
        title_list.append(title)

    # 下载，保存。使用线程池
    pool = Pool()
    src_title = zip(src_list, title_list)
    pool.map(save_photo, list(src_title))

    end = time.time()
    print(end - start)

让我们来看看运行的结果

在这里插入图片描述

只用了 17 秒，可不要小瞧这几秒，如果数据太大，这些差距后来就会更大了。

注意

不过我们必须要明白线程池是有上限的，这就是说数据太大，线程池的效率也会降低，所以这就要用到协程模块了。

到此这篇关于python爬虫之线程池的使用的文章就介绍到这了,更多相关Python线程池的使用内容请搜索编程网以前的文章或继续浏览下面的相关文章希望大家以后多多支持编程网！

您可能感兴趣的文档:

点击免费下载>>软考高级考试备考技巧/历年真题/备考精华资料

--结束END--

本文标题: Python爬虫之线程池的使用

本文链接: https://www.lsjlt.com/news/125653.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑，方便收藏和打印～

下载Word文档

去做题

猜你喜欢

Python爬虫之线程池的使用

目录一、前言二、同步代码演示三、异步，线程池代码四、同步爬虫爬取图片五、使用线程池的异步爬虫爬取4K美女图片一、前言学到现在，我们可以说已经学习了爬虫的基础知识，如果没有那些奇奇怪...

99+

2024-04-02
Python爬虫之线程池的使用方法

这篇文章主要介绍了Python爬虫之线程池的使用方法，具有一定借鉴价值，感兴趣的朋友可以参考下，希望大家阅读完这篇文章之后大有收获，下面让小编带着大家一起了解一下。一、前言学到现在，我们可以说已经学习了爬虫的基础知识，如果没有那些奇奇怪怪的...

99+

2023-06-15
python异步爬虫之多线程

多线程，多进程（不建议使用）优点：可以为相关阻塞的操作单独开启线程或者进程，阻塞操作可以异步执行弊端：无法无限制开启多线程或多进程。原则：线程池处理的是阻塞且耗时的操作单线爬虫示例...

99+

2024-04-02
爬虫学习之第四章爬虫进阶之多线程爬虫

有些时候，比如下载图片，因为下载图片是一个耗时的操作。如果采用之前那种同步的方式下载。那效率肯会特别慢。这时候我们就可以考虑使用多线程的方式来下载图片。多线程介绍：多线程是为了同步完成多项任务，通过提高资源使用效率来提高系统的效率...

99+

2023-01-31

爬虫进阶第四章
Python异步爬虫多线程与线程池示例详解

目录背景异步爬虫方式多线程，多进程（不建议）线程池，进程池（适当使用）单线程+异步协程（推荐）多线程线程池背景当对多个url发送请求时，只有请求完第一个url才会接着请求第二个ur...

99+

2024-04-02
Python爬虫学习之requests的使用教程

目录requests库简介requests库安装1、pip命令安装2、下载代码进行安装requests库的使用发送请求get请求抓取二进制数据post请求POST请求的文件上传利用r...

99+

2024-04-02
Python爬虫之BeautifulSoup的基本使用教程

目录bs4的安装bs4的快速入门解析器的比较(了解即可)对象种类bs4的简单使用获取标签内容获取标签名字获取a标签的href属性值遍历文档树案例练习思路代码实现总结bs4的安装要使...

99+

2024-04-02
Python+多线程+队列爬虫

Python+多线程+队列，爬虫例子 # -*- coding: utf-8-*- import urllib2 import urllib import json import time import datetime import t...

99+

2023-01-31

爬虫队列多线程
python爬虫之selenium库的安装及使用教程

目录第一步：python中安装selenium库第二步：下载谷歌浏览器驱动并合理放置第三步：使用selenium爬取QQ音乐歌词（简单示例）第一步：python中安装selenium...

99+

2024-04-02
python爬虫之requests库的使用详解

目录python爬虫—requests库的用法基本的get请求带参数的GET请求：解析json使用代理获取cookie会话维持证书验证设置超时异常捕获异常处理总结 python爬虫...

99+

2024-04-02
好程序员Python学习路线之python爬虫入门

　　好程序员Python学习路线之python爬虫入门，随着网络的迅速发展，万维网成为大量信息的载体，如何有效地提取并利用这些信息成为一个巨大的挑战。搜索引擎(Search Engine)，例如传统的通用搜索引擎AltaVista，Yaho...

99+

2023-06-02
python爬虫之pyppeteer库简单使用

pyppeteer 介绍Pyppeteer之前先说一下Puppeteer，Puppeteer是谷歌出品的一款基于Node.js开发的一款工具，主要是用来操纵Chrome浏览器的 AP...

99+

2024-04-02
python3爬虫中多线程的使用示例

这篇文章主要介绍了python3爬虫中多线程的使用示例，具有一定借鉴价值，感兴趣的朋友可以参考下，希望大家阅读完这篇文章之后大有收获，下面让小编带着大家一起了解一下。本文教程操作环境：windows7系统、Python 3.9.1，DELL...

99+

2023-06-14
python爬虫代理池的作用是什么

Python爬虫代理池的作用是提供一系列可用的代理IP地址，用于在爬虫程序中轮流使用，以避免对目标网站的访问过于频繁而被封IP或限制...

99+

2023-10-11

python
爬虫怎么使用ip代理池

这篇文章主要讲解了“爬虫怎么使用ip代理池”，文中的讲解内容简单清晰，易于学习与理解，下面请大家跟着小编的思路慢慢深入，一起来研究和学习“爬虫怎么使用ip代理池”吧！1、利用IP代理池技术，每次从IP代理池中随机选择一个IP代理来爬取数据。...

99+

2023-06-20
Python爬虫之Urllib库的基本使

# get请求 import urllib.request response = urllib.request.urlopen("http://www.baidu.com") print(response.read().decode('...

99+

2023-01-30

爬虫 Python Urllib
python爬虫之selenium模块怎么使用

这篇文章主要介绍了python爬虫之selenium模块怎么使用的相关知识，内容详细易懂，操作简单快捷，具有一定借鉴价值，相信大家阅读完这篇python爬虫之selenium模块怎么使用文章都会有所收获，下面我们一起来看看吧。一、什么是Se...

99+

2023-06-30
Python并发编程之线程池/进程池

原文来自开源中国前言python标准库提供线程和多处理模块来编写相应的多线程/多进程代码，但当项目达到一定规模时，频繁地创建/销毁进程或线程是非常消耗资源的，此时我们必须编写自己的线程池/进程池来交换时间空间。但是从Python3.2开始，...

99+

2023-06-02
Python爬虫利用多线程爬取LOL高清壁纸

目录页面分析抓取思路数据采集程序运行总结前言：随着移动端的普及出现了很多的移动 APP，应用软件也随之流行起来。最近又捡起来了英雄联盟手游，感觉还行，PC 端英雄联盟可谓是爆火的...

99+

2024-04-02
爬虫要如何使用ip代理池

这篇文章主要介绍“爬虫要如何使用ip代理池”，在日常操作中，相信很多人在爬虫要如何使用ip代理池问题上存在疑惑，小编查阅了各式资料，整理出简单好用的操作方法，希望对大家解答”爬虫要如何使用ip代理池”的疑惑有所帮助！接下来，请跟着小编一起来...

99+

2023-06-20