scrapy如何实现ip动态代理与更换ip

2023-06-14 07:06:34 110人浏览独家记忆

摘要

这篇文章将为大家详细讲解有关scrapy如何实现ip动态代理与更换ip，小编觉得挺实用的，因此分享给大家做个参考，希望大家阅读完这篇文章后可以有所收获。请自行准备一个ip代理的平台例如我用的这个平台,每次提取10个ip从上面可以看到数据格式

这篇文章将为大家详细讲解有关scrapy如何实现ip动态代理与更换ip，小编觉得挺实用的，因此分享给大家做个参考，希望大家阅读完这篇文章后可以有所收获。

请自行准备一个ip代理的平台
例如我用的这个平台,每次提取10个ip

scrapy如何实现ip动态代理与更换ip

从上面可以看到数据格式是文本，换行是\r\n，访问链接之后大概就是长这样的,scrapy里面的ip需要加上前缀Http://
例如:http://117.95.41.21:34854

scrapy如何实现ip动态代理与更换ip

OK，那现在已经准备好了ip了，先给你们屡一下思路。

ip池和计数器放在setting文件

第一次请求的时候要填满ip池,所以在爬虫文件的start_requests函数下手

更换ip的地方是middlewares的下载器中间件类的process_request函数,因为每个请求发起前都会经过这个函数

首先是setting文件,其实就是加两句代码

count = {'count': 0}ipPool = []

还有就是开启下载器中间件,注意是下面那个download的类,中间件的process_request函数的时候才能生效

scrapy如何实现ip动态代理与更换ip

下载器中间件的process_request函数,进行ip代理和固定次数更还ip代理池

# 记得导包from 你的项目.settings import ipPool, countimport randomimport requests  def process_request(self, request, spider):    # 随机选中一个ip    ip = random.choice(ipPool)    print('当前ip', ip, '-----', count['count'])    # 更换request的ip----------这句是重点    request.meta['proxy'] = ip    # 如果循环大于某个值,就清理ip池,更换ip的内容    if count['count'] > 50:      print('-------------切换ip------------------')      count['count'] = 0      ipPool.clear()      ips = requests.get('你的ip获取的地址')      for ip in ips.text.split('\r\n'):        ipPool.append('http://' + ip)    # 每次访问,计数器+1    count['count'] += 1    return None

最后就是爬虫文件的start_requests函数,就是第一次发请求前要先填满ip池的ip

# 记得导包from 你的项目.settings import ipPoolimport randomimport requests  def start_requests(self):    # 第一次请求发起前先填充一下ip池    ips = requests.get('你的ip获取的地址')    for ip in ips.text.split('\r\n'):      ipPool.append('http://' + ip)

简单的ip代理以及固定次数就更换ip池就完成了

关于“scrapy如何实现ip动态代理与更换ip”这篇文章就分享到这里了，希望以上内容可以对大家有一定的帮助，使各位可以学到更多知识，如果觉得文章不错，请把它分享出去让更多的人看到。

点击免费下载>>软考高级考试备考技巧/历年真题/备考精华资料

--结束END--

本文标题: scrapy如何实现ip动态代理与更换ip

本文链接: https://www.lsjlt.com/news/268777.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑，方便收藏和打印～

下载Word文档

去做题

猜你喜欢

c++中函数返回值的类型是由什么决定的

在 c++ 中，函数返回值类型由其函数原型的类型决定，包括：函数原型指定返回值类型：在函数名称后跟冒号，再跟返回值类型。默认返回值类型为 int：如果不指定返回值类型，默认类型为 int...

99+

2024-05-14

c++
在c++中,什么叫函数的返回值

在 c++ 中，函数只能返回一个值。解决方法：引用传递、结构体或类、out 参数。没有返回值的函数可以使用 void 类型，表示不返回任何值。什么是 C++ 中函数的返回值？在 C...

99+

2024-05-14

c++
c++中static的作用和用法

c++ 中的 static 关键字用于声明静态变量、函数或类成员，使其在程序生命周期内存在或与类的每个实例关联。具体用法如下：静态变量：在函数外声明，仅创建一份副本，在程序启动时初始化且...

99+

2024-05-14

c++
static在c和c++中的区别

static关键字在c和c++中用于控制变量的生命周期和作用域。在c中，它延长局部变量和限制全局变量的作用域。在c++中，它还用于定义类成员变量和函数、命名空间中的变量和函数，以及函数内...

99+

2024-05-14

c语言 c++ 作用域
c++中a++与++a的区别

c++ 中 a++ 和 ++a 区别：后缀递增 a++ 先返回原始值，再递增；前缀递增 ++a 先递增，再返回递增后的值。 C++ 中 a++ 与 ++a 的区别在 C++ 中，a+...

99+

2024-05-14

c++
if else在c++中的用法

在 c++ 中，if else 语句根据条件执行不同代码块的语法为：if (condition) { } else { }。它可用于：检查数字是否为正数根据条件执行嵌套 if els...

99+

2024-05-14

c++
struct在c和c++中的区别

c和c++中struct的区别包括：c中成员默认公开访问，c++中默认私有访问。c++可以在struct定义中初始化成员，c中不允许。c++支持成员函数，c不支持。c++不支持匿名str...

99+

2024-05-14

c++
c++中的所有函数都是传值调用吗

函数调用类型可分为传值调用和引用调用，默认采用传值调用，传值调用中形参接收实参副本，引用调用中形参接收实参引用，对形参进行的修改也会影响实参。 C++中的函数调用类型 C++中，函数调...

99+

2024-05-14

c++
c++中ifdef的用法

c++ 中的 #ifdef 预处理器指令用于根据预定义宏是否存在来编译或不编译代码块。它的语法是 #ifdef ，其作用包括：检查宏是否存在，如果宏已定义，则编译其后的代码块；实现条件编...

99+

2024-05-14

c++
c++中的函数调用有哪几种方式?它们有什么区别

c++ 中的函数调用方式有 4 种：值传递（复制实参值，不影响实参）、引用传递（传递实参地址，修改形参值会修改实参）、指针传递（传递实参指向的内存地址，修改指向的值会影响实参）、rval...

99+

2024-05-14

c++