使用Scrapy框架时怎么应对普通的反爬机制

2024-04-02 19:04:59 504人浏览独家记忆

摘要

这篇文章主要讲解了“使用scrapy框架时怎么应对普通的反爬机制”，文中的讲解内容简单清晰，易于学习与理解，下面请大家跟着小编的思路慢慢深入，一起来研究和学习“使用Scrapy框架时怎么应对普通的反爬机制”

这篇文章主要讲解了“使用scrapy框架时怎么应对普通的反爬机制”，文中的讲解内容简单清晰，易于学习与理解，下面请大家跟着小编的思路慢慢深入，一起来研究和学习“使用Scrapy框架时怎么应对普通的反爬机制”吧！

header检验

最简单的反爬机制，就是检查Http请求的Headers信息，包括User-Agent, Referer、Cookies等。

User-Agent

User-Agent是检查用户所用客户端的种类和版本，在Scrapy中，通常是在下载器中间件中进行处理。比如在setting.py中建立一个包含很多浏览器User-Agent的列表，然后新建一个random_user_agent文件：

class RandomUserAgentMiddleware(object):     @claSSMethod     defprocess_request(cls, request, spider):         ua = random.choice(spider.settings['USER_AGENT_LIST'])         if ua:             request.headers.setdefault('User-Agent', ua)

这样就可以在每次请求中，随机选取一个真实浏览器的User-Agent。

Referer

Referer是检查此请求由哪里来，通常可以做图片的盗链判断。在Scrapy中，如果某个页面url是通过之前爬取的页面提取到，Scrapy会自动把之前爬取的页面url作为Referfer。也可以通过上面的方式自己定义Referfer字段。

Cookies

网站可能会检测Cookie中session_id的使用次数，如果超过限制，就触发反爬策略。所以可以在Scrapy中设置 COOKIES_ENABLED = False 让请求不带Cookies。

也有网站强制开启Cookis，这时就要麻烦一点了。可以另写一个简单的爬虫，定时向目标网站发送不带Cookies的请求，提取响应中Set-cookie字段信息并保存。爬取网页时，把存储起来的Cookies带入Headers中。

X-Forwarded-For

在请求头中添加X-Forwarded-For字段，将自己申明为一个透明的代理服务器，一些网站对代理服务器会手软一些。

X-Forwarded-For头一般格式如下

X-Forwarded-For: client1, proxy1, proxy2

这里将client1，proxy1设置为随机IP地址，把自己的请求伪装成代理的随机IP产生的请求。然而由于X-Forwarded-For可以随意篡改，很多网站并不会信任这个值。

限制IP的请求数量

如果某一IP的请求速度过快，就触发反爬机制。当然可以通过放慢爬取速度绕过，这要以爬取时间大大增长为代价。另一种方法就是添加代理。

很简单，在下载器中间件中添加:

request.meta['proxy'] = 'http://' + 'proxy_host' + ':' + proxy_port

然后再每次请求时使用不同的代理IP。然而问题是如何获取大量的代理IP?

可以自己写一个IP代理获取和维护系统，定时从各种披露免费代理IP的网站爬取免费IP代理，然后定时扫描这些IP和端口是否可用，将不可用的代理IP及时清理。这样就有一个动态的代理库，每次请求再从库中随机选择一个代理。然而这个方案的缺点也很明显，开发代理获取和维护系统本身就很费时费力，并且这种免费代理的数量并不多，而且稳定性都比较差。如果必须要用到代理，也可以去买一些稳定的代理服务。这些服务大多会用到带认证的代理。

在requests库中添加带认证的代理很简单，

proxies = {     "http": "http://user:pass@10.10.1.10:3128/", }

然而Scrapy不支持这种认证方式，需要将认证信息base64编码后，加入Headers的Proxy-Authorization字段：

importbase64   # Set the location of the proxy proxy_string = choice(self._get_proxies_from_file('proxies.txt')) # user:pass@ip:port proxy_items = proxy_string.split('@') request.meta['proxy'] = "http://%s" % proxy_items[1]   # setup basic authentication for the proxy user_pass=base64.encodestring(proxy_items[0]) request.headers['Proxy-Authorization'] = 'Basic ' + user_pass

动态加载

现在越来越多的网站使用ajax动态加载内容，这时候可以先截取ajax请求分析一下，有可能根据ajax请求构造出相应的api请求的URL就可以直接获取想要的内容，通常是JSON格式，反而还不用去解析html。

然而，很多时候ajax请求都会经过后端鉴权，不能直接构造URL获取。这时就可以通过Phantomjs+selenium模拟浏览器行为，抓取经过js渲染后的页面。

需要注意的是，使用Selenium后，请求不再由Scrapy的Downloader执行，所以之前添加的请求头等信息都会失效，需要在Selenium中重新添加

headers = {...} for key, valuein headers.iteritems():     WEBdriver.DesiredCapabilities.PHANTOMJS['phantomjs.page.customHeaders.{}'.fORMat(key)] = value

另外，调用PhantomJs需要指定PhantomJs的可执行文件路径，通常是将该路径添加到系统的path路径，让程序执行时自动去path中寻找。我们的爬虫经常会放到crontab中定时执行，而crontab中的环境变量和系统的环境变量不同，所以就加载不到PhamtonJs需要的路径，所以***是在申明时指定路径：

driver = webdriver.PhantomJS(executable_path='/usr/local/bin/phantomjs')

感谢各位的阅读，以上就是“使用Scrapy框架时怎么应对普通的反爬机制”的内容了，经过本文的学习后，相信大家对使用Scrapy框架时怎么应对普通的反爬机制这一问题有了更深刻的体会，具体使用情况还需要大家实践验证。这里是编程网，小编将为大家推送更多相关知识点的文章，欢迎关注！

点击免费下载>>软考高级考试备考技巧/历年真题/备考精华资料

--结束END--

本文标题: 使用Scrapy框架时怎么应对普通的反爬机制

本文链接: https://www.lsjlt.com/news/86262.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑，方便收藏和打印～

下载Word文档

去做题

猜你喜欢

使用Scrapy框架时怎么应对普通的反爬机制

这篇文章主要讲解了“使用Scrapy框架时怎么应对普通的反爬机制”，文中的讲解内容简单清晰，易于学习与理解，下面请大家跟着小编的思路慢慢深入，一起来研究和学习“使用Scrapy框架时怎么应对普通的反爬机制”...

99+

2024-04-02
scrapy爬虫框架怎么使用

这篇“scrapy爬虫框架怎么使用”文章的知识点大部分人都不太理解，所以小编给大家总结了以下内容，内容详细，步骤清晰，具有一定的借鉴价值，希望大家阅读完这篇文章能有所收获，下面我们一起来看看这篇“scrapy爬虫框架怎么使用”文章吧。一、s...

99+

2023-06-27
怎么使用Python的Scrapy爬虫框架

本篇内容介绍了“怎么使用Python的Scrapy爬虫框架”的有关知识，在实际案例的操作过程中，不少人都会遇到这样的困境，接下来就让小编带领大家学习一下如何处理这些情况吧！希望大家仔细阅读，能够学有所成！Scrapy是Python开发的一个...

99+

2023-06-02
python爬虫框架Scrapy怎么安装使用

这篇文章主要介绍了python爬虫框架Scrapy怎么安装使用的相关知识，内容详细易懂，操作简单快捷，具有一定借鉴价值，相信大家阅读完这篇python爬虫框架Scrapy怎么安装使用文章都会有所收获，下面我...

99+

2024-04-02
Python中的Scrapy框架怎么使用

这篇文章主要讲解了“Python中的Scrapy框架怎么使用”，文中的讲解内容简单清晰，易于学习与理解，下面请大家跟着小编的思路慢慢深入，一起来研究和学习“Python中的Scrapy框架怎么使用”吧！安装Scrapy首先，您需要在您的计算...

99+

2023-07-05
java中的反射机制怎么应用

Java中的反射机制可以应用于以下场景：动态加载类：可以在运行时加载指定的类，而不是在编译时就确定类的类型。创建对象：可...

99+

2023-10-23

java
怎么使用python反爬虫技术限制连续请求时间

这篇文章主要介绍了怎么使用python反爬虫技术限制连续请求时间的相关知识，内容详细易懂，操作简单快捷，具有一定借鉴价值，相信大家阅读完这篇怎么使用python反爬虫技术限制连续请求时间文章都会有所收获，下面我们一起来看看吧。用勾子函数根据...

99+

2023-07-02
架设云服务器怎么用手机控制电脑使用时间

一、设置云服务器时长在选择云服务器时，我们需要根据自己的需求来设置时间。比如，如果你需要进行游戏、视频、音乐等多种娱乐应用，那么就需要选择更为高级的云服务器。另外，对于一些大型的文件存储、数据处理等，也需要选择更为稳定的云服务器，以确保...

99+

2023-10-27

用手服务器时间
轻量应用服务器怎么使用手机控制的

轻量应用服务器(LightweightApplicationServer,LAPS)是一种轻量级的服务器,它的主要目的是为了方便地将大量的应用程序与手机应用程序整合在一起,以快速实现跨设备的应用程序集成。以下是轻量应用服务器的使用方式:打开...

99+

2023-10-26

服务器手机
轻量应用服务器怎么使用手机控制器的

轻量应用服务器(LightweightApplication Server)是一种轻量级的应用服务器,专门用于在没有服务器资源的情况下,提供一些轻量级的服务,如数据存储、用户管理、日志管理、消息队列等。这些服务通常使用第三方的云存储服务提供...

99+

2023-10-26

控制器服务器手机
轻量应用服务器怎么远程桌面控制手机屏幕使用时间

轻量应用服务器是一种专门用于远程桌面控制手机屏幕使用时间的服务器。使用轻量应用服务器不需要连接到互联网,所以可以通过应用程序内部的网络功能轻松控制手机屏幕时间。以下是一些使用轻量应用服务器远程控制手机屏幕使用时间的步骤: 打开轻量应用服...

99+

2023-10-26

手机屏幕远程桌面服务器
轻量应用服务器怎么使用手机控制的功能

轻量应用服务器(LightweightApplicationServer,LWS)是一种轻量级的服务器,它通常包括一个Web应用程序服务器、负载均衡器、存储和安全机制。下面是在手机上使用轻量应用服务器时的一些步骤: 下载和安装轻量应用服...

99+

2023-10-26

功能服务器手机
C++中怎么为特定应用选择合适的进程间通信机制

在C++中，为特定应用选择合适的进程间通信机制通常取决于应用的需求和特性。以下是一些常见的进程间通信机制以及它们适用的情况：管...

99+

2024-04-02
使用Struts2时怎么对上传文件大小的限制进行修改

使用Struts2时怎么对上传文件大小的限制进行修改？很多新手对此不是很清楚，为了帮助大家解决这个难题，下面小编将为大家详细讲解，有这方面需求的人可以来学习下，希望你能有所收获。首先struts上传最大大小由两个地方决定. · s...

99+

2023-05-31

struts2
轻量应用服务器怎么使用手机控制器的功能

轻量应用服务器(LightweightApplicationServer,LWS)是一种轻量级的服务器,它能够帮助开发人员通过手机应用程序轻松地控制和监视云应用程序中的设备。以下是轻量应用服务器的使用步骤: 创建一个轻量应用服务器项目。...

99+

2023-10-26

控制器功能服务器
轻量应用服务器怎么使用手机控制器的功能键

轻量应用服务器可以通过使用手机控制器来实现很多功能键,以下是一些常用的例子: 多用户模式:轻量应用服务器可以支持多个用户并发连接并执行不同的任务。在这种模式下,轻量应用服务器可以通过允许多用户并发访问轻量应用服务器上的资源,如网络连接、...

99+

2023-10-26

控制器功能键服务器
轻量应用服务器怎么使用手机控制器的功能键设置

轻量应用服务器(LightweightApplication Server)是一种专门为移动应用开发者和移动设备用户设计的应用程序,其功能键设置旨在为用户提供一个简洁、方便且易于使用的移动应用体验。以下是如何使用轻量应用服务器(Lightw...

99+

2023-10-26

控制器功能键服务器
轻量应用服务器怎么使用手机控制器的功能键操作

轻量应用服务器可以通过使用手机控制器中的按键来实现操作。以下是一些常用的手机控制器使用功能键操作: 使用手机控制器上的功能键或按钮:这些按键或按钮可以用于执行许多操作,比如切换应用程序、设置提醒或发送消息等。用户可以通过手机控制器的功能...

99+

2023-10-26

控制器功能键操作
怎么使用SAP SAT事务码对通过浏览器启动的应用的性能测量和分析方式

怎么使用SAP SAT事务码对通过浏览器启动的应用的性能测量和分析方式，针对这个问题，这篇文章详细介绍了相对应的分析和解答，希望可以帮助更多想解决这个问题的小伙伴找到更简单易行的方法。三个产品都有登录语言的选择：CRMC4C:Hybris:...

99+

2023-06-04