首页 > 资讯 > 后端开发 > Python >反爬虫——使用chrome headle

524

分享到

反爬虫——使用chrome headle

爬虫 chrome headle 2023-01-30 22:01:06 524人浏览独家记忆

Python 官方文档：入门教程 => 点击学习

摘要

以前我们介绍过chrome headless的用法（https://www.cnblogs.com/apocelipes/p/9264673.html）。今天我们要稍微提一下其中一个细节。反爬和window.navigator对象

以前我们介绍过chrome headless的用法（https://www.cnblogs.com/apocelipes/p/9264673.html）。

今天我们要稍微提一下其中一个细节。

反爬和window.navigator对象

navigator对象，一个对大家来说既熟悉又陌生的名词，熟悉是因为在学BOM对象的时候或多或少都见过甚至在代码中使用过，陌生是因为对于navigator对象来说虽然各大浏览器都有实现却一直没有一个统一的标准，所以在不同浏览器上的navigator对象也可能是不一样的，所以不鼓励在生产环境使用，用得少，自然也就陌生了。

然而反爬就是要不从常规处下手，如果有某个特性比较冷僻，又可以用来区分人类用户和爬虫或者增加爬取难度，那么它就一定会被反爬工程师善加利用。今天我们的主角就是navigator对象了。

一般的反爬虫会有header验证，浏览器验证等等，这些在你使用headless browsers时都不成问题，所以反爬工程师们要如何阻止你的爬虫呢？不急，我们先看下正常浏览器里navigator对象的内容：

这是chrome浏览器，因为headless没办法截图，所以我就把navigator对象的属性全部保存成了文本，这是使用headless时的信息：

vendorSub: 
productSub: 20030107
vendor: Google Inc.
cookieEnabled: true
appCodeName: Mozilla
appName: Netscape
appVersion: 5.0 (windows NT 10.0; Win64; x64) AppleWEBKit/537.36 ...
...
webdriver: true
...
unreGISterProtocolHandler: function unregisterProtocolHandler() { [native code] }
deviceMemory: 8
clipboard: {}
...

因为篇幅，我做了节选，需要注意的就是红色的部分，这是相比正常浏览器所多出来的部分。

经常和爬虫打交道的可能已经看出了，这是启用了webdriver协议之后会包含的字段，可是我们使用的chrome headless使用的是devtools protocol啊，怎么也会有这个标志呢？

答案在这里：

没错，当你指定了“--headless”参数的时候，不管是什么协议，都会带有该字段，如果你不指定“--headless”参数使用devtools protocol控制chrome，那么就和使用正常的浏览器没有区别。

仔细想一想，正常的人类访问网页怎么可能用没有界面的headless模式嘛，这样如果你不当心的话一抓一个准。

解决方案

解决办法其实也不麻烦，大致有如下几点：

更换浏览器，如上图所示，这一特性是chrome 63以后添加的，那么只要用chrome 62即可，devtools protocol也支持chrome 62；
不使用headless模式，不使用headless模式也自然不会被检测到，当然，启动一个浏览器窗口来渲染页面，性能肯定是不及headless的，这点需要权衡；
只对必要的页面使用headless，其余数据仍用Httpclient模拟请求的方式获取，这也是最有效的方式，当然这样会极大的增加开发成本。

总之绕过这一检测机制的方法有很多，这篇文章仅仅是抛砖引玉而已，希望大家以后遇到类似的反爬措施时不要觉得束手无策。

最后希望大家在做爬虫时请遵守网络道德，不要给对方站点添麻烦。

如果有意见和建议，欢迎指出！

参考：https://www.chromestatus.com/feature/6216034532982784

您可能感兴趣的文档:

点击免费下载>>软考高级考试备考技巧/历年真题/备考精华资料

--结束END--

本文标题: 反爬虫——使用chrome headle

本文链接: https://www.lsjlt.com/news/179338.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑，方便收藏和打印～

下载Word文档

去做题

回答

如何调试操作系统的错误？
操作系统

2023-11-15发布

回答

操作系统中的I/O系统是如何实现的？
操作系统

2023-11-15发布

回答

如何实现操作系统的内存管理？
操作系统

2023-11-15发布

回答

什么是虚拟内存，它对操作系统有什么影响？
操作系统

2023-11-15发布

回答

ASP中的MVC架构和WebForms架构有什么区别和使用场景？
ASP.NET

2023-11-15发布

回答

ASP中的数据验证和数据校验有什么不同？
ASP.NET

2023-11-15发布

回答

ASP中的ADO对象和DAO对象有什么区别和使用方法？
ASP.NET

2023-11-15发布

回答

Node.js中的包管理器NPM是什么？如何使用它进行依赖管理？
node.js

2023-11-15发布

回答

Vue.js中的动态组件是什么？如何使用它来动态渲染组件？
VUE

2023-11-15发布

回答

如何使用Vue.js实现懒加载和预加载？
VUE

2023-11-15发布

反爬虫——使用chrome headle

本篇文章演示代码以及资料文档资料下载

反爬虫——使用chrome headle

爬虫工程师常用的 Chrome 插件

Django利用Cookie实现反爬虫的例子

使用代理ip遇到反爬虫的解决方法

python爬虫-execjs使用

Python爬虫基础之初次使用scrapy爬虫实例

Python爬虫1-使用urlopen

怎么使用Python爬虫

怎么使用python爬虫爬取数据

六个步骤学会使用Python爬虫爬取数据(爬虫爬取微博实战)

C#使用selenium实现爬虫

Python使用爬虫猜密码

【Java】使用Java实现爬虫

【Python3爬虫】使用异步协程编写爬

使用Python爬虫爬取妹子图图片

Python爬虫使用lxml模块爬取豆瓣

怎么使用python反爬虫技术限制连续请求时间

怎么使用Java爬虫批量爬取图片

如何使用Java爬虫批量爬取图片

如何使用Python爬虫爬取网站图片

python分析数据的方法是什么

如何使用Python实现抽奖小程序

python copy函数的作用是什么

python进程池创建队列的方法是什么

python字符串处理与应用的方法有哪些

python全局变量如何定义

python如何读取文件夹下所有文件

python keyerror错误怎么解决

python如何提取字符串的数字

python中怎么将回车作为输入内容