广告
返回顶部
首页 > 资讯 > 后端开发 > Python >Scrapy+Chromium+代理+
  • 250
分享到

Scrapy+Chromium+代理+

ScrapyChromium 2023-01-31 08:01:16 250人浏览 八月长安

Python 官方文档:入门教程 => 点击学习

摘要

上周说到scrapy的基本入门。这周来写写其中遇到的代理和js渲染的坑。 js是爬虫中毕竟麻烦处理的一块。通常的解决办法是通过抓包,然后查看request信息,接着捕获ajax返回的消息。但是,如果遇到一些js渲染特别复杂的情况,这种办

上周说到scrapy的基本入门。这周来写写其中遇到的代理和js渲染的坑。

js是爬虫中毕竟麻烦处理的一块。通常的解决办法是通过抓包,然后查看request信息,接着捕获ajax返回的消息。
但是,如果遇到一些js渲染特别复杂的情况,这种办法就非常非常的麻烦。所以我们采用了selenium这个包,用它来调用chromium完成js渲染的问题。

安装

  1. 安装selenium
  2. 安装chromium
  3. 安装chromium-drive
tip:为什么选择chromium而不是chrome。我之前装的就是chrome。但是安装chrome之后还需要安装chrome-drive,而很多linux发行版的包管理没有现成的chrome包和chrome-drive包,自己去找的话很容易出现chrome-drivechrome版本不一致而导致不能使用。

为了减少因为安装环境所带来的烦恼。我们这边用Docker来解决。
Dockerfile

FROM alpine:3.8
COPY requirements.txt /tmp
RUN apk update \
    && apk add --no-cache xvfb python3 python3-dev curl libxml2-dev libxslt-dev libffi-dev GCc musl-dev \
    && apk add --no-cache libgcc openssl-dev chromium=68.0.3440.75-r0 libexif udev chromium-chromedriver=68.0.3440.75-r0 \
    && curl https://bootstrap.pypa.io/get-pip.py | Python3 \
    && adduser -g chromegroup -D chrome \
    && pip3 install -r /tmp/requirements.txt && rm /tmp/requirements.txt
USER chrome
tip:这边还有一个坑,chromechromium都不能在root模式下运行,而且也不安全。所以最好是创建一个用户来运行。

使用docker的时候,run时候需要加--privileged参数

如果你需要了解如何在root用户下运行chrome,请阅读这篇博文
ubuntu16.04安装Chrome浏览器及解决root不能打开的问题

requirements.txt

Scrapy
selenium
Twisted
PyMysql
pyvirtualdisplay

requirements.txtDockerfile放在一起。
并在目录下使用docker命令docker build -t "chromium-scrapy-image" .

至于为什么要安装xvfbpyvirtualdisplay。因为chromiumheadless模式下不能处理带账号密码的问题。待会就会说到了。

RedhatDebian可以去包仓库找一下最新的chromium和对应的chromium-drive下载安装就可以了。版本一定要是对应的!这边使用chromium=68.0.3440.75-r0chromium-chromedriver=68.0.3440.75-r0


修改ScrapyMiddleware

使用了chromium之后,我们在middlewares.py文件修改一下。我们的设想是让chromium来替代掉request请求。所以我们修改了DownloaderMiddleware

#DownloaderMiddleware
class DemoDownloaderMiddleware(object):
    def __init__(self):
        chrome_options = WEBdriver.ChromeOptions()
        # 启用headless模式
        chrome_options.add_argument('--headless')
        # 关闭gpu
        chrome_options.add_argument('--disable-gpu')
        # 关闭图像显示
        chrome_options.add_argument('--blink-settings=imagesEnabled=false') 
        self.driver = webdriver.Chrome(chrome_options=chrome_options)
        
    def __del__(self):
        self.driver.quit()
        
    @claSSMethod
    def from_crawler(cls, crawler):
        s = cls()
        crawler.signals.connect(s.spider_opened, signal=signals.spider_opened)
        return s
        
    def process_request(self, request, spider):
        # chromium处理
        # ...
        return htmlResponse(url=request.url, 
        body=self.driver.page_source, 
        request=request, 
        encoding='utf-8', 
        status=200)
        
    def process_response(self, request, response, spider):
        # Called with the response returned from the downloader.

        # Must either;
        # - return a Response object
        # - return a Request object
        # - or raise IgnoreRequest
        return response

    def process_exception(self, request, exception, spider):
        # Called when a download handler or a process_request()
        # (from other downloader middleware) raises an exception.

        # Must either:
        # - return None: continue processing this exception
        # - return a Response object: stops process_exception() chain
        # - return a Request object: stops process_exception() chain
        pass

    def spider_opened(self, spider):
        spider.logger.info('Spider opened: %s' % spider.name)
tip:这边我们只有一个中间件来处理request。也就是说,所有的逻辑都要经过这儿。所以直接返回了response

这就解决了seleniumchromium的安装问题。

chromium不支持headless问题

如果你安装的chromium版本太老,不支持headless,不着急。之前我们安装的xvfbpyvirtualdisplay就派上用场了。

from pyvirtualdisplay import Display
...
>>>
chrome_options.add_argument('--headless')

<<<
# chrome_options.add_argument('--headless')
display=Display(visible=0,size=(800,800))
display.start()
...

>>>
self.driver.quit()

<<<
self.driver.quit()
display.stop()
...

我们模拟出了一个显示界面,这个时候,不管chromium开不开启headless,都能在我们的服务器上运行了。

因为我们已经用chromium替换了request。所以我们做的代理也不能在Scrapy中来处理。
我们需要直接用chromium来处理IP代理问题。

这是不使用chromium之前使用代理的办法

class DemoProxyMiddleware(object):
    # overwrite process request

    def process_request(self, request, spider):
        # Set the location of the proxy
        request.meta['proxy'] = "Https://proxy.com:8080"

        # Use the following lines if your proxy requires authentication
        
        proxy_user_pass = "username:passWord"
        encoded_user_pass = base64.b64encode(proxy_user_pass.encode('utf-8'))

        # setup basic authentication for the proxy
        request.headers['Proxy-Authorization'] = 'Basic ' + str(encoded_user_pass, encoding="utf-8")

如果你的IP代理不需要账号密码的话,只需要把后面三行删除了就可以了。

根据上面这段代码,我们也不难猜出chromium解决代理的方法了。

chrome_options.add_argument('--proxy=proxy.com:8080')

只需要加一段argument就可以了。

那解决带账号密码的办法呢?

解决chromium下带账号密码的代理问题

先创建一个py文件

import string
import zipfile


def create_proxyauth_extension(proxy_host, proxy_port,
                               proxy_username, proxy_password,
                               scheme='http', plugin_path=None):
    """代理认证插件

    args:
        proxy_host (str): 你的代理地址或者域名(str类型)
        proxy_port (int): 代理端口号(int类型)
        proxy_username (str):用户名(字符串)
        proxy_password (str): 密码 (字符串)
    kwargs:
        scheme (str): 代理方式 默认http
        plugin_path (str): 扩展的绝对路径

    return str -> plugin_path
    """

    if plugin_path is None:
        plugin_path = 'vimm_chrome_proxyauth_plugin.zip'

    manifest_JSON = """
    {
        "version": "1.0.0",
        "manifest_version": 2,
        "name": "Chrome Proxy",
        "permissions": [
            "proxy",
            "tabs",
            "unlimitedStorage",
            "storage",
            "<all_urls>",
            "webRequest",
            "webRequestBlocking"
        ],
        "background": {
            "scripts": ["background.js"]
        },
        "minimum_chrome_version":"22.0.0"
    }
    """

    background_js = string.Template(
        """
        var config = {
                mode: "fixed_servers",
                rules: {
                  singleProxy: {
                    scheme: "${scheme}",
                    host: "${host}",
                    port: parseInt(${port})
                  },
                  bypassList: ["foobar.com"]
                }
              };
    
        chrome.proxy.settings.set({value: config, scope: "regular"}, function() {});
    
        function callbackFn(details) {
            return {
                authCredentials: {
                    username: "${username}",
                    password: "${password}"
                }
            };
        }
    
        chrome.webRequest.onAuthRequired.addListener(
                    callbackFn,
                    {urls: ["<all_urls>"]},
                    ['blocking']
        );
        """
    ).substitute(
        host=proxy_host,
        port=proxy_port,
        username=proxy_username,
        password=proxy_password,
        scheme=scheme,
    )
    with zipfile.ZipFile(plugin_path, 'w') as zp:
        zp.writestr("manifest.json", manifest_json)
        zp.writestr("background.js", background_js)

    return plugin_path

使用方式

    proxyauth_plugin_path = create_proxyauth_extension(
        proxy_host="host",
        proxy_port=port,
        proxy_username="user",
        proxy_password="pwd")
    chrome_options.add_extension(proxyauth_plugin_path)

这样就完成了chromium的代理了。但是,如果你开启了headless模式,这个方法会提示错误。所以解决办法就是,关闭headless模式。
至于怎么在没有gui的情况下使用chromium。在之前已经提到过,使用xvfbpyvirtualdisplay就可以了。

--结束END--

本文标题: Scrapy+Chromium+代理+

本文链接: https://www.lsjlt.com/news/193190.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑,方便收藏和打印~

下载Word文档
猜你喜欢
  • Scrapy+Chromium+代理+
    上周说到scrapy的基本入门。这周来写写其中遇到的代理和js渲染的坑。 js是爬虫中毕竟麻烦处理的一块。通常的解决办法是通过抓包,然后查看request信息,接着捕获ajax返回的消息。但是,如果遇到一些js渲染特别复杂的情况,这种办...
    99+
    2023-01-31
    Scrapy Chromium
  • scrapy模拟登录代码
    本文章向大家介绍scrapy模拟登录代码,主要包括{**}的使用实例,应用技巧,基本知识点总结和需要注意事项,具有一定的参考价值,需要的朋友可以参考一下。在Scrapy中,模拟登陆网站一般有如下两种实现方式:    &n...
    99+
    2023-06-06
  • scrapy如何实现ip动态代理与更换ip
    这篇文章将为大家详细讲解有关scrapy如何实现ip动态代理与更换ip,小编觉得挺实用的,因此分享给大家做个参考,希望大家阅读完这篇文章后可以有所收获。请自行准备一个ip代理的平台例如我用的这个平台,每次提取10个ip从上面可以看到数据格式...
    99+
    2023-06-14
  • selenium在scrapy中的使用代码
    在通过scrapy框架进行某些网站数据爬取的时候,往往会碰到页面动态数据加载的情况发生,如果直接使用scrapy对其url发请求,是绝对获取不到那部分动态加载出来的数据值。但是通过观...
    99+
    2022-11-12
  • 使用 Scrapy 爬取股票代码
    个人博客: https://mypython.me 源码地址: https://github.com/geeeeeeeek/scrapy_stock 抓取工具:scrapy scrapy 介绍 Scrapy是一个为了爬取网站数据,提取结构...
    99+
    2023-01-30
    股票代码 Scrapy
  • Python爬虫Scrapy框架IP代理的配置与调试
    目录代理ip的逻辑在哪里如何配置动态的代理ip在调试爬虫的时候,新手都会遇到关于ip的错误,好好的程序突然报错了,怎么解决,关于ip访问的错误其实很好解决,但是怎么知道解决好了呢?怎...
    99+
    2022-11-12
  • scrapy入门学习(原理)
    什么是网络爬虫网络爬虫又称网页蜘蛛,网络机器人,是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。如果有兴趣可查看百度百科网络爬虫网络蜘蛛(web spider)也叫网络爬虫,是一种'自动化浏览网络'的程序,或者说是...
    99+
    2023-01-30
    入门 原理 scrapy
  • Python爬虫Scrapy框架IP代理如何配置与调试
    这篇文章主要介绍Python爬虫Scrapy框架IP代理如何配置与调试,文中介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们一定要看完!代理ip的逻辑在哪里一个scrapy 的项目结构是这样的scrapydownloadertest&n...
    99+
    2023-06-22
  • python爬虫框架scrapy代理中间件掌握学习教程
    目录代理的使用场景使用 HttpProxyMiddleware 中间件代理的使用场景 编写爬虫代码的程序员,永远绕不开就是使用代理,在编码过程中,你会碰到如下情形: 网络不好,需要代...
    99+
    2022-11-12
  • 怎么用代码搞定Scrapy随机 User-Agent
    今天就跟大家聊聊有关怎么用代码搞定Scrapy随机 User-Agent,可能很多人都不太了解,为了让大家更加了解,小编给大家总结了以下内容,希望大家根据这篇文章可以有所收获。摘要:爬虫过程中的反爬措施非常重要,其中设置随机 User-Ag...
    99+
    2023-06-04
  • python scrapy简单模拟登录的代码分析
    1、requests模块。直接携带cookies请求页面。 找到url,发送post请求存储cookie。 2、selenium(浏览器自动处理cookie)。 找到相应的input标签,输入文本,点击登录。 3、s...
    99+
    2022-06-02
    python scrapy 模拟登录
  • 讲解Python的Scrapy爬虫框架使用代理进行采集的方法
    1.在Scrapy工程下新建“middlewares.py” # Importing base64 library because we'll need it ONLY in case if the p...
    99+
    2022-06-04
    爬虫 框架 方法
  • scrapy+flask+html打造搜索引擎的示例代码
    目录1.预备知识2.抓取CSDN数据接口2.1 查看CSDN搜索引擎主页2.2测试CSDN搜索引擎的功能2.3查看更多相关文章的信息2.4抓取ajax异步请求数据2.5 分析url地...
    99+
    2022-11-12
  • 超简单的scrapy实现ip动态代理与更换ip的方法实现
    简单实现ip代理,为了不卖广告, 请自行准备一个ip代理的平台 例如我用的这个平台,每次提取10个ip 从上面可以看到数据格式是文本,换行是\r\n,访问链接之后大概就是长这样...
    99+
    2022-11-11
  • Python中Scrapy爬虫图片处理详解
    下载图片 下载图片有两种方式,一种是通过 Requests 模块发送 get 请求下载,另一种是使用 Scrapy 的 ImagesPipeline 图片管道类,这里主要讲后者。 安装 Scrapy 时并...
    99+
    2022-06-04
    爬虫 详解 图片处理
  • Scrapy抓取京东商品、豆瓣电影及代码分享
     1.scrapy基本了解   Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。可以应用在包括数据挖掘, 信息处理或存储历史数据等一系列的程序中。其最初是为了页面抓取(更确切来说,网络抓...
    99+
    2022-06-04
    豆瓣 京东 代码
  • Scrapy之迭代爬取网页中失效问题及解决
    目录引言问题的提出问题分析问题的解决总结引言 在Scrapy中,在很多种情况下,需要一层层地进行爬取网页数据,就是基于url爬取网页,然后在从网页中提取url,继续爬取,循环往复。 ...
    99+
    2022-12-19
    Scrapy迭代 迭代爬取网页 迭代爬取网页失效
  • python编程scrapy简单代码实现搜狗图片下载器
    学习任何编程技术,都要有紧有送,今天这篇博客就到了放松的时候了,我们学习一下如何用 scrapy 下载图片吧。 目标站点说明 这次要采集的站点为搜狗图片频道,该频道数据由接口直接返回...
    99+
    2022-11-12
  • Python的爬虫框架scrapy用21行代码写一个爬虫
    开发说明 开发环境:Pycharm 2017.1(目前最新) 开发框架:Scrapy 1.3.3(目前最新) 目标 爬取线报网站,并把内容保存到items.json里 页面分析 根据上图我们可以发...
    99+
    2022-06-04
    爬虫 框架 代码
  • 如何理解Scrapy关于item pipeline的传递方法
    这篇文章主要介绍“如何理解Scrapy关于item pipeline的传递方法”,在日常操作中,相信很多人在如何理解Scrapy关于item pipeline的传递方法问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家...
    99+
    2023-06-01
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作