iis服务器助手广告广告
返回顶部
首页 > 资讯 > 服务器 >scrapy爬虫部署服务器的方法步骤
  • 270
分享到

scrapy爬虫部署服务器的方法步骤

2024-04-02 19:04:59 270人浏览 薄情痞子
摘要

目录一、scrapy爬虫部署服务器1、scrapyd2.安装2、scrapy-client3、scrapydWEB(可选)二、实际操作(一切的操作都在scrapyd启动的情况下)三、

一、scrapy爬虫部署服务器

scrapy通过命令行运行一般只用于测试环境,而用于运用在生产环境则一般都部署在服务器中进行远程操作。

scrapy部署服务器有一套完整的开源项目scrapy+scrapyd(服务端)+scrapy-client(客户端)+scrapydweb

1、scrapyd

1.介绍

Scrapyd是用于部署和运行Scrapy爬虫的应用程序。它使您可以使用JSON api部署(上传)项目并控制其爬虫。

是目前分布式爬虫的最好解决方法之一

官方文档 https://scrapyd.readthedocs.io/

2.安装

pip install scrapyd

安装过程中可能会遇到大量的错误,大部分都是所依赖的包没有安装,安装过程中要确保scrapy已经安装成功,只要耐心的将所有缺少的依赖包安装上就可以了

打开命令行,输入scrapyd,如下图:

浏览器访问:Http://127.0.0.1:6800/

2、scrapy-client

1.介绍:

scrapy-client它允许我们将本地的scrapy项目打包发送到scrapyd 这个服务端(前提是服务器scrapyd正常运行

官方文档https://pypi.org/project/scrapyd-client/

2.安装

pip install scrapy-client

和上面的scrapyd一样,可能会遇到各种错误,耐心一点,大部分都是安装依赖

3、scrapydweb(可选)

1.介绍

ScrapydWeb:用于Scrapyd集群管理的Web应用程序,支持Scrapy日志分析和可视化

官方文档:https://pypi.org/project/scrapydweb/

2.安装

pip install scrapyd

在保持scrapyd挂起的情况下运行命令scrapydweb,也就是需要打开两个doc窗口

运行命令scrapydweb,首次启动将会在当前目录下生成配置文件“scrapydweb_settings_v*.py”

更改配置文件
编辑配置文件,将ENABLE_LOGPARSER更改为False

添加访问权限

SCRAPYD_SERVERS = [
    '127.0.0.1:6800',
    # 'username:passWord@localhost:6801#group',
    ('username', 'password', 'localhost', '6801', 'group'),
]

HTTP基本认证

ENABLE_AUTH = True
USERNAME = 'username'
PASSWORD = 'password' 

浏览器访问:http://127.0.0.1:5000/1/servers/

二、实际操作(一切的操作都在scrapyd启动的情况下)

1.上传爬虫

编辑scrapy.cfg,url是scrapyd服务器的位置,由于scrapyd在本地,所以是localhost。

注意:我们要切换到和scrapy.cfg同级目录下,继续以下操作

scrapyd-deploy

上图表示运行成功!

以上的文件夹是成功后自动创建的(为什么之前的截图有,我之前已经测试过)

然后输入以下命令上传服务器

scrapyd-deploy demo -p qcjob

结构:scrapyd-deploy -p (scrapyd-deploy <目标> -p <项目>)

运行成功的图片

2.启动爬虫

cmd输入(爬取一天内关于java的职业需求

curl http://localhost:6800/schedule.json -d project=qcjob -d spider=job -d key = java time=0

我编写的爬虫可以根据用户输入的参数来爬取数据

key=表示关键字(默认是全部)

time=表示时间(0=24小时,1=3天内,2=一周内,3=一个月内,默认为0)

当然scrapyd强大之处在于可以用http方式控制爬虫

http://localhost:6800/schedule.json?project=qcjob&spider=job&key=java&time=0 #POST

以下是用postmain进行模拟post请求。

然后进入http://127.0.0.1:6800/

点击job,就可以查看爬虫是否运行,和运行时间

从图可以看出,这个爬虫运行了9分31秒。

当然我们也可以从scrapydweb中查看和管理爬虫浏览器访问:http://127.0.0.1:5000/1/servers/

我们可以通过可视化界面来控制爬虫运行,scrapyd可以启动多个不同的爬虫,一个爬虫的多个版本启动。是目前分布式爬虫的最好解决方法!!!

三、数据展示

本次爬取花费9分31秒,共爬去25,000余条数据,爬虫速度开至每秒8次访问,以他该服务器的最大访问量

其中部分数据存在有误,为了保证速度,没有进行过多的筛取和排查,错误率保持较低水平

四、问题与思考

  • 通过爬去可以看得出,如果采用单一的爬虫的话,爬取速度还是比较慢的,如果采用多个爬虫,分布式爬取的话,就存在数据是否重复以及数据的共用问题。
  • 如果采用分布式爬虫的话,就涉及到ip代理,因为一台机器如果大量访问的话经过测试会导致浏览器访问,该网页都无法打开,如果设置IP代理,就需要大量的代理IP
  • 虽然爬虫已经部署在服务器上,但是还是无法做到,通过用户输入关键字时间等地址等多个参数进行爬取数据,无法做到实时展示,只能先运行爬虫,爬取大量数据储存与数据库,然后才能进行分析,做出图表。
  • 关于数据的统计与展示,单一的sql语句,很难满足其对大量数据的分析,可能需要用python数据分析库,对数据进行处理,然后才能展示。

五、收获

已经可以通过http请求的方式来控制爬虫的启动停止,以及传递参数,就等于scrapy爬虫是可以集成于web应用里面的。

到此这篇关于scrapy爬虫部署服务器的方法步骤的文章就介绍到这了,更多相关scrapy爬虫部署服务器内容请搜索编程网以前的文章或继续浏览下面的相关文章希望大家以后多多支持编程网!

--结束END--

本文标题: scrapy爬虫部署服务器的方法步骤

本文链接: https://www.lsjlt.com/news/118678.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑,方便收藏和打印~

下载Word文档
猜你喜欢
  • scrapy爬虫部署服务器的方法步骤
    目录一、scrapy爬虫部署服务器1、scrapyd2.安装2、scrapy-client3、scrapydweb(可选)二、实际操作(一切的操作都在scrapyd启动的情况下)三、...
    99+
    2024-04-02
  • 服务器上部署scrapy爬虫项目
    爬爬们,如果你已经开始部署项目了,那么你肯定也已经写好了完整的爬虫项目,恭喜你,你很优秀!**今天忙了小半天的服务器部署,跟大家分享一些心得~ 首先我们要有一台服务器,不好意思,这是废话,略过。。。。。 安装python # 下...
    99+
    2023-01-31
    爬虫 器上 项目
  • 云服务器部署爬虫
    云服务器部署爬虫可以通过以下方式实现: 使用 Web Services 库 首先,需要使用 Web Services 库来处理爬虫请求,这个库是 PostgreSQL 和 SQLite3 的通用 API。 例如,您可以使用以下 Web...
    99+
    2023-10-26
    爬虫 服务器
  • 部署爬虫脚本到云服务器
    对于部署爬虫脚本到云服务器,可能需要注意以下几个方面: 配置云服务器的IP地址和端口 首先需要将云服务器的IP地址和端口设置为可用,这样可以保证在云服务器上执行爬虫脚本时不会被网络中断。此外,还需要确保云服务器的IP地址和端口是开放的...
    99+
    2023-10-27
    爬虫 脚本 服务器
  • DockerCompose部署Nginx的方法步骤
    使用Docker Compose部署Nginx,创建docker-compose.yaml: [root@192 ~]# vim docker-compose.yaml 输入以下内容...
    99+
    2024-04-02
  • 阿里云服务器部署python爬虫
    阿里云服务器部署Python爬虫非常简单,下面是一个基本的Python爬虫示例: ```python import requests from bs4 import BeautifulSoup 设置目标URL url = "https:/...
    99+
    2023-10-26
    爬虫 阿里 服务器
  • docker部署kafka的方法步骤
    目录1. 搭建docker2.进入容器3.修改配置文件4.测试kafka1. 搭建docker 这里我直接用的是docker-compose部署,所以需要提前安装好compose。 ...
    99+
    2024-04-02
  • Scrapy爬虫框架集成selenium的方法
    这篇文章主要讲解了“Scrapy爬虫框架集成selenium的方法”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“Scrapy爬虫框架集成selenium的方法”吧!一、架构介绍Scrapy一...
    99+
    2023-06-30
  • Pycharm安装scrapy及初始化爬虫项目的完整步骤
    目录一)安装scrapy:二)创建一个scrapy爬虫项目:三)开启pycharm对scrapy框架的调试功能:总结一)安装scrapy: 1、打开cmd命令窗口,输入:pip in...
    99+
    2024-04-02
  • Docker上部署Nginx的方法步骤
    目录1.从 docker 下载 Nginx 镜像2.创建挂载目录3.为了保证文件的正确性,建议先进入容器把对应的文件给复制出来4.接下来修改下 default.conf 文件就好了5...
    99+
    2024-04-02
  • k8s部署ingress-nginx的方法步骤
    目录前言一、部署配置Ingress二、使用https前言 k8s集群服务部署好之后,需要对外提域名访问,这时候就需要ingress-nginx了,今天来给大家分享一下 一、部署配...
    99+
    2024-04-02
  • Python爬虫代理池搭建的方法步骤
    搭建Python爬虫代理池的方法步骤如下:1. 安装所需的依赖库:首先,确保你已经安装了Python和pip。然后使用pip安装所需的库,如requests、beautifulsoup、flask等。2. 获取代理IP:你可以从一些免费...
    99+
    2023-08-11
    Python
  • 申请云服务器部署的步骤
    1. 选择云服务提供商 在申请云服务器部署之前,首先需要选择一个可靠的云服务提供商。市场上有很多知名的云服务提供商,如阿里云、腾讯云、亚马逊AWS等。根据自己的需求和预算,选择一个适合的云服务提供商。 2. 注册账号并登录 在选择好云服务...
    99+
    2023-10-28
    步骤 服务器
  • 在阿里云部署开源服务器的步骤与方法
    在如今的信息时代,服务器的部署已经不再是一个难事,特别是在阿里云这样的云服务平台上。本文将详细介绍如何在阿里云上部署开源服务器,包括环境准备、服务器配置、服务器启动以及服务器运维等方面的内容。 部署开源服务器的步骤可以分为以下几个阶段:环境...
    99+
    2023-11-20
    阿里 开源 步骤
  • 在服务器上部署WEb服务的步骤
    部署Web服务在服务器上是一个比较复杂的过程。这不仅仅涉及到配置环境、选择软件和设置端口,更有众多其它因素需要考虑。以下是在服务器上部署WEb服务的步骤: 1. 选择服务器:根据项目规模和预期访问量,选择合适的服务器类型和配置。可选的服务...
    99+
    2024-02-29
    云服务器 在服务器上部署WEb服务的步骤 云服务器知识
  • Vue-CLI3.x 自动部署项目至服务器的方法步骤
    目录前言一 安装scp2二、配置测试/生产环境 服务器SSH远程登陆账号信息三、使用scp2库,创建自动化部署脚本四、添加 package.json 中的 scripts 命令, 自...
    99+
    2024-04-02
  • 部署云服务器的步骤是什么
    部署云服务器的步骤可以概括为以下几个步骤:1. 选择云服务提供商:根据需求选择合适的云服务提供商。2. 注册账号和创建项目:在选择的...
    99+
    2023-09-27
    云服务器
  • Docker 部署 Gitlab 服务器(详细步骤)
    目录         Gitlab镜像 1、拉取Gitlab镜像 2、启动Gitlab容器  3、修改配置 4、浏览器访问  5、修改root密码 6、gitlab操作 Gitlab镜像 1、拉取Gitlab镜像 docker pul...
    99+
    2023-09-06
    docker
  • nginx的zabbix 5.0安装部署的方法步骤
    目录实验环境安装部署安装配置数据库(这里使用的是mariadb,感兴趣的同学可以使用编译或者别的方法安装mysql试试)zabbix服务端的配置web端php的配置web端的ngin...
    99+
    2024-04-02
  • 亚马逊部署服务器的设置步骤
    1. 创建亚马逊 Web 服务(AWS)账户 在开始之前,您需要创建一个亚马逊 Web 服务(AWS)账户。访问 AWS 官方网站并按照指示创建账户。 2. 登录 AWS 控制台 使用您的 AWS 账户凭据登录 AWS 控制台。在控制台中...
    99+
    2023-10-27
    亚马逊 步骤 服务器
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作