首页 > 资讯 > 前端开发 > VUE >如何使用Scrapy网络爬虫框架

835

分享到

如何使用Scrapy网络爬虫框架

2024-04-02 19:04:59 835人浏览泡泡鱼

摘要

这篇文章将为大家详细讲解有关如何使用scrapy网络爬虫框架，小编觉得挺实用的，因此分享给大家做个参考，希望大家阅读完这篇文章后可以有所收获。scrapy 介绍标准介绍Scrapy是一个为了爬取网站数据，提

这篇文章将为大家详细讲解有关如何使用scrapy网络爬虫框架，小编觉得挺实用的，因此分享给大家做个参考，希望大家阅读完这篇文章后可以有所收获。

scrapy 介绍

标准介绍

Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架，非常出名，非常强悍。所谓的框架就是一个已经被集成了各种功能(高性能异步下载，队列，分布式，解析，持久化等)的具有很强通用性的项目模板。对于框架的学习，重点是要学习其框架的特性、各个功能的用法即可。

说人话就是

只要是搞爬虫的,用这个就van事了,因为里面集成了一些很棒的工具,并且爬取性能很高,预留有很多钩子方便扩展,实在是居家爬虫的不二之选。

windows下安装scrapy

命令

pip install scrapy

默认情况下,直接pip install scrapy可能会失败,如果没有换源,加上临时源安装试试,这里使用的是清华源，常见安装问题可以参考这个文章：windows下安装Scrapy方法及常见安装问题总结——Scrapy安装教程。

命令

pip install scrapy -i https://pypi.tuna.tsinghua.edu.cn/simple

scrapy创建爬虫项目

命令

scrapy startproject <项目名称>

示例:创建一个糗事百科的爬虫项目(记得cd到一个干净的目录哈)

scrapy startproject qiushibaike

如何使用Scrapy网络爬虫框架

注:此时,我们已经创建好了一个爬虫项目,但是爬虫项目是一个文件夹

如何使用Scrapy网络爬虫框架

进入爬虫项目

如果想要进入这个项目,就要cd进这个目录,如上上图所示,先cd <项目>,再创建蜘蛛

项目目录结构解析

此时,我们就已经进入了项目,结构如下,有一个和项目名同名的文件夹和一个scrapy.cfg文件

scrapy.cfg # scrapy配置,特殊情况使用此配置 qiushibaike # 项目名同名的文件夹     items.py # 数据存储模板,定制要保存的字段     middlewares.py # 爬虫中间件     pipelines.py # 编写数据持久化代码     settings.py # 配置文件,例如:控制爬取速度,多大并发量,等     __init__.py     spiders # 爬虫目录,一个个爬虫文件,编写数据解析代码         __init__.py

呃,可能此时你并不能懂这么些目录什么意思,不过不要慌,使用一下可能就懂了,别慌。

创建蜘蛛

通过上述的操作,假设你已经成功的安装好了scrapy,并且进入了创建的项目

那么,我们就创建一个蜘蛛,对糗事百科的段子进行爬取。

创建蜘蛛命令

scrapy genspider <蜘蛛名称> <网页的起始url>

示例:创建糗事百科的段子蜘蛛

scrapy genspider duanzi ww.com

如何使用Scrapy网络爬虫框架

注:网页的起始url可以随便写,可以随便改,但是必须有

此时在spider文件夹下,会多一个duanzi.py文件

代码解释如下

如何使用Scrapy网络爬虫框架

爬取数据前准备

创建好蜘蛛之后,需要在配置一些东西的,不能直接就爬的,默认是爬取不了的,需要简单配置一下

打开settings.py文件,找到ROBOTSTXT_OBEY和USER_AGENT变量

ROBOTSTXT_OBEY配置

等于False不遵守robot协议,默认只有搜索引擎网站才会允许爬取,例如百度,必应等,个人爬取需要忽略这个,否则爬取不了

如何使用Scrapy网络爬虫框架

USER_AGENT配置

User-Agent是一个最基本的请求必须带的参数,如果这个带的不是正常的,必定爬取不了。

User-Agent

Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWEBKit/537.36 (Khtml, like Gecko) Chrome/78.0.3904.108 Safari/537.36

如何使用Scrapy网络爬虫框架

小试牛刀之获取糗事百科段子段子链接

准备工作做好了，那就开始吧!!!

此处我们需要有xpath的语法基础,其实挺简单的,没有基础的记得百度一下,其实不百度也没关系,跟着学,大概能看懂

实现功能

通过xpath获取每个段子下的a标签连接

注:审查元素和按住crtl+f搜索内容和写xpath这里不再啰嗦

分析页面规则

如何使用Scrapy网络爬虫框架

通过审查工具,我们可以看到,class包含article的标签就是一个个的文章,可能你想到xpath可能可以这样写

xpath代码

//div[@class='article']

但是你会发现一个都查不出来,因为是包含的关系,所以需要用contains关键字

我们需要这样写

xpath代码

//div[contains(@class,"article")]

如何使用Scrapy网络爬虫框架

但是会发现,这定位的太多了,并不是每个段子的div,所以我们要多包含几个,这样,就是每个段子的div了

//div[contains(@class,"article") and contains(@class,"block")]

如何使用Scrapy网络爬虫框架

上述已经成功定位了一个个的段子,下面在此基础上,定位到每个段子下的a标签

根据审查元素,发现每个段子下class="contentHerf"的a标签,就是每个段子的详情页

详情页,要定位的a标签的href确实是详情页的url

xpath代码

//div[contains(@class,"article") and contains(@class,"block")]//a[@class="contentHerf"]

如何使用Scrapy网络爬虫框架

这样,我们就定位了一个个a标签,只至少在控制台操作是没问题的,那么,我们使用python代码操作一下吧

代码

def parse(self, response):     a_href_list = response.xpath('//div[contains(@class,"article") and contains(@class,"block")]//a[@class="contentHerf"]/@href'     ).extract()     print(a_href_list)

启动蜘蛛命令

scrapy crawl <爬虫名> [--nolog]

注:--nolog参数不加表示一系列日志,一般用于调试,加此参数表示只输入print内容

示例:启动段子命令

scrapy crawl duanzi --nolog

如何使用Scrapy网络爬虫框架

成功拿到每一个链接。

获取详情页内容

在上述,我们成功的获取到了每个段子的链接,但是会发现有的段子是不全的,需要进入进入详情页才能看到所以段子内容，那我们就使用爬虫来操作一下吧。

我们定义一下标题和内容。

根据元素审查，标题的定位xpath是：

//h2[@class="article-title"]

如何使用Scrapy网络爬虫框架

内容的xpath是：

//div[@class="content"]

如何使用Scrapy网络爬虫框架

确定标题和内容的xpath定位之后,我们在Python代码中实现一下。

注：但是先解决一个问题,详情页属于第二次调用了,所以我们也需要进行调用第二次,再编写代码

代码

# 详情页 def detail(self, response):     title = response.xpath('//h2[@class="article-title"]/text()').extract()     content = response.xpath('//div[@class="content"]//text()').extract()     print("标题:" )     print(title)     print("内容")     print(content)  def parse(self, response):     a_href_list = response.xpath(         '//div[contains(@class,"article") and contains(@class,"block")]//a[@class="contentHerf"]/@href'     ).extract()     print(a_href_list)     base_url = "Https://www.qiushibaike.com"     for a_href in a_href_list:         url = f"{base_url}{a_href}"         yield scrapy.Request(url=url, callback=self.detail)

结果

但是会发现啊，似乎每个都是列表形式，这似乎不太行呐，我们稍微修改一下代码，这样我们拿到的就是正常的文本了，如下图所示：

上述命令总结

创建爬虫项目

scrapy startproject <项目名称>

创建蜘蛛

scrapy genspider <蜘蛛名称> <网页的起始url>

启动爬虫,--nolog参数不加表示一系列日志,一般用于调试,加此参数表示只输入print内容

scrapy crawl <爬虫名> [--nolog]

关于“如何使用Scrapy网络爬虫框架”这篇文章就分享到这里了，希望以上内容可以对大家有一定的帮助，使各位可以学到更多知识，如果觉得文章不错，请把它分享出去让更多的人看到。

点击免费下载>>软考高级考试备考技巧/历年真题/备考精华资料

--结束END--

本文标题: 如何使用Scrapy网络爬虫框架

本文链接: https://www.lsjlt.com/news/80316.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑，方便收藏和打印～

下载Word文档

去做题

猜你喜欢

如何使用Scrapy网络爬虫框架

这篇文章将为大家详细讲解有关如何使用Scrapy网络爬虫框架，小编觉得挺实用的，因此分享给大家做个参考，希望大家阅读完这篇文章后可以有所收获。scrapy 介绍标准介绍Scrapy是一个为了爬取网站数据，提...

99+

2024-04-02
网络爬虫框架Scrapy怎么用

这篇文章将为大家详细讲解有关网络爬虫框架Scrapy怎么用，小编觉得挺实用的，因此分享给大家做个参考，希望大家阅读完这篇文章后可以有所收获。Scrapy是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架，用途非常广泛...

99+

2023-06-27
开源python网络爬虫框架Scrapy

介绍：所谓网络爬虫，就是一个在网上到处或定向抓取数据的程序，当然，这种说法不够专业，更专业的描述就是，抓取特定网站网页的HTML数据。不过由于一个网站的网页很多，而我们又不可能事先知道所有网页的URL地址，所以，如何保证我们抓取到了网站的所...

99+

2023-01-31

爬虫开源框架
关于Python网络爬虫框架scrapy

目录scrapy爬虫框架介绍scrapy爬虫框架结构“5+2”结构：requests库和scrapy库比较scrapy的常用命令scrapy爬虫框架介绍 sc...

99+

2023-05-17

Python 爬虫 Python 爬虫框架 scrapy框架
Python3 爬虫 scrapy框架

上次用requests写的爬虫速度很感人，今天打算用scrapy框架来实现，看看速度如何。第一步，安装scrapy，执行一下命令 pip install Scrapy 第二步，创建项目，执行一下命令 scrapy startproje...

99+

2023-01-31

爬虫框架 scrapy
scrapy爬虫框架怎么使用

这篇“scrapy爬虫框架怎么使用”文章的知识点大部分人都不太理解，所以小编给大家总结了以下内容，内容详细，步骤清晰，具有一定的借鉴价值，希望大家阅读完这篇文章能有所收获，下面我们一起来看看这篇“scrapy爬虫框架怎么使用”文章吧。一、s...

99+

2023-06-27
爬虫之scrapy框架

　　一、认识scrapy框架　　何为框架，就相当于一个封装了很多功能的结构体，它帮我们把主要的结构给搭建好了，我们只需往骨架里添加内容就行。scrapy框架是一个为了爬取网站数据，提取数据的框架，我们熟知爬虫总共有四大部分，请求、响应、...

99+

2023-01-30

爬虫框架 scrapy
【100天精通python】Day45：python网络爬虫开发_ Scrapy 爬虫框架

目录 1 Scrapy 的简介 2 Scrapy选择器 3 快速创建Scrapy 爬虫 4 下载器与爬虫中间件 5 使用管道Pielines...

99+

2023-08-31

python 爬虫数据库
爬虫框架Scrapy 之(四) ---

解析后返回可迭代对象这个对象返回以后就会被爬虫重新接收，然后进行迭代通过scrapy crawl budejie -o xx.josn/xx.xml/xx.csv 将迭代数据输出到json、xml或者csv格式的外部文件中如果...

99+

2023-01-31

爬虫框架 Scrapy
如何入门Python Scrapy爬虫框架

如何入门Python Scrapy爬虫框架，针对这个问题，这篇文章详细介绍了相对应的分析和解答，希望可以帮助更多想解决这个问题的小伙伴找到更简单易行的方法。Scrapy概述Scrapy是Python开发的一个非常流行的网络爬虫框架，可以用来...

99+

2023-06-02
怎么使用Python的Scrapy爬虫框架

本篇内容介绍了“怎么使用Python的Scrapy爬虫框架”的有关知识，在实际案例的操作过程中，不少人都会遇到这样的困境，接下来就让小编带领大家学习一下如何处理这些情况吧！希望大家仔细阅读，能够学有所成！Scrapy是Python开发的一个...

99+

2023-06-02
爬虫---scrapy爬虫框架（详细+实战）

活动地址：CSDN21天学习挑战赛爬虫---scrapy爬虫框架爬虫---scrapy爬虫框架一、简介1、基本功能2、架构3、scrapy项目的结构二、scrapy环境搭...

99+

2023-10-27

爬虫 scrapy 数据挖掘 python
爬虫Scrapy框架之css选择器如何使用

这篇文章将为大家详细讲解有关爬虫Scrapy框架之css选择器如何使用，小编觉得挺实用的，因此分享给大家做个参考，希望大家阅读完这篇文章后可以有所收获。css选择器介绍在css中选择器是一种模式，用于选择需要添加样式的元素，css对html...

99+

2023-06-02
Python爬虫框架scrapy的使用示例

这篇文章主要介绍了Python爬虫框架scrapy的使用示例，具有一定借鉴价值，感兴趣的朋友可以参考下，希望大家阅读完这篇文章之后大有收获，下面让小编带着大家一起了解一下。python可以做什么Python是一种编程语言，内置了许多有效的工...

99+

2023-06-14
Python爬虫框架Scrapy 学习

开发环境PyCharm目标网站和上一次一样,可参考：http://dingbo.blog.51cto.com/8808323/1597695 但是这次不是在单个文件中运行，而是创建一个scrapy项目1.使用命令行工具创建scrapy项目的...

99+

2023-01-31

爬虫框架 Python
python爬虫框架Scrapy怎么安装使用

这篇文章主要介绍了python爬虫框架Scrapy怎么安装使用的相关知识，内容详细易懂，操作简单快捷，具有一定借鉴价值，相信大家阅读完这篇python爬虫框架Scrapy怎么安装使用文章都会有所收获，下面我...

99+

2024-04-02
Python爬虫框架Scrapy简介

在爬虫的路上，学习scrapy是一个必不可少的环节。也许有好多朋友此时此刻也正在接触并学习scrapy，那么很好，我们一起学习。开始接触scrapy的朋友可能会有些疑惑，毕竟是一个框...

99+

2024-04-02
Python爬虫框架scrapy入门指

想爬点数据来玩玩，我想最方便的工具就是Python scrapy了。这框架把采集需要用到的功能全部封装好了，只要写写采集规则,其他的就交给框架去处理，非常方便，没有之一，不接受反驳。：）网上学习资源非常丰富，我这里介绍下我的学习方法...

99+

2023-01-31

爬虫框架入门
python爬虫之scrapy框架详解

1.在pycharm下安装scrapy函数库 2.将安装好scrapy函数库下的路径配置到系统path的环境变量中 3.打开cmd终端输入：scrapy.exe检查是否安装成功 ...

99+

2024-04-02
如何实现Java手撸网络爬虫框架

这篇文章主要为大家展示了“如何实现Java手撸网络爬虫框架”，内容简而易懂，条理清晰，希望能够帮助大家解决疑惑，下面让小编带领大家一起研究并学习一下“如何实现Java手撸网络爬虫框架”这篇文章吧。首先介绍每个类的功能：DownloadPag...

99+

2023-06-20