iis服务器助手广告广告
返回顶部
首页 > 资讯 > 后端开发 > Python >如何在python中使用scrapy模块
  • 429
分享到

如何在python中使用scrapy模块

2023-06-06 10:06:48 429人浏览 安东尼

Python 官方文档:入门教程 => 点击学习

摘要

这篇文章将为大家详细讲解有关如何在python中使用scrapy模块,文章内容质量较高,因此小编分享给大家做个参考,希望大家阅读完这篇文章后对相关知识有一定的了解。二、基本使用2.1 环境安装1.linux和mac操作系统:pip 

这篇文章将为大家详细讲解有关如何在python中使用scrapy模块,文章内容质量较高,因此小编分享给大家做个参考,希望大家阅读完这篇文章后对相关知识有一定的了解。

如何在python中使用scrapy模块

二、基本使用

2.1 环境安装

1.linux和mac操作系统

pip install scrapy

windows系统

  1. 先安装wheel:pip install wheel

  2. 下载twisted:下载地址

  3. 安装twisted:pip install Twisted‑17.1.0‑cp36‑cp36m‑win_amd64.whl(记得带后缀)

  4. pip install pywin32

  5. pip install scrapy

3.Anaconda(推荐)

在我一开始学Python使用的就是python3.8,在安装各种库的时候,总会有各种报错,真的有点让人奔溃。Anaconda在安装过程中就会安装一些常用的库,其次,当我们想要安装其他库时也很方便。当然大家也可以选择安装其他的一些软件,

如何在python中使用scrapy模块

2.2 scrapy使用流程

这里默认大家已经安装好scrapy库,大家要记得要在命令行里输入以下命令啊。(我使用的anaconda的命令行)

创建工程

scrapy startproject projectName

如何在python中使用scrapy模块
如何在python中使用scrapy模块

进入工程目录:这里一定要进入到刚才创建好的目录中

cd projectName

如何在python中使用scrapy模块

创建爬虫文件:创建的爬虫文件会出现在之前创建好的spiders文件夹下

scrapy genspider spiderName www.xxx.com

如何在python中使用scrapy模块如何在python中使用scrapy模块

编写相关代码

执行爬虫文件

scrapy crawl spiderName

如何在python中使用scrapy模块

2.3 文件解析

import scrapyclass HelloSpider(scrapy.Spider): name = 'hello' # 爬虫名称 # 允许的域名:限定start_urls列表当中哪些url可以进行请求的发送 # 通常情况下我们不会使用 # allowed_domains = ['www.baidu.com']  # 起始的url列表:scrapy会自动对start_urls列表中的每一个url发起请求 # 我们可以手动添加我们需要访问的url start_urls = ['https://www.baidu.com/','Https://www.csdn.net/'] def parse(self, response): # 当scrapy自动向start_urls中的每一个url发起请求后,会将响应对象保存在response对象中 # 代码一般是在parse方法中写 print("response:",response)

如何在python中使用scrapy模块

2.4 settings.py一些常见的设置

相当于requests中的headers参数中的User-Agent

USER_AGENT = 'Mozilla/5.0 (windows NT 10.0; Win64; x64) AppleWEBKit/537.36 (Khtml, like Gecko) Chrome/88.0.4324.150 Safari/537.36 Edg/88.0.705.68'

可以忽略或者不遵守robots协议

ROBOTSTXT_OBEY = False

只有程序出现错误的情况下,才显示日志文件,程序正常执行时只会输出我们想要的结果

LOG_LEVEL='ERROR' == scrapy crawl spiderName --nolog//二者是等价的,当然还是推荐使用前者

未加LOG_LEVEL='ERROR'

如何在python中使用scrapy模块

LOG_LEVEL='ERROR'之后

如何在python中使用scrapy模块

scrapy 爬取文件保存为CSV文件中文乱码的解决办法

//下面的设置可能会导致繁体出现,可以逐个试一下FEED_EXPORT_ENcoding = "gb18030"FEED_EXPORT_ENCODING = "utf-8"FEED_EXPORT_ENCODING = "gbk"

如何在python中使用scrapy模块

三、实例

3.1 实例要求

目的:爬取百度网页的百度热榜

如何在python中使用scrapy模块 

3.2 实例代码

实例代码

如何在python中使用scrapy模块 

关于如何在python中使用scrapy模块就分享到这里了,希望以上内容可以对大家有一定的帮助,可以学到更多知识。如果觉得文章不错,可以把它分享出去让更多的人看到。

--结束END--

本文标题: 如何在python中使用scrapy模块

本文链接: https://www.lsjlt.com/news/246583.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑,方便收藏和打印~

下载Word文档
猜你喜欢
  • 如何在python中使用scrapy模块
    这篇文章将为大家详细讲解有关如何在python中使用scrapy模块,文章内容质量较高,因此小编分享给大家做个参考,希望大家阅读完这篇文章后对相关知识有一定的了解。二、基本使用2.1 环境安装1.linux和mac操作系统:pip ...
    99+
    2023-06-06
  • 如何在Python中使用openpyxl模块
    这篇文章主要介绍了如何在Python中使用openpyxl模块,此处给大家介绍的非常详细,对大家的学习或工作具有一定的参考价值,需要的朋友可以参考下:Python主要用来做什么Python主要应用于:1、Web开发;2、数据科学研究;3、网...
    99+
    2023-06-06
  • threading 模块如何在Python中使用
    threading 模块如何在Python中使用?针对这个问题,这篇文章详细介绍了相对应的分析和解答,希望可以帮助更多想解决这个问题的小伙伴找到更简单易行的方法。创建线程使用 threading 模块创建线程通常有两种方式:1)使用 thr...
    99+
    2023-06-14
  • 如何在Python中使用pickle模块
    这篇文章将为大家详细讲解有关如何在Python中使用pickle模块,文章内容质量较高,因此小编分享给大家做个参考,希望大家阅读完这篇文章后对相关知识有一定的了解。Python主要用来做什么Python主要应用于:1、Web开发;2、数据科...
    99+
    2023-06-14
  • 如何在Python中使用errno模块
    本篇文章给大家分享的是有关如何在Python中使用errno模块,小编觉得挺实用的,因此分享给大家学习,希望大家阅读完这篇文章后可以有所收获,话不多说,跟着小编一起来看看吧。python的数据类型有哪些python的数据类型:1. 数字类型...
    99+
    2023-06-14
  • 如何在Python中使用copy模块
    这篇文章给大家介绍如何在Python中使用copy模块,内容非常详细,感兴趣的小伙伴们可以参考借鉴,希望对大家能有所帮助。python可以做什么Python是一种编程语言,内置了许多有效的工具,Python几乎无所不能,该语言通俗易懂、容易...
    99+
    2023-06-14
  • 如何在python中使用sys模块
    本篇文章为大家展示了如何在python中使用sys模块,内容简明扼要并且容易理解,绝对能使你眼前一亮,通过这篇文章的详细介绍希望你能有所收获。python的五大特点是什么python的五大特点:1.简单易学,开发程序时,专注的是解决问题,而...
    99+
    2023-06-14
  • 如何在python中使用glom模块
    本篇文章给大家分享的是有关如何在python中使用glom模块,小编觉得挺实用的,因此分享给大家学习,希望大家阅读完这篇文章后可以有所收获,话不多说,跟着小编一起来看看吧。简单使用我们来看看最简单的用法:d = {&qu...
    99+
    2023-06-14
  • 如何在python中使用scipy.interpolate模块
    如何在python中使用scipy.interpolate模块?针对这个问题,这篇文章详细介绍了相对应的分析和解答,希望可以帮助更多想解决这个问题的小伙伴找到更简单易行的方法。python主要应用领域有哪些1、云计算,典型应用OpenSta...
    99+
    2023-06-14
  • collections模块如何在Python中使用
    这期内容当中小编将会给大家带来有关collections模块如何在Python中使用,文章内容丰富且以专业的角度为大家分析和叙述,阅读完这篇文章希望大家可以有所收获。Python主要用来做什么Python主要应用于:1、Web开发;2、数据...
    99+
    2023-06-14
  • random模块如何在python中使用
    本篇文章为大家展示了random模块如何在python中使用,内容简明扼要并且容易理解,绝对能使你眼前一亮,通过这篇文章的详细介绍希望你能有所收获。1. random.random()用于生成一个0到1的随机浮点数: 0 <= n &...
    99+
    2023-06-06
  • 如何在python中使用pyglet模块
    这期内容当中小编将会给大家带来有关如何在python中使用pyglet模块,文章内容丰富且以专业的角度为大家分析和叙述,阅读完这篇文章希望大家可以有所收获。python的五大特点是什么python的五大特点:1.简单易学,开发程序时,专注的...
    99+
    2023-06-15
  • 如何在python中中使用excel模块库
    本篇文章为大家展示了如何在python中中使用excel模块库,内容简明扼要并且容易理解,绝对能使你眼前一亮,通过这篇文章的详细介绍希望你能有所收获。openpyxlopenpyxl是⼀个Python库,用于读取/写⼊Excel 2010 ...
    99+
    2023-06-15
  • 如何在Linux中使用Python的numpy模块?
    在本文中,我们将介绍如何在Linux中使用Python的numpy模块。Numpy是Python中一个重要的科学计算库,它提供了高效的多维数组操作和数学函数,是科学计算和数据分析的重要工具。让我们开始吧! 安装numpy 在Linux中安装...
    99+
    2023-08-10
    numpy 日志 linux
  • 如何在Python项目中使用collections模块
    这篇文章主要介绍了如何在Python项目中使用collections模块,编程网小编觉得不错,现在分享给大家,也给大家做个参考,一起跟随编程网小编来看看吧!Python主要用来做什么Python主要应用于:1、Web开发;2、数据科学研究;...
    99+
    2023-06-06
  • 如何在python项目中使用urllib.request模块
    今天就跟大家聊聊有关如何在python项目中使用urllib.request模块,可能很多人都不太了解,为了让大家更加了解,小编给大家总结了以下内容,希望大家根据这篇文章可以有所收获。urllib子模块urllib.request 打开或请...
    99+
    2023-06-14
  • Python中base64模块如何使用
    Python中base64模块如何使用,很多新手对此不是很清楚,为了帮助大家解决这个难题,下面小编将为大家详细讲解,有这方面需求的人可以来学习下,希望你能有所收获。Python base64模块是用来作base64编码解码的。这种编码方式在...
    99+
    2023-06-17
  • python中os模块如何使用
    这篇文章主要介绍了python中os模块如何使用,具有一定借鉴价值,感兴趣的朋友可以参考下,希望大家阅读完这篇文章之后大有收获,下面让小编带着大家一起了解一下。python有哪些常用库python常用的库:1.requesuts;2.scr...
    99+
    2023-06-14
  • Python中 Collections 模块如何使用
    今天就跟大家聊聊有关Python中 Collections 模块如何使用,可能很多人都不太了解,为了让大家更加了解,小编给大家总结了以下内容,希望大家根据这篇文章可以有所收获。collections模块是一个不用不知道,一用就上瘾的模块。这...
    99+
    2023-06-15
  • Python中如何使用py2exe模块
    这期内容当中小编将会给大家带来有关Python中如何使用py2exe模块,文章内容丰富且以专业的角度为大家分析和叙述,阅读完这篇文章希望大家可以有所收获。我们先准备一个简单的pythonPythonhello.py# hello....
    99+
    2023-06-17
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作