Python的爬虫框架scrapy用21行代码写一个爬虫

爬虫框架代码 2022-06-04 18:06:54 663人浏览八月长安

Python 官方文档：入门教程 => 点击学习

摘要

开发说明开发环境:PyCharm 2017.1(目前最新) 开发框架:scrapy 1.3.3(目前最新) 目标爬取线报网站,并把内容保存到items.JSON里页面分析根据上图我们可以发

开发说明

开发环境:PyCharm 2017.1(目前最新)

开发框架:scrapy 1.3.3(目前最新)

目标

爬取线报网站,并把内容保存到items.JSON里

页面分析

查看图片

根据上图我们可以发现内容都在类为post这个div里

下面放出post的代码


<div class="post">
<!-- baidu_tc block_begin: {"action": "DELETE"} -->
<div class="date"><span>04月</span><span class="f">07日</span></div><!-- baidu_tc block_end -->
<h2><a href="Http://www.abckg.com/193.html" rel="external nofollow" title="4月7日 淘金币淘里程领取京东签到" rel="bookmark" target="_blank">4月7日 淘金币淘里程领取京东签到</a><span>已结束</span></h2>
<h6>发布日期: 2017-04-07 | 分类: <a href="http://www.abckg.com/xunibi" rel="external nofollow" >虚拟币</a> | 浏览:125177
</h6><div class="intro"><p>淘金币一键领取 http://021.tw/t/ https://www.chaidu.com/App/WEB/Taobao-Coin/ 【电脑端30金币】 https://taojinbi.taobao.com/inde ... auto_take=true 【手机端30金币】 http://h5.m.taobao...</p></div></div>

实现方法

1、定义items


class DemoItem(scrapy.Item):
 id = scrapy.Field()
 title = scrapy.Field()
 href = scrapy.Field()
 content = scrapy.Field()

2、新建一个爬虫名为test


# -*- coding: utf-8 -*-
import scrapy
from demo.items import DemoItem
from scrapy.http import Request
class TestSpider(scrapy.Spider):
 #定义爬虫的名字和需要爬取的网址
 name = "test"
 allowed_domains = ["www.abckg.com"]
 start_urls = ['http://www.abckg.com/']
 def parse(self, response):
 for resp in response.CSS('.post'):
  #实例化item
  item = DemoItem()
  #把获取到的内容保存到item内
  item['href'] = resp.css('h2 a::attr(href)').extract()
  item['title'] = resp.css('h2 a::text').extract()
  item['content'] = resp.css('.intro p::text').extract()
  yield item
  
 #下面是多页面的爬取方法
 urls = response.css('.pageinfo a::attr(href)').extract()
 for url in urls:
  yield Request(url, callback=self.parse)
 cateGorys = response.css('.menu li a::attr(href)').extract()
 for ct in categorys:
  yield Request(ct, callback=self.parse)

3、修改settings.py,添加以下代码


FEED_EXPORT_ENCODING = 'utf-8'

#运行

打开cmd输入


scrapy crawl test -o items.json

查看图片

已知bug

如果多次运行该爬虫,不会覆盖原有的内容,而是追加数据(好像是scrapy的bug)

可拓展内容

1、定时运行爬虫,当检查到网站更新时获取新数据并发邮件通知

2、检测数据是否重复

总结

以上就是这篇文章的全部内容了，希望本文的内容对大家的学习或者使用python能带来一定的帮助，如果有疑问大家可以留言交流，谢谢大家对编程网的支持。

您可能感兴趣的文档:

点击免费下载>>软考高级考试备考技巧/历年真题/备考精华资料

--结束END--

本文标题: Python的爬虫框架scrapy用21行代码写一个爬虫

本文链接: https://www.lsjlt.com/news/13373.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑，方便收藏和打印～

下载Word文档

去做题

猜你喜欢

Python爬虫框架Scrapy 学习

开发环境PyCharm目标网站和上一次一样,可参考：http://dingbo.blog.51cto.com/8808323/1597695 但是这次不是在单个文件中运行，而是创建一个scrapy项目1.使用命令行工具创建scrapy项目的...

99+

2023-01-31

爬虫框架 Python
Python爬虫框架Scrapy简介

在爬虫的路上，学习scrapy是一个必不可少的环节。也许有好多朋友此时此刻也正在接触并学习scrapy，那么很好，我们一起学习。开始接触scrapy的朋友可能会有些疑惑，毕竟是一个框...

99+

2024-04-02
Python爬虫框架scrapy入门指

想爬点数据来玩玩，我想最方便的工具就是Python scrapy了。这框架把采集需要用到的功能全部封装好了，只要写写采集规则,其他的就交给框架去处理，非常方便，没有之一，不接受反驳。：）网上学习资源非常丰富，我这里介绍下我的学习方法...

99+

2023-01-31

爬虫框架入门
python爬虫之scrapy框架详解

1.在pycharm下安装scrapy函数库 2.将安装好scrapy函数库下的路径配置到系统path的环境变量中 3.打开cmd终端输入：scrapy.exe检查是否安装成功 ...

99+

2024-04-02
怎么使用Python的Scrapy爬虫框架

本篇内容介绍了“怎么使用Python的Scrapy爬虫框架”的有关知识，在实际案例的操作过程中，不少人都会遇到这样的困境，接下来就让小编带领大家学习一下如何处理这些情况吧！希望大家仔细阅读，能够学有所成！Scrapy是Python开发的一个...

99+

2023-06-02
Python爬虫教程使用Scrapy框架爬取小说代码示例

目录Scrapy框架简单介绍创建Scrapy项目创建Spider爬虫Spider爬虫提取数据items.py代码定义字段fiction.py代码提取数据pipelines.py代码保...

99+

2024-04-02
Python爬虫框架scrapy的使用示例

这篇文章主要介绍了Python爬虫框架scrapy的使用示例，具有一定借鉴价值，感兴趣的朋友可以参考下，希望大家阅读完这篇文章之后大有收获，下面让小编带着大家一起了解一下。python可以做什么Python是一种编程语言，内置了许多有效的工...

99+

2023-06-14
开源python网络爬虫框架Scrapy

介绍：所谓网络爬虫，就是一个在网上到处或定向抓取数据的程序，当然，这种说法不够专业，更专业的描述就是，抓取特定网站网页的HTML数据。不过由于一个网站的网页很多，而我们又不可能事先知道所有网页的URL地址，所以，如何保证我们抓取到了网站的所...

99+

2023-01-31

爬虫开源框架
关于Python网络爬虫框架scrapy

目录scrapy爬虫框架介绍scrapy爬虫框架结构“5+2”结构：requests库和scrapy库比较scrapy的常用命令scrapy爬虫框架介绍 sc...

99+

2023-05-17

Python 爬虫 Python 爬虫框架 scrapy框架
scrapy爬虫框架怎么使用

这篇“scrapy爬虫框架怎么使用”文章的知识点大部分人都不太理解，所以小编给大家总结了以下内容，内容详细，步骤清晰，具有一定的借鉴价值，希望大家阅读完这篇文章能有所收获，下面我们一起来看看这篇“scrapy爬虫框架怎么使用”文章吧。一、s...

99+

2023-06-27
如何入门Python Scrapy爬虫框架

如何入门Python Scrapy爬虫框架，针对这个问题，这篇文章详细介绍了相对应的分析和解答，希望可以帮助更多想解决这个问题的小伙伴找到更简单易行的方法。Scrapy概述Scrapy是Python开发的一个非常流行的网络爬虫框架，可以用来...

99+

2023-06-02
【100天精通python】Day45：python网络爬虫开发_ Scrapy 爬虫框架

目录 1 Scrapy 的简介 2 Scrapy选择器 3 快速创建Scrapy 爬虫 4 下载器与爬虫中间件 5 使用管道Pielines...

99+

2023-08-31

python 爬虫数据库
python爬虫框架Scrapy怎么安装使用

这篇文章主要介绍了python爬虫框架Scrapy怎么安装使用的相关知识，内容详细易懂，操作简单快捷，具有一定借鉴价值，相信大家阅读完这篇python爬虫框架Scrapy怎么安装使用文章都会有所收获，下面我...

99+

2024-04-02
python爬虫入门之Scrapy框架怎么用

这篇文章将为大家详细讲解有关python爬虫入门之Scrapy框架怎么用，小编觉得挺实用的，因此分享给大家做个参考，希望大家阅读完这篇文章后可以有所收获。Python的优点有哪些1、简单易用，与C/C++、Java、C# 等传统语言相比，P...

99+

2023-06-14
网络爬虫框架Scrapy怎么用

这篇文章将为大家详细讲解有关网络爬虫框架Scrapy怎么用，小编觉得挺实用的，因此分享给大家做个参考，希望大家阅读完这篇文章后可以有所收获。Scrapy是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架，用途非常广泛...

99+

2023-06-27
python中Scrapy爬虫框架的作用有哪些

本文章向大家介绍python中Scrapy爬虫框架的作用有哪些，主要包括python中Scrapy爬虫框架的作用有哪些的使用实例、应用技巧、基本知识点总结和需要注意事项，具有一定的参考价值，需要的朋友可以参考一下。python可以做什么Py...

99+

2023-06-06
如何使用Scrapy网络爬虫框架

这篇文章将为大家详细讲解有关如何使用Scrapy网络爬虫框架，小编觉得挺实用的，因此分享给大家做个参考，希望大家阅读完这篇文章后可以有所收获。scrapy 介绍标准介绍Scrapy是一个为了爬取网站数据，提...

99+

2024-04-02
python实战之Scrapy框架爬虫爬取微博热搜

前言：大概一年前写的，前段时间跑了下，发现还能用，就分享出来了供大家学习，代码的很多细节不太记得了，也尽力做了优化。因为毕竟是微博，反爬技术手段还是很周全的，怎么绕过反爬的话要在这...

99+

2024-04-02
Python爬虫Scrapy框架IP代理的配置与调试

目录代理ip的逻辑在哪里如何配置动态的代理ip在调试爬虫的时候，新手都会遇到关于ip的错误，好好的程序突然报错了，怎么解决，关于ip访问的错误其实很好解决，但是怎么知道解决好了呢？怎...

99+

2024-04-02
python爬虫框架scrapy下载中间件的编写方法

目录下载中间件process_requestprocess_responseprocess_exception其它下载中间件在每一个scrapy工程中都有一个名为 middlewa...

99+

2024-04-02