iis服务器助手

扫码关注官方微信

扫码下载APP

返回顶部

首页 > 资讯 > 后端开发 > Python >Scrapy之爬取结果导出为Excel的实现过程

737

0

分享到

Scrapy之爬取结果导出为Excel的实现过程

Scrapy爬取爬取结果导出为Excel Scrapy导出为Excel 2022-12-19 18:12:30 737人浏览泡泡鱼

Python 官方文档：入门教程 => 点击学习

摘要

目录引言环境介绍定义Domain对象定义Pipelines注册pipelinespider中返回item执行crawler总结引言基于scrapy来爬取数据只是手段，这些爬取的结果

目录

引言
环境介绍
定义Domain对象
定义Pipelines
注册pipeline
spider中返回item
执行crawler
总结

引言

基于scrapy来爬取数据只是手段，这些爬取的结果需要按照一定的方式导出或者存储到数据库中，

excel是在日常工作中使用最为广泛的工具之一，本文介绍如何来讲爬取结果存储excel文件。

环境介绍

python 3.6.1 Scrapy 1.5.0

定义Domain对象

定义爬取数据对象的实体类：

import scrapy
class EnrolldataItem(scrapy.Item):
    schoolName = scrapy.Field()
    currentBatch = scrapy.Field()
    totalNumberInPlan = scrapy.Field()
    majorName = scrapy.Field()
    cateGoryName = scrapy.Field()
    numberInPlan = scrapy.Field()
    note = scrapy.Field()

这里的Field表示其在Scrapy爬取的实体字段，无关乎类型。

定义Pipelines

from scrapy.exporters import CsvItemExporter

class Enrolldatapipeline(object):
    def open_spider(self, spider):
        self.file = open("/home/bladestone/enrolldata.csv", "wb")
        self.exporter = CsvItemExporter(self.file,       
        fields_to_export=["schoolName", "currentBatch", "totalNumberInPlan"])
        self.exporter.start_exporting()

    def process_item(self, item, spider):
        self.exporter.export_item(item)
        return item

    def close_spider(self, spider):
        self.exporter.finish_exporting()
        self.file.close()

这里使用了scrapy自带的CsvItemExporter存储爬取的结果。

open_spider()和close_spider()两个方法都来在spider启动和结束的时候，执行一些初始化和清理工作，对于pipeline操作而言：

open_spider(): 执行文件创建，然后初始化exporter，并启动start_exporting()，开始接收Item
close_spider(): 结束exporter的exporting，关闭文件流。
export_item()：用来将item保存到输出结果中。

process_item()为pipeline中定义的方法，在pipeline在settings.py中注册之后，将会被调用。

注册pipeline

在settings.py文件中注册pipeline:

ITEM_PIPELINES = {
‘enrolldata.pipelines.EnrolldataPipeline': 300,
}

spider中返回item

在spider中一般通过yield的方式实现异步返回结果，此为spider中定义的响应处理方法。

具体的示例如下：

def parse_data():
    item = EnrolldataItem()
    item['majorName'] = major_name
    item['categoryName'] = major_category
    item['numberInPlan'] = major_number
    item['note'] = major_note
    item['schoolName'] = school_name
    item['currentBatch'] = current_batch
    item['totalNumberInPlan'] = total_number

    yield item

执行crawler

scrapy crawl enrolldata

enrolldata为项目的名称。

总结

在Scrapy中提供了多种结果输出方式，目前支持的有: xml, JSON, csv, pickle等多种方式，对于数据的支持也是非常方便的，这方面的内容将在后续的内容中进行详细介绍。

以上为个人经验，希望能给大家一个参考，也希望大家多多支持编程网。

您可能感兴趣的文档:

点击免费下载>>软考高级考试备考技巧/历年真题/备考精华资料

--结束END--

本文标题: Scrapy之爬取结果导出为Excel的实现过程

本文链接: https://www.lsjlt.com/news/175263.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑，方便收藏和打印～

下载Word文档

猜你喜欢

PythonOOP 的力量：封装与抽象类的超级英雄联盟

...

99+

2024-05-14
Python 代码的建筑师：封装与抽象类的蓝图和构建工具

...

99+

2024-05-14
PythonOOP 的航海图：封装与抽象类的船帆和指南针

...

99+

2024-05-14
Python 封装与抽象类的实验室：试验和发现的乐趣

...

99+

2024-05-14
Python 代码的可读性之钥：封装与抽象类的解读指南

...

99+

2024-05-14
PythonOOP 的秘密花园：封装与抽象类的花卉盛宴

...

99+

2024-05-14
Python 代码的组织大师：封装与抽象类的秩序之道

...

99+

2024-05-14
Python 封装与抽象类的终极秘籍：通往对象导向编程之路

...

99+

2024-05-14
PythonOOP 的宝藏：封装与抽象类的寻宝之旅

...

99+

2024-05-14
Python 代码的救星：封装与抽象类的代码重构秘籍

...

99+

2024-05-14

软考高级职称资格查询

iis服务器助手

软考职称历年真题下载

2023下半年-信息系统项目管理师-真题考点汇总（完整版）
164.2 KB 查看
2023年下半年信息系统项目管理师第一、二批次各科目真题考点整理(考友回忆版)
143.67 KB 查看
2023上半年软考高级《信息系统项目管理师》真题答案（抢先版）
500.26 KB 查看
2022年下半年软考高级职称考试考情分析
823.36 KB 查看
2022年下半年软考高级职称考试真题
569.84 KB 查看

软考职称资料下载

热门wiki

mysql删除数据恢复

mysql删表能回滚吗

mysql找回删除的表

mysql不小心删除了表

mysql不小心把表删了怎么恢复数据

mysql数据表删除后能恢复么

mysql误删表数据恢复

mysql误删表恢复

mysql删除表怎么恢复

近期文章

基于聚合数据的短信API接口调用示例-Python版

基于聚合数据的老黄历接口调用示例-Python版

基于Python的免费手机号码归属地查询

基于Python的免费IP地址归属地查询

python利用pyqt5和opencv打开电脑摄像头并进行拍照

用python 修改word中表格数据，插入图片 +实例分析

基于Python的免费天气预报接口查询

基于Python的免费新闻头条接口查询

PythonOOP 的力量：封装与抽象类的超级英雄联盟

Python 代码的建筑师：封装与抽象类的蓝图和构建工具

推荐阅读

python分析数据的方法是什么

2024-03-01

如何使用Python实现抽奖小程序

2024-03-01

python copy函数的作用是什么

2024-03-01

python进程池创建队列的方法是什么

2024-02-29

python字符串处理与应用的方法有哪些

2024-02-29

python全局变量如何定义

2024-02-29

python如何读取文件夹下所有文件

2024-02-29

python keyerror错误怎么解决

2024-02-29

python如何提取字符串的数字

2024-02-29

python中怎么将回车作为输入内容

2024-02-29

热门问答

1

回答

如何调试操作系统的错误？
操作系统

2023-11-15发布

1

回答

操作系统中的I/O系统是如何实现的？
操作系统

2023-11-15发布

1

回答

如何实现操作系统的内存管理？
操作系统

2023-11-15发布

1

回答

什么是虚拟内存，它对操作系统有什么影响？
操作系统

2023-11-15发布

1

回答

ASP中的MVC架构和WebForms架构有什么区别和使用场景？
ASP.NET

2023-11-15发布

1

回答

ASP中的数据验证和数据校验有什么不同？
ASP.NET

2023-11-15发布

1

回答

ASP中的ADO对象和DAO对象有什么区别和使用方法？
ASP.NET

2023-11-15发布

1

回答

Node.js中的包管理器NPM是什么？如何使用它进行依赖管理？
node.js

2023-11-15发布

1

回答

Vue.js中的动态组件是什么？如何使用它来动态渲染组件？
VUE

2023-11-15发布

1

回答

如何使用Vue.js实现懒加载和预加载？
VUE

2023-11-15发布

编程网，编程工程师的家园，是目前国内优秀的开源技术社区之一，形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容，为IT开发者提供了一个发现、使用、并交流开源技术的平台。

官方手机版
微信公众号
商务合作

Powered by 编程网 | Copyright © 2018-2023, 版权所有. | 网站地图 | 苏ICP备17033115号