返回顶部
首页 > 资讯 > 精选 >Media Pipeline如何爬取妹子图
  • 277
分享到

Media Pipeline如何爬取妹子图

2023-06-02 11:06:26 277人浏览 泡泡鱼
摘要

这篇文章给大家介绍Media Pipeline如何爬取妹子图,内容非常详细,感兴趣的小伙伴们可以参考借鉴,希望对大家能有所帮助。前言我们在抓取数据的过程中,除了要抓取文本数据之外,当然也会有抓取图片的需求。那我们的 scrapy 能爬取图片

这篇文章给大家介绍Media Pipeline如何爬取妹子图,内容非常详细,感兴趣的小伙伴们可以参考借鉴,希望对大家能有所帮助。

前言

我们在抓取数据的过程中,除了要抓取文本数据之外,当然也会有抓取图片的需求。那我们的 scrapy 能爬取图片吗?答案是,当然的。说来惭愧,我也是上个月才知道,在 zone7 粉丝群中,有群友问 scrapy 怎么爬取图片数据?后来搜索了一下才知道。现在总结一下分享出来。

Media Pipeline

我们的 itempipeline 处理可以处理文字信息以外,还可以保存文件和图片数据,分别是 FilesPipeline 和 ImagesPipeline

Files Pipeline
  • 避免重新下载最近已经下载过的数据

  • 指定存储路径

FilesPipeline的典型工作流程如下:
  • 在一个爬虫里,你抓取一个项目,把其中图片的URL放入 file_urls 组内。

  • 项目从爬虫内返回,进入项目管道。

  • 当项目进入 FilesPipeline,file_urls 组内的URLs将被Scrapy的调度器和下载器(这意味着调度器和下载器的中间件可以复用)安排下载,当优先级更高,- - 会在其他页面被抓取前处理。项目会在这个特定的管道阶段保持“locker”的状态,直到完成文件的下载(或者由于某些原因未完成下载)。

  • 当文件下载完后,另一个字段(files)将被更新到结构中。这个组将包含一个字典列表,其中包括下载文件的信息,比如下载路径、源抓取地址(从 file_urls 组获得)和图片的校验码(checksum)。 files 列表中的文件顺序将和源 file_urls 组保持一致。如果某个图片下载失败,将会记录下错误信息,图片也不会出现在 files 组中。

Images Pipeline
  • 避免重新下载最近已经下载过的数据

  • 指定存储路径

  • 将所有下载的图片转换成通用的格式(JPG)和模式(RGB)

  • 缩略图生成

  • 检测图像的宽/高,确保它们满足最小限制

启用Media Pipeline

# 同时启用图片和文件管道
ITEM_PIPELINES = { # 使用时,请修改成你自己的 ImgPipeline
    'girlScrapy.pipelines.ImgPipeline': 1,
}
FILES_STORE = os.getcwd() + '/girlScrapy/file'  # 文件存储路径
IMAGES_STORE = os.getcwd() + '/girlScrapy/img'  # 图片存储路径

# 避免下载最近90天已经下载过的文件内容
FILES_EXPIRES = 90
# 避免下载最近90天已经下载过的图像内容
IMAGES_EXPIRES = 30

# 设置图片缩略图
IMAGES_THUMBS = {
    'small': (50, 50),
    'big': (250, 250),
}
# 图片过滤器,最小高度和宽度,低于此尺寸不下载
IMAGES_MIN_HEIGHT = 128
IMAGES_MIN_WIDTH = 128

需要说明的是,你下载的图片名最终会以图片 URL 的 hash 值命名,例如:

0bddea29939becd7ad1e4160bbb4ec2238accbd9.jpg

最终的保存地址为:

your/img/path/full/0bddea29939becd7ad1e4160bbb4ec2238accbd9.jpg

使用 ImgPipeline

这是我 demo 中的一个 ImgPipeline,里面重写了两个方法。

from scrapy.pipelines.images import ImagesPipeline
class ImgPipeline(ImagesPipeline):#继承 ImagesPipeline 这个类

    def get_media_requests(self, item, info):
        for image_url in item['image_urls']:
            image_url = image_url
            yield scrapy.Request(image_url)
    def item_completed(self, results, item, info):
        image_paths = [x['path'] for ok, x in results if ok]
        if not image_paths:
            raise DropItem("Item contains no images")
        return item

分别是:

get_media_requests(self, item, info):
item_completed(self, results, item, info):
get_media_requests(self, item, info):

在这里,我们可以获取到 parse 中解析的 item 值,因此我们可以获取到相应的图片地址。在这里返回一个 scrapy.Request(image_url) 去下载图片。

item_completed(self, results, item, info):

item 和 info 打印出来都是 url 地址列表。其中 results 打印出来是如下值。

# 成功
[(True, {'path': 'full/0bddea29939becd7ad1e4160bbb4ec2238accbd9.jpg',
 'checksum': '98eb559631127d7611b499dfed0b6406', 
'url': 'Http://mm.chinasareview.com/wp-content/uploads/2017a/06/13/01.jpg'})]
# 错误
[(False,
  Failure(...))]

Media Pipeline如何爬取妹子图

抓取妹子图

ok,理论部分也讲完了,那我们来实践一下吧

spider

spider 部分很简单,如下:

class GirlSpider(scrapy.spiders.Spider):
    name = 'girl'
    start_urls = ["http://www.meizitu.com/a/3741.html"]
    def parse(self, response):
        soup = BeautifulSoup(response.body, 'HTML5lib')
        pic_list = soup.find('div', id="picture").find_all('img')  # 找到界面所有图片
        link_list = []
        item = Imgitem()
        for i in pic_list:
            pic_link = i.get('src')  # 拿到图片的具体 url
            link_list.append(pic_link)  # 提取图片链接
        item['image_urls'] = link_list
        print(item)
        yield item
item
class ImgItem(scrapy.Item):
    image_urls = scrapy.Field()#图片的链接
    images = scrapy.Field()
ImgPipeline
class ImgPipeline(ImagesPipeline):#继承 ImagesPipeline 这个类
    def get_media_requests(self, item, info):
        for image_url in item['image_urls']:
            image_url = image_url
            yield scrapy.Request(image_url)
    def item_completed(self, results, item, info):
        image_paths = [x['path'] for ok, x in results if ok]
        if not image_paths:
            raise DropItem("Item contains no images")
        return item
启动
scrapy crawl girl

最终爬取结果如下:

Media Pipeline如何爬取妹子图

关于Media Pipeline如何爬取妹子图就分享到这里了,希望以上内容可以对大家有一定的帮助,可以学到更多知识。如果觉得文章不错,可以把它分享出去让更多的人看到。

--结束END--

本文标题: Media Pipeline如何爬取妹子图

本文链接: https://www.lsjlt.com/news/229822.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

猜你喜欢
  • Media Pipeline如何爬取妹子图
    这篇文章给大家介绍Media Pipeline如何爬取妹子图,内容非常详细,感兴趣的小伙伴们可以参考借鉴,希望对大家能有所帮助。前言我们在抓取数据的过程中,除了要抓取文本数据之外,当然也会有抓取图片的需求。那我们的 scrapy 能爬取图片...
    99+
    2023-06-02
  • python-python爬取妹子图片
    1 # -*- conding=utf-8 -*- 2 3 import requests 4 from bs4 import BeautifulSoup 5 import io 6 7 url = "ht...
    99+
    2023-01-30
    妹子 图片 python
  • 使用Python爬虫爬取妹子图图片
            最近在学习Python的爬虫部分。看到有网友在分享使用爬虫爬取各种网站的图片的代码,也想自己写个玩玩。今天花时间分析了一下妹子图网站的结构和HTML代码,使用urllib2和BeautifulSoup写出了一个自动下载妹子图...
    99+
    2023-01-31
    爬虫 妹子 图图
  • Seleninum&PhamtomJS爬取煎蛋网妹子图
    目标网站:需要爬取的网站:http://jandan.net/ooxx 目标分析:先找到总页数,即可以利用selenium的模拟点击到下一个页面找到每个图片的地址:右键检查图片的代码,找到图片的代码爬虫代码:创建一个getJianDan.p...
    99+
    2023-01-30
    煎蛋 妹子 Seleninum
  • python shell 爬虫 妹子图片
    最近开始学Python,人们学一门语言潜移默化的第一个命令往往那个就是 hello world!这里也差不多,用python写了个小爬虫,爬妹子图的"照片".感觉效率好慢,应该是代码的问题,在此献丑了!!!需要安装两个好用的库,分别是 re...
    99+
    2023-01-31
    爬虫 妹子 图片
  • Python3 实现妹子图爬虫
    一.项目说明 1.项目介绍 本项目通过使用Python 实现一个妹子图图片收集爬虫,学习并实践 BeautifulSoup、Request,Urllib 及正则表达式等知识。在项目开发过程中采用瀑布流开发模型。 2.用到的知识点 ...
    99+
    2023-01-31
    爬虫 妹子
  • 利用node.js写一个爬取知乎妹纸图的小爬虫
    前言 说起写node爬虫的原因,真是羞羞呀。一天,和往常一样,晚上吃过饭便刷起知乎来,首页便是推荐的你见过最漂亮的女生长什么样?,点进去各种漂亮的妹纸爆照啊!!!,看的我好想把这些好看的妹纸照片都存下来啊!...
    99+
    2022-06-04
    爬虫 node js
  • python爬虫如何爬取图片
    这篇文章主要介绍了python爬虫如何爬取图片,具有一定借鉴价值,感兴趣的朋友可以参考下,希望大家阅读完这篇文章之后大有收获,下面让小编带着大家一起了解一下。python可以做什么Python是一种编程语言,内置了许多有效的工具,Pytho...
    99+
    2023-06-14
  • 如何用Python来找你喜欢的妹子
    这篇文章将为大家详细讲解有关如何用Python来找你喜欢的妹子,文章内容质量较高,因此小编分享给大家做个参考,希望大家阅读完这篇文章后对相关知识有一定的了解。先上效果图吧,no pic say bird!我之前写了一个抓取妹子资料的文章,主...
    99+
    2023-06-17
  • python如何爬取网页图片
    要使用Python爬取网页图片,可以使用requests库来发送HTTP请求,然后使用beautifulsoup库或者正则表达式来解...
    99+
    2023-08-20
    python
  • 如何优雅地给妹子优化电脑(Windows)?
    能力越大,责任也就越大作为一个懂电脑的BOY。平常被姑娘问的最多一句话就是:我电脑出问题了,快帮我看一看。而作为标准回答。往往也只有一句:你重启一下试试。后来的事实证明这样做其实不好。因为这句话效率过高。导致姑娘们再没有什么事会联系你。怎么...
    99+
    2023-07-26
  • 如何使用Python爬虫爬取网站图片
    这篇文章主要介绍了如何使用Python爬虫爬取网站图片,具有一定借鉴价值,感兴趣的朋友可以参考下,希望大家阅读完这篇文章之后大有收获,下面让小编带着大家一起了解一下。此次python3主要用requests,解析图片网址主要用beautif...
    99+
    2023-06-22
  • 如何使用Java爬虫批量爬取图片
    目录Java爬取图片爬取思路具体步骤具体代码实体类 Picture 和 工具类 HeaderUtil下载类最重要的类:解析页面类 PictureSpider启动类 BootStrap...
    99+
    2023-05-15
    Java爬虫 Java爬虫批量 批量爬取图片
  • 如何使用node.js爬取知乎图片
    这篇文章主要介绍了如何使用node.js爬取知乎图片,具有一定借鉴价值,感兴趣的朋友可以参考下,希望大家阅读完这篇文章之后大有收获,下面让小编带着大家一起了解一下。原理初入爬虫的坑,没有太多深奥的理论知识,...
    99+
    2024-04-02
  • 如何用Python爬取全网baisi趣图
    今天就跟大家聊聊有关如何用Python爬取全网baisi趣图,可能很多人都不太了解,为了让大家更加了解,小编给大家总结了以下内容,希望大家根据这篇文章可以有所收获。前言baisi里面有各种各样的趣图,搞笑视频,搞笑GIF图,搞笑段子,Pyt...
    99+
    2023-06-02
  • Pyspider框架中Python如何爬取V2EX网站帖子
    Pyspider框架中Python如何爬取V2EX网站帖子,针对这个问题,这篇文章详细介绍了相对应的分析和解答,希望可以帮助更多想解决这个问题的小伙伴找到更简单易行的方法。背景:PySpider:一个国人编写的强大的网络爬虫系统并带有强大的...
    99+
    2023-06-17
  • Python如何爬取觅知网素材图片
    这篇文章主要讲解了“Python如何爬取觅知网素材图片”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“Python如何爬取觅知网素材图片”吧!【一、项目背景】   ...
    99+
    2023-06-21
  • Python中如何爬取sexy的福利图片
    本篇文章给大家分享的是有关Python中如何爬取sexy的福利图片,小编觉得挺实用的,因此分享给大家学习,希望大家阅读完这篇文章后可以有所收获,话不多说,跟着小编一起来看看吧。前言各位老..司...小可爱们,大家好呀,相信大家的第一次爬虫是...
    99+
    2023-06-02
  • 如何利用Node.js做简单的图片爬取
    目录介绍安装引入创建实例元素捕获下载图片结语介绍 爬虫的主要目的是收集互联网上公开的一些特定数据。利用这些数据我们可以能进行分析一些趋势对比,或者训练模型做深度学习等等。本期我们就将...
    99+
    2024-04-02
  • python爬虫中如何爬取新闻
    这篇文章主要介绍了python爬虫中如何爬取新闻,具有一定借鉴价值,感兴趣的朋友可以参考下,希望大家阅读完这篇文章之后大有收获,下面让小编带着大家一起了解一下。python的五大特点是什么python的五大特点:1.简单易学,开发程序时,专...
    99+
    2023-06-14
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作