iis服务器助手广告广告
返回顶部
首页 > 资讯 > 后端开发 > Python >python百行代码实现汉服圈图片爬取
  • 645
分享到

python百行代码实现汉服圈图片爬取

2024-04-02 19:04:59 645人浏览 泡泡鱼

Python 官方文档:入门教程 => 点击学习

摘要

目录分析网站子链接获取获取标题和图片地址保存图片主函数平时旅游的时候,在旅游景区我们经常可以看到穿各种服饰去拍照的游客,也不会刻意多关注。前两天浏览网页无意看到一个网站,看到穿汉服的

平时旅游的时候,在旅游景区我们经常可以看到穿各种服饰去拍照的游客,也不会刻意多关注。前两天浏览网页无意看到一个网站,看到穿汉服的女孩是真的很好看。无论是工作需要还是创作文案,把这么漂亮的图片来当作素材都是一个很好的idea。有需要,我们就爬它,爬它,爬它!

话不多说,我们下面详细介绍图片爬取。

分析网站

网址如下:

https://www.aihanfu.com/zixun/tushang-1/

这是第一页的网址,根据观察,第二页网址也就是上述网站序号1变成了2,依次类推,就可以访问全部页数。

在这里插入图片描述

根据图示,我们需要获得每个子网站的链接,也就是href中网址,然后进入每个网址,寻找图片网址,在下载就行了。

子链接获取

为了获取上图中的数据,我们可以用soup或者re或者xpath等方法都可以,本文中小编使用xpath来定位,编写定位函数,获得每个子网站链接,然后返回主函数,这里使用了一个技巧,在for循环中,可以看看!


def get_menu(url, heades):
    """
    根据每一页的网址
    获得每个链接对应的子网址
    params: url 网址
    """
    r = requests.get(url, headers=headers)
    if r.status_code == 200:
        r.encoding = r.apparent_encoding
        html = etree.HTML(r.text)
        html = etree.tostring(html)
        html = etree.fromstring(html)
        # 查找每个子网址对应的链接, 然后返回
        children_url = html.xpath('//div[@class="news_list"]//article/figure/a/@href')
        for _ in children_url:
            yield _

获取标题和图片地址

为了尽量多的采集数据,我们把标签和图片地址采集一下,当然如果其他项目需要采集发布者和时间,也是可以做到多的,本篇就不再展开。

在这里插入图片描述

我们点开一个网址链接,如上图所示,可以发现标题在head的节点里面,获取标题是为创建文件夹时使用。

代码如下:


def get_page(url, headers):
    """
    根据子页链接,获得图片地址,然后打包下载
    params: url 子网址
    """
    r = requests.get(url, headers=headers)
    if r.status_code == 200:
        r.encoding = r.apparent_encoding
        html = etree.HTML(r.text)
        html = etree.tostring(html)
        html = etree.fromstring(html)
        # 获得标题
        title = html.xpath(r'/汉服/'
    if not os.path.exists(path):
        os.mkdir(path)
        os.chdir(path)
    else:
        os.chdir(path)
    # url = 'Http://www.aihanfu.com/zixun/tushang-1/'
    headers = {'User-Agent': 'Mozilla/5.0 (windows NT 10.0; Win64; x64)'
                             ' AppleWEBKit/537.36 (KHTML, like Gecko)'
                             ' Chrome/81.0.4044.129 Safari/537.36'}
    for _ in range(1, 50):
        url = 'http://www.aihanfu.com/zixun/tushang-{}/'.fORMat(_)
        for _ in get_menu(url, headers):
            get_page(_, headers)  # 获得一页

至此我们已经完成了所有环节,关于爬虫的文章,小编已经不止一次的介绍了,一方面是希望大家可以多多熟悉爬虫技巧,另外一方面小编认为爬虫是数据分析数据挖掘的基础。没有爬虫获取数据,何来数据分析。

以上就是python百行代码实现汉服圈图片爬取的详细内容,更多关于Python爬取汉服圈图片的资料请关注编程网其它相关文章!

--结束END--

本文标题: python百行代码实现汉服圈图片爬取

本文链接: https://www.lsjlt.com/news/158034.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑,方便收藏和打印~

下载Word文档
猜你喜欢
  • python百行代码实现汉服圈图片爬取
    目录分析网站子链接获取获取标题和图片地址保存图片主函数平时旅游的时候,在旅游景区我们经常可以看到穿各种服饰去拍照的游客,也不会刻意多关注。前两天浏览网页无意看到一个网站,看到穿汉服的...
    99+
    2024-04-02
  • 如何使用python百行代码实现汉服圈图片爬取
    这篇文章主要介绍如何使用python百行代码实现汉服圈图片爬取,文中介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们一定要看完!分析网站网址如下:https://www.aihanfu.com/zixun/tushang-1/这是第一页...
    99+
    2023-06-25
  • python爬取百度图片代码
    import json import itertools import urllib import requests import os import re import sys word=input("请输入关键字:") path="./...
    99+
    2023-01-31
    代码 图片 python
  • 怎么用python代码实现爬取奥特曼图片
    这篇文章主要讲解了“怎么用python代码实现爬取奥特曼图片”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“怎么用python代码实现爬取奥特曼图片”吧!爬取网址:http://www.ult...
    99+
    2023-06-29
  • Python自动爬取图片并保存实例代码
    目录一、准备工作二、代码实现 三、总结一、准备工作 用python来实现对百度图片的爬取并保存,以情绪图片为例,百度搜索可得到下图所示 f12打开源码 在此处可以看到这...
    99+
    2024-04-02
  • Node.js实现爬取网站图片的示例代码
    目录涉及知识点cheerio简介什么是cheerio 安装cheerio准备工作核心代码示例截图涉及知识点 开发一个小爬虫,涉及的知识点如下所示: https模块,主要是用户获取网络...
    99+
    2024-04-02
  • 只用50行Python代码爬取网络美女高清图片
    目录一、技术路线二、获取网页信息三、网页爬取分析四、网页详情页链接获取五、依据图片链接保存图片六、main()函数七、完整代码一、技术路线 requests:网页请求 Beautif...
    99+
    2024-04-02
  • 用python实现爬取奥特曼图片实例
    爬取网址:http://www.ultramanclub.com/allultraman/ 使用工具:pycharm,requests 进入网页 打开开发者工具 点击 Netwo...
    99+
    2024-04-02
  • 一行Python代码实现为图片上版权
    目录前言安装工具图片加水印总结前言 今天一个朋友跟我吐槽:前段时间,我辛辛苦苦整理的一份XX攻略,分享给自己的一些朋友,结果今天看到有人堂而皇之地拿着这份攻略图片去引流,并声称是自己...
    99+
    2023-01-12
    Python图片版权 Python图片加水印 Python图片水印
  • Python怎么实现微博动态图片爬取
    本篇内容主要讲解“Python怎么实现微博动态图片爬取”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“Python怎么实现微博动态图片爬取”吧!我们找到微博在浏览器上面用于手机端的调试的APL,如...
    99+
    2023-06-29
  • Python实现微博动态图片爬取详解
    由于微博的网页端有反爬虫,需要登录,所以我们换个思路,曲线救国。 我们找到微博在浏览器上面用于手机端的调试的APL,如何找到呢? 我这边直接附上微博的手机端的地址:https://...
    99+
    2024-04-02
  • Python提取视频帧图片实例代码
    为了从视频中提取每一帧图片,编写Python脚本实现该功能 video_path为指定的视频路径 interval为指定分割视频是是否跳帧,默认不跳帧,即全部分割 width, he...
    99+
    2024-04-02
  • Python三百行代码实现飞机大战
    目录一. 动态效果图如下二. 思路框架三. Python代码实现四. 小结一. 动态效果图如下 先来看下飞机大战游戏最终实现的动态效果图。 二. 思路框架 plane_sprite...
    99+
    2024-04-02
  • python实现简单爬取图片保存到本地
    import requests import os url="http://lofter.nos.netease.com/sogou-Y1gxMDFIeFVHeWhCTkZaMEkzYWx1bGR5WEszQTdRTEZPcndxZWo3Q...
    99+
    2023-01-31
    简单 图片 python
  • 1行Python代码实现去除图片水印详解
    目录正文一、代码运行,效果演示运行以下代码实现的效果如下二、已有功能正文 最近小明在开淘宝店,需要给自己的原创图片加水印,于是我上次给她开发了增加水印的功能:图片加水印,保护原创图...
    99+
    2023-03-19
    Python一行代码去水印 Python图片去水印
  • Python爬虫爬取爱奇艺电影片库首页的实例代码
    上篇文章给大家介绍了Python爬取爱奇艺电影信息代码实例 感兴趣的朋友点击查看下。 今天给大家介绍Python爬虫爬取爱奇艺电影片库首页,下面是实例代码,参考下: i...
    99+
    2024-04-02
  • 怎么用1行Python代码实现去除图片水印
    这篇“怎么用1行Python代码实现去除图片水印”文章的知识点大部分人都不太理解,所以小编给大家总结了以下内容,内容详细,步骤清晰,具有一定的借鉴价值,希望大家阅读完这篇文章能有所收获,下面我们一起来看看这篇“怎么用1行Python代码实现...
    99+
    2023-07-05
  • python爬取网易云音乐排行榜实例代码
    目录网易云音乐排行榜歌曲及评论爬取一、模拟登录二、排行榜数据爬取三、排行榜评论获取总结网易云音乐排行榜歌曲及评论爬取 主要注意问题:selenium 模拟登录、iframe标签定位、...
    99+
    2024-04-02
  • 13行代码实现爬取豆瓣250电影榜单
    原理很简单,通过发送resquest请求获取服务器的response,再使用xpath提取其中我们需要的数据,然后保存到文件中。 先看看我爬取的结果: 首先,需要用到的模块有两个: •requests •lxml 第一步,我们先用Ch...
    99+
    2023-01-30
    豆瓣 榜单 代码
  • C++实现对RGB图片进行编码的示例代码
    目录1.转换色彩空间2.离散余弦变化3.zigzag编码4.量化5.Huffman编码代码如下依据上一篇的JPEG编码所得到的RGB信息,我们可以重新对RGB图片进行编码,也可对其他...
    99+
    2023-05-19
    C++对图片进行编码 C++图片编码 C++图片
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作