使用Python爬虫爬取妹子图图片

爬虫妹子图图 2023-01-31 07:01:14 288人浏览薄情痞子

Python 官方文档：入门教程 => 点击学习

摘要

最近在学习python的爬虫部分。看到有网友在分享使用爬虫爬取各种网站的图片的代码，也想自己写个玩玩。今天花时间分析了一下妹子图网站的结构和html代码，使用urllib2和BeautifulSoup写出了一个自动下载妹子图

最近在学习 python的爬虫部分。看到有网友在分享使用爬虫爬取各种网站的图片的代码，也想自己写个玩玩。今天花时间分析了一下妹子图网站的结构和html代码，使用urllib2和BeautifulSoup写出了一个自动下载妹子图网站图片的脚本。

后来发现抓取不了了，修改了一下，加了User-Agent，又恢复正常了。

妹子图网址：Http://www.mzitu.com

运行效果如下：

源代码如下，请各位大神指教：

# -*- coding:utf8 -*-
# Python:         2.7.8
# PlatfORM:       windows
# Author:         wucl
# Version:        1.0
# Program:        自动下载妹子图的图片并保存到本地
# History:        2015.5.31
#                 2015.6.2  发现被禁止抓取了，增加了随机的浏览器头部信息，模拟浏览器抓取。

import urllib2, os, os.path, urllib, random
from bs4 import BeautifulSoup

def get_soup(url):
    """
    获取网站的soup对象
    """
    my_headers = [
    'Mozilla/5.0 (Windows NT 5.2) AppleWEBKit/534.30 (KHTML, like Gecko) Chrome/12.0.742.122 Safari/534.30',
    'Mozilla/5.0 (Windows NT 5.1; rv:5.0) Gecko/20100101 Firefox/5.0',
    'Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.2; Trident/4.0; .net CLR 1.1.4322; .NET CLR 2.0.50727; .NET4.0E; .NET CLR 3.0.4506.2152; .NET CLR 3.5.30729; .NET4.0C)',
    'Opera/9.80 (Windows NT 5.1; U; zh-cn) Presto/2.9.168 Version/11.50',
    'Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN) AppleWebKit/533.21.1 (KHTML, like Gecko) Version/5.0.5 Safari/533.21.1',
    'Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.1; Trident/4.0; .NET CLR 2.0.50727; .NET CLR 3.0.04506.648; .NET CLR 3.5.21022; .NET4.0E; .NET CLR 3.0.4506.2152; .NET CLR 3.5.30729; .NET4.0C)']
    header={"User-Agent":random.choice(my_headers)}
    req=urllib2.Request(url, headers=header)
    html=urllib2.urlopen(req).read()
    soup=BeautifulSoup(html)
    return soup
    
def get_pages(url):
    """
    获取妹子图网站的页数
    """
    soup=get_soup(url)
    nums=soup.find_all('a',class_='page-numbers')
    pages=int(nums[-2].text)
    return pages

    
def get_menu(url):
    """
    获取页面的所有妹子图主题的链接名称和地址，记入列表
    """
    soup=get_soup(url)
    menu=[]
    menu_list=soup.find_all('a',target='_blank')
    for i in menu_list:
        result=i.find_all('img',class_='lazy')
        if result:
            name=result[0]['alt']
            address=i['href']
            menu.append([name,address])
    return menu

def get_links(url):
    """
    获取单个妹子图主题一共具有多少张图片
    """
    soup=get_soup(url)
    all_=soup.find_all('a')
    nums=[]
    for i in all_:
        span=i.find_all('span')
        if span:
            nums.append(span[0].text)
    return nums[-2]
            
def get_p_w_picpath(url,filename):
    """
    从单独的页面中提取出图片保存为filename
    """
    soup=get_soup(url)
    p_w_picpath=soup.find_all('p')[0].find_all('img')[0]['src']
    urllib.urlretrieve(p_w_picpath,filename)

def main(page):
    """
    下载第page页的妹子图
    """
    print u'正在下载第 %d 页' % page
    page_url=url+'/page/'+str(page)
    menu=get_menu(page_url)
    print u'@@@@@@@@@@@@@@@@第 %d 页共有 %d 个主题@@@@@@@@@@@@@@@@' %(page,len(menu))
    for i in menu:
        dir_name=os.path.join('MeiZiTu',i[0])
        if not os.path.exists(dir_name):
            os.mkdir(dir_name)
        pic_nums=int(get_links(i[1]))
        print u'\n\n\n*******主题 %s 一共有 %d 张图片******\n' %(i[0],pic_nums)
        for pic in range(1,pic_nums+1):
            basename=str(pic)+'.jpg'
            filename=os.path.join(dir_name,basename)
            pic_url=i[1]+'/'+str(pic)
            if not os.path.exists(filename):
                print u'......%s' % basename,
                get_p_w_picpath(pic_url,filename)
            else:
                print filename+u'已存在，略过'
    
if __name__=='__main__':
    url='http://www.mzitu.com/'
    pages=get_pages(url)
    print u'***************妹子图一共有 %d 页******************' %pages
    if not os.path.exists('MeiZiTu'):
        os.mkdir('MeiZiTu')
    page_start=input(u'Input the first page number:\n')
    page_end=input(u'Input the last page number:\n')
    if page_end>page_start:
        for page in range(page_start,page_end):
            main(page)
    elif page_end==page_start:
        main(page_end)
    else:
        print u"输入错误，起始页必须小于等于结束页\n"

您可能感兴趣的文档:

点击免费下载>>软考高级考试备考技巧/历年真题/备考精华资料

--结束END--

本文标题: 使用Python爬虫爬取妹子图图片

本文链接: https://www.lsjlt.com/news/191131.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑，方便收藏和打印～

下载Word文档

去做题

猜你喜欢

使用Python爬虫爬取妹子图图片

最近在学习Python的爬虫部分。看到有网友在分享使用爬虫爬取各种网站的图片的代码，也想自己写个玩玩。今天花时间分析了一下妹子图网站的结构和HTML代码，使用urllib2和BeautifulSoup写出了一个自动下载妹子图...

99+

2023-01-31

爬虫妹子图图
python shell 爬虫妹子图片

最近开始学Python,人们学一门语言潜移默化的第一个命令往往那个就是 hello world!这里也差不多,用python写了个小爬虫,爬妹子图的"照片".感觉效率好慢,应该是代码的问题,在此献丑了!!!需要安装两个好用的库,分别是 re...

99+

2023-01-31

爬虫妹子图片
python-python爬取妹子图片

1 # -*- conding=utf-8 -*- 2 3 import requests 4 from bs4 import BeautifulSoup 5 import io 6 7 url = "ht...

99+

2023-01-30

妹子图片 python
Python3 实现妹子图爬虫

一.项目说明 1.项目介绍本项目通过使用Python 实现一个妹子图图片收集爬虫，学习并实践 BeautifulSoup、Request,Urllib 及正则表达式等知识。在项目开发过程中采用瀑布流开发模型。 2.用到的知识点 ...

99+

2023-01-31

爬虫妹子
python爬虫如何爬取图片

这篇文章主要介绍了python爬虫如何爬取图片，具有一定借鉴价值，感兴趣的朋友可以参考下，希望大家阅读完这篇文章之后大有收获，下面让小编带着大家一起了解一下。python可以做什么Python是一种编程语言，内置了许多有效的工具，Pytho...

99+

2023-06-14
Python爬虫爬取网站图片

此次python3主要用requests，解析图片网址主要用beautiful soup，可以基本完成爬取图片功能，爬虫这个当然大多数人入门都是爬美女图片，我当然也不落俗套，首先也...

99+

2024-04-02
如何使用Python爬虫爬取网站图片

这篇文章主要介绍了如何使用Python爬虫爬取网站图片，具有一定借鉴价值，感兴趣的朋友可以参考下，希望大家阅读完这篇文章之后大有收获，下面让小编带着大家一起了解一下。此次python3主要用requests，解析图片网址主要用beautif...

99+

2023-06-22
Media Pipeline如何爬取妹子图

这篇文章给大家介绍Media Pipeline如何爬取妹子图，内容非常详细，感兴趣的小伙伴们可以参考借鉴，希望对大家能有所帮助。前言我们在抓取数据的过程中，除了要抓取文本数据之外，当然也会有抓取图片的需求。那我们的 scrapy 能爬取图片...

99+

2023-06-02
python图片爬虫

#!/usr/bin/env python# -*- coding:utf-8 -*-import argparseimport osimport reimport sysimport urllibi...

99+

2023-08-31

python 爬虫开发语言
Seleninum&PhamtomJS爬取煎蛋网妹子图

目标网站:需要爬取的网站:http://jandan.net/ooxx 目标分析:先找到总页数,即可以利用selenium的模拟点击到下一个页面找到每个图片的地址:右键检查图片的代码,找到图片的代码爬虫代码:创建一个getJianDan.p...

99+

2023-01-30

煎蛋妹子 Seleninum
怎么使用Java爬虫批量爬取图片

本篇内容主要讲解“怎么使用Java爬虫批量爬取图片”，感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷，实用性强。下面就让小编来带大家学习“怎么使用Java爬虫批量爬取图片”吧!爬取思路对于这种图片的获取，其实本质上就是就是文件的下载（H...

99+

2023-07-06
Python爬虫之教你利用Scrapy爬取图片

目录Scrapy下载图片项目介绍使用Scrapy下载图片项目创建项目预览创建爬虫文件项目组件介绍Scrapy爬虫流程介绍页面结构分析最终目录树项目运行爬取结果后记Scrapy下载图片...

99+

2024-04-02
Python爬虫自动爬取图片并保存

一、准备工作用python来实现对图片网站的爬取并保存，以情绪图片为例，搜索可得到下图所示 f12打开源码在此处可以看到这次我们要爬取的图片的基本信息是在img - scr中二、代码实现这次的爬取主要用了如下的第三方库...

99+

2023-10-09

爬虫 python 数据挖掘
如何使用Java爬虫批量爬取图片

目录Java爬取图片爬取思路具体步骤具体代码实体类 Picture 和工具类 HeaderUtil下载类最重要的类：解析页面类 PictureSpider启动类 BootStrap...

99+

2023-05-15

Java爬虫 Java爬虫批量批量爬取图片
python爬虫怎么获取图片

这篇文章主要讲解了“python爬虫怎么获取图片”，文中的讲解内容简单清晰，易于学习与理解，下面请大家跟着小编的思路慢慢深入，一起来研究和学习“python爬虫怎么获取图片”吧！首先导入库给文件加入头信息，伪装成模拟浏览器访问实现翻页翻页多...

99+

2023-06-02
python爬虫实战项目之爬取pixiv图片

自从接触python以后就想着爬pixiv，之前因为梯子有点问题就一直搁置，最近换了个梯子就迫不及待试了下。爬虫无非request获取html页面然后用正则表达式或者beautif...

99+

2024-04-02
python爬虫怎么批量爬取百度图片

这篇文章将为大家详细讲解有关python爬虫怎么批量爬取百度图片，小编觉得挺实用的，因此分享给大家做个参考，希望大家阅读完这篇文章后可以有所收获。Python主要用来做什么Python主要应用于：1、Web开发；2、数据科学研究；3、网络爬...

99+

2023-06-14
Python图片爬虫工具

不废话了，直接上代码： import reimport osimport requestsimport tqdmheader={'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64)...

99+

2023-08-31

python 爬虫开发语言
python实现简单爬虫--爬图片

首先有两个功能需求：第一：获取到要爬的页面html内容；第二：使用正则表达式进行匹配并进行保存到本地。#!/usr/bin/env python #encoding:utf-8 import urllib import re def get...

99+

2023-01-31

爬虫简单图片
爬虫实例（二）—— 爬取高清4K图片

大家好，我是 Enovo飞鱼，今天继续分享一个爬虫案例，爬取高清4K图片，加油💪。目录前言增加异常处理增加代码灵活性基本环境配置爬取目标网站分析网站页面具体代码实现图片下载示例感谢支持...

99+

2023-09-08

爬虫 python 开发语言