iis服务器助手广告广告
返回顶部
首页 > 资讯 > 后端开发 > Python >Python爬虫 自动爬取图片并保存
  • 499
分享到

Python爬虫 自动爬取图片并保存

爬虫python数据挖掘 2023-10-09 12:10:43 499人浏览 八月长安

Python 官方文档:入门教程 => 点击学习

摘要

一、准备工作   用python来实现对图片网站的爬取并保存,以情绪图片为例,搜索可得到下图所示 f12打开源码 在此处可以看到这次我们要爬取的图片的基本信息是在img - scr中 二、代码实现 这次的爬取主要用了如下的第三方库

一、准备工作

 

python来实现对图片网站的爬取并保存,以情绪图片为例,搜索可得到下图所示

f12打开源

在此处可以看到这次我们要爬取的图片的基本信息是在img - scr中

二、代码实现

这次的爬取主要用了如下的第三方库

import reimport timeimport requestsfrom bs4 import BeautifulSoupimport os

简单构思可以分为三个小部分

获取网页内容

解析网页

保存图片至相应位置

下面来看第一部分:获取网页内容

baseurl = 'https://cn.bing.com/images/search?q=%E6%83%85%E7%BB%AA%E5%9B%BE%E7%89%87&qpvt=%e6%83%85%e7%bb%aa%e5%9b%be%e7%89%87&fORM=IGRE&first=1&cw=418&ch=652&tsc=ImageBasicHover'head = {        "User-Agent": "Mozilla/5.0 (windows NT 10.0; Win64; x64) AppleWEBKit/537.36 (Khtml, like Gecko) Chrome/92.0.4515.131 Safari/537.36 Edg/92.0.902.67"}    response = requests.get(baseurl, headers=head)  # 获取网页信息    html = response.text  # 将网页信息转化为text形式

是不是so easy

第二部分解析网页才是大头

来看代码

Img = re.compile(r'img.*src="(.*?)"')  # 正则表达式匹配图片soup = BeautifulSoup(html, "html.parser")  # BeautifulSoup解析html    #i = 0  # 计数器初始值    data = []  # 存储图片超链接的列表    for item in soup.find_all('img', src=""):  # soup.find_all对网页中的img—src进行迭代        item = str(item)  # 转换为str类型        Picture = re.findall(Img, item)  # 结合re正则表达式和BeautifulSoup, 仅返回超链接        for b in Picture:            data.append(b)            #i = i + 1            return data[-1]    # print(i)

这里就运用到了BeautifulSoup以及re正则表达式的相关知识,需要有一定的基础哦

下面就是第三部分:保存图片

    for m in getdata(            baseurl='Https://cn.bing.com/images/search?q=%E6%83%85%E7%BB%AA%E5%9B%BE%E7%89%87&qpvt=%e6%83%85%e7%bb%aa%e5%9b%be%e7%89%87&form=IGRE&first=1&cw=418&ch=652&tsc=ImageBasicHover'):        resp = requests.get(m)  #获取网页信息        byte = resp.content  # 转化为content二进制        print(os.getcwd()) # os库中输出当前的路径        i = i + 1 # 递增        # img_path = os.path.join(m)        with open("path{}.jpg".format(i), "wb") as f: # 文件写入            f.write(byte)            time.sleep(0.5) # 每隔0.5秒下载一张图片放入D://情绪图片测试        print("第{}张图片爬取成功!".format(i))

各行代码的解释已经给大家写在注释中啦,不明白的地方可以直接私信或评论哦~

下面是完整的代码

import reimport timeimport requestsfrom bs4 import BeautifulSoupimport os# m = 'https://tse2-mm.cn.bing.net/th/id/OIP-C.uihwmxDdgfK4FlCIXx-3jgHaPc?w=115&h=183&c=7&r=0&o=5&pid=1.7''''resp = requests.get(m)byte = resp.contentprint(os.getcwd())img_path = os.path.join(m)'''def main():    baseurl = 'https://cn.bing.com/images/search?q=%E6%83%85%E7%BB%AA%E5%9B%BE%E7%89%87&qpvt=%e6%83%85%e7%bb%aa%e5%9b%be%e7%89%87&form=IGRE&first=1&cw=418&ch=652&tsc=ImageBasicHover'    datalist = getdata(baseurl)def getdata(baseurl):    Img = re.compile(r'img.*src="(.*?)"')  # 正则表达式匹配图片    datalist = []    head = {        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.131 Safari/537.36 Edg/92.0.902.67"}    response = requests.get(baseurl, headers=head)  # 获取网页信息    html = response.text  # 将网页信息转化为text形式    soup = BeautifulSoup(html, "html.parser")  # BeautifulSoup解析html    # i = 0  # 计数器初始值    data = []  # 存储图片超链接的列表    for item in soup.find_all('img', src=""):  # soup.find_all对网页中的img—src进行迭代        item = str(item)  # 转换为str类型        Picture = re.findall(Img, item)  # 结合re正则表达式和BeautifulSoup, 仅返回超链接        for b in Picture:  # 遍历列表,取最后一次结果            data.append(b)            # i = i + 1            datalist.append(data[-1])    return datalist  # 返回一个包含超链接的新列表    # print(i)'''with open("img_path.jpg","wb") as f:    f.write(byte)'''if __name__ == '__main__':    os.chdir("D://情绪图片测试")    main()    i = 0  # 图片名递增    for m in getdata(            baseurl='https://cn.bing.com/images/search?q=%E6%83%85%E7%BB%AA%E5%9B%BE%E7%89%87&qpvt=%e6%83%85%e7%bb%aa%e5%9b%be%e7%89%87&form=IGRE&first=1&cw=418&ch=652&tsc=ImageBasicHover'):        resp = requests.get(m)  #获取网页信息        byte = resp.content  # 转化为content二进制        print(os.getcwd()) # os库中输出当前的路径        i = i + 1 # 递增        # img_path = os.path.join(m)        with open("path{}.jpg".format(i), "wb") as f: # 文件写入            f.write(byte)            time.sleep(0.5) # 每隔0.5秒下载一张图片放入D://情绪图片测试        print("第{}张图片爬取成功!".format(i))

最后的运行截图

 三、总结

这次仅仅是保存了29张图片,在爬取其他网页的时候,用的方法都是大同小异,最主要还是根据网页的内容灵活变换,观察它的源码。另外有部分网站可能会有反爬措施,爬的时候要注意哦~如果还有不懂的地方,欢迎留言私信

来源地址:https://blog.csdn.net/m0_60964321/article/details/122269923

--结束END--

本文标题: Python爬虫 自动爬取图片并保存

本文链接: https://www.lsjlt.com/news/426283.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑,方便收藏和打印~

下载Word文档
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作