广告
返回顶部
首页 > 资讯 > 后端开发 > Python >如何使用Python抓取今日头条街拍图片数据
  • 186
分享到

如何使用Python抓取今日头条街拍图片数据

2023-06-22 08:06:50 186人浏览 八月长安

Python 官方文档:入门教程 => 点击学习

摘要

这篇文章主要介绍了如何使用python抓取今日头条街拍图片数据,具有一定借鉴价值,感兴趣的朋友可以参考下,希望大家阅读完这篇文章之后大有收获,下面让小编带着大家一起了解一下。(1)抓取今日头条街拍图片(2)分析今日头条街拍图片结构keyWo

这篇文章主要介绍了如何使用python抓取今日头条街拍图片数据,具有一定借鉴价值,感兴趣的朋友可以参考下,希望大家阅读完这篇文章之后大有收获,下面让小编带着大家一起了解一下。

(1)抓取今日头条街拍图片

如何使用Python抓取今日头条街拍图片数据

(2)分析今日头条街拍图片结构

如何使用Python抓取今日头条街拍图片数据

如何使用Python抓取今日头条街拍图片数据

keyWord: 街拍pd: atlasdvpf: pcaid: 4916page_num: 1search_JSON: {"from_search_id":"20220104115420010212192151532E8188","origin_keyword":"街拍","image_keyword":"街拍"}rawjsON: 1search_id: 202201041159040101501341671A4749C4
可以找到规律,page_num从1开始累加,其他参数不变

(3)按功能不同编写不同方法组织代码

获取网页json格式数据

def get_page(page_num):    global headers    headers = {        'Host': 'so.toutiao.com',        #'Referer': 'https://so.toutiao.com/search?keyword=%E8%A1%97%E6%8B%8D&pd=atlas&dvpf=pc&aid=4916&page_num=0&search_json={%22from_search_id%22:%22202112272022060101510440283EE83D67%22,%22origin_keyword%22:%22%E8%A1%97%E6%8B%8D%22,%22image_keyword%22:%22%E8%A1%97%E6%8B%8D%22}',        'User-Agent': 'Mozilla/5.0 (windows NT 10.0; WOW64) AppleWEBKit/537.36 (Khtml, like Gecko) Chrome/86.0.4240.198 Safari/537.36',        'X-Requested-With': 'XMLHttpRequest',        'Cookie': 'msToken=S0DFBkZ9hmyLOGYd3_QjhhXgrm38QtyOITnkNb0t_oavfbVxuYV1JZ0tT5hLgswSfmZLFD6c2lONm_5TomUQXVXjen7CIxM2AGwbhHRYKjhg; _S_DPR=1.5; _S_IPAD=0; MONITOR_WEB_ID=7046351002275317255; ttwid=1%7C0YdWalNdIiSpIk3CvvHwV25U8drq3QAj08E8QOApXhs%7C1640607595%7C720e971d353416921df127996ed708931b4ae28a0a8691a5466347697e581ce8; _S_WIN_WH=262_623'    }    params = {        'keyword': '街拍',        'pd': 'atlas',        'dvpf': 'pc',        'aid': '4916',        'page_num': page_num,        'search_json': '%7B%22from_search_id%22%3A%22202112272022060101510440283EE83D67%22%2C%22origin_keyword%22%3A%22%E8%A1%97%E6%8B%8D%22%2C%22image_keyword%22%3A%22%E8%A1%97%E6%8B%8D%22%7D',        'rawJSON': 1,        'search_id': '2021122721183101015104402851E3883D'    }    url = 'https://so.toutiao.com/search?' + urlencode(params)    print(url)    try:        response=requests.get(url,headers=headers,params=params)        if response.status_code == 200:        #if response.content:            #print(response.json())            return response.json()    except requests.ConnectionError:        return None

从json格式数据提取街拍图片

def get_images(json):    images = json.get('rawData').get('data')    for image in images:        link = image.get('img_url')        yield link

将街拍图片以其md5码命名并保存图片

实现一个保存图片的方法 save_image(),其中 item 就是前面 get_images() 方法返回的一个字典。在该方法中,首先根据 item 的 title 来创建文件夹,然后请求这个图片链接,获取图片的二进制数据,以二进制的形式写入文件。图片的名称可以使用其内容的 MD5 值,这样可以去除重复。相关代码如下:

def save_image(link):    data = requests.get(link).content    with open(f'./image/{md5(data).hexdigest()}.jpg', 'wb')as f:#使用data的md5码作为图片名        f.write(data)

main()调用其他函数

def main(page_num):    json = get_page(page_num)    for link in get_images(json):        #print(link)        save_image(link)

(4)抓取20page今日头条街拍图片数据

这里定义了分页的起始页数和终止页数,分别为 GROUP_START 和 GROUP_END,还利用了多线程线程池,调用其 map() 方法实现多线程下载。

if __name__ == '__main__':    GROUP_START = 1    GROUP_END = 20    pool = Pool()    groups = ([x for x in range(GROUP_START, GROUP_END + 1)])    #print(groups)    pool.map(main, groups)    pool.close()    pool.join()
import requestsfrom urllib.parse import urlencodefrom hashlib import md5from multiprocessing.pool import Pooldef get_page(page_num):    global headers    headers = {        'Host': 'so.toutiao.com',        #'Referer': 'https://so.toutiao.com/search?keyword=%E8%A1%97%E6%8B%8D&pd=atlas&dvpf=pc&aid=4916&page_num=0&search_json={%22from_search_id%22:%22202112272022060101510440283EE83D67%22,%22origin_keyword%22:%22%E8%A1%97%E6%8B%8D%22,%22image_keyword%22:%22%E8%A1%97%E6%8B%8D%22}',        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36',        'X-Requested-With': 'XMLHttpRequest',        'Cookie': 'msToken=S0DFBkZ9hmyLOGYd3_QjhhXgrm38qTyOITnkNb0t_oavfbVxuYV1JZ0tT5hLgswSfmZLFD6c2lONm_5TomUQXVXjen7CIxM2AGwbhHRYKjhg; _S_DPR=1.5; _S_IPAD=0; MONITOR_WEB_ID=7046351002275317255; ttwid=1%7C0YdWalNdIiSpIk3CvvHwV25U8drq3QAj08E8QOApXhs%7C1640607595%7C720e971d353416921df127996ed708931b4ae28a0a8691a5466347697e581ce8; _S_WIN_WH=262_623'    }    params = {        'keyword': '街拍',        'pd': 'atlas',        'dvpf': 'pc',        'aid': '4916',        'page_num': page_num,        'search_json': '%7B%22from_search_id%22%3A%22202112272022060101510440283EE83D67%22%2C%22origin_keyword%22%3A%22%E8%A1%97%E6%8B%8D%22%2C%22image_keyword%22%3A%22%E8%A1%97%E6%8B%8D%22%7D',        'rawJSON': 1,        'search_id': '2021122721183101015104402851E3883D'    }    url = 'https://so.toutiao.com/search?' + urlencode(params)    print(url)    try:        response=requests.get(url,headers=headers,params=params)        if response.status_code == 200:        #if response.content:            #print(response.json())            return response.json()    except requests.ConnectionError:        return Nonedef get_images(json):    images = json.get('rawData').get('data')    for image in images:        link = image.get('img_url')        yield linkdef save_image(link):    data = requests.get(link).content    with open(f'./image/{md5(data).hexdigest()}.jpg', 'wb')as f:#使用data的md5码作为图片名        f.write(data)def main(page_num):    json = get_page(page_num)    for link in get_images(json):        #print(link)        save_image(link)if __name__ == '__main__':    GROUP_START = 1    GROUP_END = 20    pool = Pool()    groups = ([x for x in range(GROUP_START, GROUP_END + 1)])    #print(groups)    pool.map(main, groups)    pool.close()    pool.join()

如何使用Python抓取今日头条街拍图片数据

感谢你能够认真阅读完这篇文章,希望小编分享的“如何使用Python抓取今日头条街拍图片数据”这篇文章对大家有帮助,同时也希望大家多多支持编程网,关注编程网Python频道,更多相关知识等着你来学习!

--结束END--

本文标题: 如何使用Python抓取今日头条街拍图片数据

本文链接: https://www.lsjlt.com/news/303521.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑,方便收藏和打印~

下载Word文档
猜你喜欢
  • Python抓取今日头条街拍图片数据
    目录(1)抓取今日头条街拍图片(2)分析今日头条街拍图片结构(3)按功能不同编写不同方法组织代码(4)抓取20page今日头条街拍图片数据(1)抓取今日头条街拍图片 (2)分析今日...
    99+
    2022-11-12
  • 如何使用Python抓取今日头条街拍图片数据
    这篇文章主要介绍了如何使用Python抓取今日头条街拍图片数据,具有一定借鉴价值,感兴趣的朋友可以参考下,希望大家阅读完这篇文章之后大有收获,下面让小编带着大家一起了解一下。(1)抓取今日头条街拍图片(2)分析今日头条街拍图片结构keywo...
    99+
    2023-06-22
  • 教你如何用Python爬虫获取今日头条上面三千美女图
    想问大家一个问题啊,大家学习Python爬虫的动力是什么呀?下面是我们有些同学的回答:1 .Python爬虫学好了,我可以找一个高薪的工作。2 .我学习编程希望能够为社会做贡献(手动滑稽)3 .为了姑娘!(很直白的回答哈!).....总结了...
    99+
    2023-06-02
  • 如何在python中使用plotdigitizer模块抠取论文的图片的数据
    今天就跟大家聊聊有关如何在python中使用plotdigitizer模块抠取论文的图片的数据,可能很多人都不太了解,为了让大家更加了解,小编给大家总结了以下内容,希望大家根据这篇文章可以有所收获。python可以做什么Python是一种编...
    99+
    2023-06-07
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作