iis服务器助手广告广告
返回顶部
首页 > 资讯 > 后端开发 > Python >python如何爬取智能翻页批量下载文件
  • 344
分享到

python如何爬取智能翻页批量下载文件

2023-06-14 15:06:58 344人浏览 独家记忆

Python 官方文档:入门教程 => 点击学习

摘要

这篇文章主要介绍python如何爬取智能翻页批量下载文件,文中介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们一定要看完!Python主要用来做什么Python主要应用于:1、web开发;2、数据科学研究;3、网络爬虫;4、嵌入式应用开

这篇文章主要介绍python如何爬取智能翻页批量下载文件,文中介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们一定要看完!

Python主要用来做什么

Python主要应用于:1、web开发;2、数据科学研究;3、网络爬虫;4、嵌入式应用开发;5、游戏开发;6、桌面应用开发。

python爬虫遇到爬取文件内容时,需要一页页的翻页爬取,这样很是麻烦,其实可以获取每个列表信息下的文件名和文件链接,让文件名和文件链接处理为列表,保存后下载,实现智能翻页批量下载文件,本文以以京客隆为例,批量下载文件,如财务资料,他的每一份报告都是一份pdf格式的文档。以此页面为目标,下载他每个分类的文件python爬虫实战之智能翻页批量下载文件。

1、引入库

import requestsimport pandas as pdfrom lxml import etreeimport reimport os

2、解析初始页面

baseUrl ='Http://www.jkl.com.cn/cn/invest.aspx'  # 爬取页面的数据heade ={'user-agent': 'Mozilla/5.0 (windows NT 10.0; Win64; x64) AppleWEBKit/537.36 (Khtml, like Gecko) Chrome/81.0.4044.92 Safari/537.36'}res =requests.get(url=baseUrl,headers=heade).text   # print(res.text)html = etree.HTML(res)res =requests.get(url=baseUrl,headers=heade).text   #   设置变量接受 基础页的响应数据# print(res.text)html = etree.HTML(res)

3、获得投资关系的分类名称和url地址

data_name = html.xpath('//div[@class="infoLis"]//a/text()') # 投资者列表的名字data_link = html.xpath('//div[@class="infoLis"]//@href')    # 全部列表的链接name = [data_name.strip() for data_name in data_name]   # 通过for循环去掉空字符link = ['http://www.jkl.com.cn/cn/'+ data_link for data_link in data_link]  # 拼接字符串# 合并为字典,方便保存文件file = dict(zip(name,link))

4、每个列表信息,保存一个文件夹

for name,link in file.items():    name=name.replace('/','.')    name=name.replace('...','报表')    # 上面的把文件名带特许字符的 强制转换为我们想要的文本类型    path = 'E:/'+ name    if not os.path.exists(path):        os.mkdir(path)        #建立储存位置

5、对列表的每个项目链接进行解析,拿到尾页

    res_list = requests.get(url = link, headers = heade).text    list_html = etree.HTML(res_list)    # print(html_erJi) 解析每个分类的链接    weiYe = list_html.xpath('//a[text()="尾页"]/@href')    # print(html_weiye)    # 拿到尾页信息    if weiYe !=[]:        # 正则提取尾页信息        get_weiYe =re.search("(\d+)'\)",html_weiye[0])        get_yeMa = get_html_weiYe.group(1)    else:        get_yeMa=1    # print(get_html_yeMa)  看看是不是提取成功

6、获取每个列表信息下的文件名和文件链接

    for get_yeMa in range(1,int(get_yeMa)+1): # 翻页        yaMa= {        '__EVENTTARGET': 'AspNetPager1',        '__EVENTARGUMENT': get_yeMa        }        get_lei_html = requests.get(url = link, headers = heade, params = yaMa).text        res3 =etree.HTML(get_lei_html)        # print(res3)        pdf_name = res3.xpath('//div[@class="newsLis"]//li/a/text()')        # print(pdf_name)        pdf_url = res3.xpath('//div[@class="newsLis"]//li//@href')

7、让文件名和文件链接处理为列表,保存后下载

  pdf_names = [pdf_name.strip() for pdf_name in pdf_name]  # print(pdf_names)  if all(pdf_url):            pdf_urls = ['http://www.jkl.com.cn'+pdf_url for pdf_url in pdf_url]            # print(pdf_url)            pdf_data=dict(zip(pdf_names,pdf_urls))   # pdf地址和名字整合为字典            for pdfName,pdfUrl in pdf_data.items():                pdfName =pdfName.replace('/','.')                res_pdf= requests.get(url =pdfUrl,headers=heade).content                houZui = pdfUrl.split('.')[-1]                pdf_pash = path + '/' + pdfName + '.'+ houZui    #                 # print(pdf_pash)                with open(pdf_pash,'wb') as f:                    f.write(res_pdf)                    print(pdfName,'下载成功')

以上是“python如何爬取智能翻页批量下载文件”这篇文章的所有内容,感谢各位的阅读!希望分享的内容对大家有帮助,更多相关知识,欢迎关注编程网Python频道!

--结束END--

本文标题: python如何爬取智能翻页批量下载文件

本文链接: https://www.lsjlt.com/news/272677.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑,方便收藏和打印~

下载Word文档
猜你喜欢
  • python如何爬取智能翻页批量下载文件
    这篇文章主要介绍python如何爬取智能翻页批量下载文件,文中介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们一定要看完!Python主要用来做什么Python主要应用于:1、Web开发;2、数据科学研究;3、网络爬虫;4、嵌入式应用开...
    99+
    2023-06-14
  • python如何爬取自动下载网页音频文件
    小编给大家分享一下python如何爬取自动下载网页音频文件,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获,下面让我们一起去了解一下吧!python是什么意思Python是一种跨平台的、具有解释...
    99+
    2023-06-14
  • python批量下载文件
    #!/usr/bin/python # _*_ coding: utf-8 _*_ ''' Created on 2018年8月22日 ''' import urllib import urllib2 import re req = ...
    99+
    2023-01-31
    批量 文件 python
  • Python批量爬虫下载PDF文件代码实现
    本文的背景是:大学关系很好的老师问我能不能把Excel中1000个超链接网址对应的pdf文档下载下来。虽然可以手动一个一个点击下载,但是这样太费人力和时间了。我想起了之前的爬虫经验,给老师分析了一下可...
    99+
    2023-09-27
    python 爬虫 pdf
  • 如何用wasfile.zip智能批量删除文件
    本篇内容介绍了“如何用wasfile.zip智能批量删除文件”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!软件可以智能的比较两个文件的创建时...
    99+
    2023-06-09
  • python爬取网页如何创建文件
    要在Python中爬取网页并创建文件,可以按照以下步骤进行:1. 导入必要的库:```pythonimport requests``...
    99+
    2023-09-15
    python
  • linux如何批量下载网页资源
    这篇文章主要介绍了linux如何批量下载网页资源,具有一定借鉴价值,感兴趣的朋友可以参考下,希望大家阅读完这篇文章之后大有收获,下面让小编带着大家一起了解一下。如何批量下载网页资源有时,同事会通过网页的形式分享文件下载链接,在 Linux ...
    99+
    2023-06-27
  • SpringMVC+Ajax如何实现文件批量上传和下载功能
    小编给大家分享一下SpringMVC+Ajax如何实现文件批量上传和下载功能,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获,下面让我们一起去了解一下吧!上传form:<form ...
    99+
    2023-06-08
  • Java实现批量下载选中文件功能
    小编给大家分享一下Java实现批量下载选中文件功能,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获,下面让我们一起去了解一下吧!1.在action中定义变量 private ...
    99+
    2023-05-30
    java 下载文件
  • 如何用Python爬取各Android市场应用下载量
    如何用Python爬取各Android市场应用下载量,针对这个问题,这篇文章详细介绍了相对应的分析和解答,希望可以帮助更多想解决这个问题的小伙伴找到更简单易行的方法。文章目录前言设计一个函数构造要爬取的网址确定要爬取的内容的位置构建输入和调...
    99+
    2023-06-17
  • python批量下载文件的方法是什么
    在Python中,可以使用requests库来批量下载文件。以下是一个简单的示例代码: import requests file_...
    99+
    2024-04-02
  • win10如何批量下载网页中图片
    本篇内容介绍了“win10如何批量下载网页中图片”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!首先要在电脑上安装迅雷打开电脑,打开自带的Ed...
    99+
    2023-07-01
  • nodejs如何制作爬虫实现批量下载图片
    小编给大家分享一下nodejs如何制作爬虫实现批量下载图片,希望大家阅读完这篇文章之后都有所收获,下面让我们一起去探讨吧!今天想获取一大批猫的图片,然后就在360流浪器搜索框中输入 猫 ,然后点击图片。就看...
    99+
    2024-04-02
  • python如何批量翻译excel表格中的英文
    这篇文章主要介绍“python如何批量翻译excel表格中的英文”,在日常操作中,相信很多人在python如何批量翻译excel表格中的英文问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”python如何批量翻...
    99+
    2023-07-05
  • 如何使用FTP命令批量自动下载bat文件
    这篇文章主要介绍“如何使用FTP命令批量自动下载bat文件”,在日常操作中,相信很多人在如何使用FTP命令批量自动下载bat文件问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”如何使用FTP命令批量自动下载ba...
    99+
    2023-06-09
  • Python批量下载ts视频文件,并用ffmpeg合并
    目录 一、ts文件的由来 二、下载ts文件 1.下载index.m3u8,并做相应处理 2.下载ts文件 三、ffmpeg合并ts文件 一、ts文件的由来 ts文件,ts即"Transport Stream"的缩写,特点就是要求从视频流...
    99+
    2023-09-06
    python
  • JS如何实现单个或多个文件批量下载
    这篇文章主要介绍了JS如何实现单个或多个文件批量下载的相关知识,内容详细易懂,操作简单快捷,具有一定借鉴价值,相信大家阅读完这篇JS如何实现单个或多个文件批量下载文章都会有所收获,下面我们一起来看看吧。单个文件Download方案一:loc...
    99+
    2023-07-05
  • python实现批量提取指定文件夹下同类型文件
    本文通过实例为大家分享了python实现批量提取指定文件夹下同类型文件,供大家参考,具体内容如下 代码 import os import shutil def take_sa...
    99+
    2024-04-02
  • python如何爬取影视网站下载链接
    这篇文章主要介绍python如何爬取影视网站下载链接,文中介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们一定要看完!运行效果导入模块import requests,refrom requests.cookies&n...
    99+
    2023-06-15
  • Linux下如何批量重命名文件
    这篇文章给大家分享的是有关Linux下如何批量重命名文件的内容。小编觉得挺实用的,因此分享给大家做个参考,一起跟随小编过来看看吧。在 Linux 中,我们对文件进行重命名一般都会使用到 mv 命令,这在对单个文件重命名时非常方便。但是,若我...
    99+
    2023-06-27
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作