iis服务器助手广告广告
返回顶部
首页 > 资讯 > 后端开发 > Python >python批量爬取文档
  • 274
分享到

python批量爬取文档

批量文档python 2023-01-30 23:01:32 274人浏览 薄情痞子

Python 官方文档:入门教程 => 点击学习

摘要

  最近项目需要将批量链接中的pdf文档爬下来处理,根据以下步骤完成了任务: 将批量下载链接copy到text中,每行1个链接; 再读txt文档构造url_list列表,利用readlines返回以行为单位的列表; 利用str的rstr

  最近项目需要将批量链接中的pdf文档爬下来处理,根据以下步骤完成了任务:

  1. 将批量下载链接copy到text中,每行1个链接;
  2. 再读txt文档构造url_list列表,利用readlines返回以行为单位的列表;
  3. 利用str的rstrip方法,删除 string 字符串末尾的指定字符(默认为空格);
  4. 调用getFile函数:
    1. 通过指定分隔符‘/’对字符串进行切片,取list的最后一列即链接文档名作为下载文件名。
    2. 调用urlopen,调用read、write方法完成下载

  参考资料:

  • https://blog.csdn.net/zhrq95/article/details/79300411
  • Https://blog.csdn.net/yllifesong/article/details/81044619
 1 import urllib.request
 2 import os
 3 
 4 def getFile(url):
 5     file_name = url.split('/')[-1]
 6     u = urllib.request.urlopen(url)
 7     f = open(file_name, 'wb')
 8     block_sz = 8192
 9     while True:
10         buffer = u.read(block_sz)
11         if not buffer:
12             break
13         f.write(buffer)
14     f.close()
15     print("Sucessful to download" + " " + file_name)
16 
17 os.chdir(os.path.join(os.getcwd(), 'pdf_download'))
18 
19 f=open('E:/VGID_Text/url_list.txt')
20 url_list=f.readlines()
21 url_lst=[]
22 for line in url_list:
23     line=line.rstrip("\n")
24     getFile(line)

 

--结束END--

本文标题: python批量爬取文档

本文链接: https://www.lsjlt.com/news/181378.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑,方便收藏和打印~

下载Word文档
猜你喜欢
  • python批量爬取文档
      最近项目需要将批量链接中的pdf文档爬下来处理,根据以下步骤完成了任务: 将批量下载链接copy到text中,每行1个链接; 再读txt文档构造url_list列表,利用readlines返回以行为单位的列表; 利用str的rstr...
    99+
    2023-01-30
    批量 文档 python
  • Python爬虫之爬取某文库文档数据
    目录一、基本开发环境二、相关模块的使用三、目标网页分析四、整体思路五、爬虫代码实现六、写入文档一、基本开发环境 Python 3.6 Pycharm 二、相关模块的使用 impo...
    99+
    2024-04-02
  • python爬虫怎么批量爬取百度图片
    这篇文章将为大家详细讲解有关python爬虫怎么批量爬取百度图片,小编觉得挺实用的,因此分享给大家做个参考,希望大家阅读完这篇文章后可以有所收获。Python主要用来做什么Python主要应用于:1、Web开发;2、数据科学研究;3、网络爬...
    99+
    2023-06-14
  • python如何爬取智能翻页批量下载文件
    这篇文章主要介绍python如何爬取智能翻页批量下载文件,文中介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们一定要看完!Python主要用来做什么Python主要应用于:1、Web开发;2、数据科学研究;3、网络爬虫;4、嵌入式应用开...
    99+
    2023-06-14
  • Python静态网页爬取:批量获取高清壁
    前言 在设计爬虫项目的时候,首先要在脑内明确人工浏览页面获得图片时的步骤 一般地,我们去网上批量打开壁纸的时候一般操作如下: 1、打开壁纸网页 2、单击壁纸图(打开指定壁纸的页面) 3、选择分辨率(我们要下载高清的图) 4、保存图片 实际...
    99+
    2023-01-31
    静态 批量 网页
  • python之批量读取文件
    python的os模块可以实现普遍的操作系统功能,并且和平台无关。以下为实现根目录下文件的批量读取。 os.listdir(dirname)可以列出dirname下的目录和文件,依次读取相应的文件即可。 # -*- coding...
    99+
    2023-01-31
    批量 文件 python
  • python-爬虫-xpath方法-批量爬取王者皮肤图片
    import requestsfrom lxml import etree 获取NBA成员信息 # 发送的地址url = 'https://nba.hupu.com/stats/players'# U...
    99+
    2023-09-13
    python 爬虫 jupyter
  • 怎么利用Python批量爬取网页图片
    你可以使用Python的requests库来发起HTTP请求,并使用BeautifulSoup库来解析HTML文档以获取图片的URL...
    99+
    2023-09-27
    Python
  • 使用Python怎么爬取某文库文档数据
    使用Python怎么爬取某文库文档数据?相信很多没有经验的人对此束手无策,为此本文总结了问题出现的原因和解决方法,通过这篇文章希望你能解决这个问题。python是什么意思Python是一种跨平台的、具有解释性、编译性、互动性和面向对象的脚本...
    99+
    2023-06-14
  • Python实现Word文档样式批量处理
    这里批量处理word文档的操作主要是通过python-docx非标准库实现的,通过定位到文档对象、再到段落、最后到一行文本从而完成针对文字对象的处理。 使用pip的方式安装pyth...
    99+
    2024-04-02
  • Python一键实现PDF文档批量转Word
    目录实现效果环境准备代码实现无论是在工作还是学习当中,大家都会遇到这样一个问题,将“PDF当中的内容(文本和图片)转换为Word的格式”,也就是说从只读转换成...
    99+
    2024-04-02
  • 如何使用Java爬虫批量爬取图片
    目录Java爬取图片爬取思路具体步骤具体代码实体类 Picture 和 工具类 HeaderUtil下载类最重要的类:解析页面类 PictureSpider启动类 BootStrap...
    99+
    2023-05-15
    Java爬虫 Java爬虫批量 批量爬取图片
  • 怎么使用Java爬虫批量爬取图片
    本篇内容主要讲解“怎么使用Java爬虫批量爬取图片”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“怎么使用Java爬虫批量爬取图片”吧!爬取思路对于这种图片的获取,其实本质上就是就是文件的下载(H...
    99+
    2023-07-06
  • python怎么批量读取文件名
    在Python中,可以使用os模块来批量读取文件名。具体步骤如下: 导入os模块:import os 使用os.listdir()...
    99+
    2024-02-29
    python
  • python怎么批量读取dat文件
    你可以使用glob模块来批量读取.dat文件。下面是一个示例代码: import glob file_list = glob.gl...
    99+
    2024-02-29
    python
  • Python批量对word文档进行操作步骤
    目录导读应用细节介绍导读 前面几章我们以经介绍了怎么批量对excel和ppt操作今天我们说说对word文档的批量操作 应用 python-docx允许您创建新文档以及对现有文档进行更...
    99+
    2024-04-02
  • Python爬虫:如何快速掌握Python爬虫核心技术,批量爬取网络图片
    对于爬虫,很多伙伴首选的可能就是Python了吧,我们在学习Python爬虫的时候得有侧重点,这篇文章教大家如何快速掌握Python爬虫的核心!有不清楚的地方,可以留言!1. 概述本文主要实现一个简单的爬虫,目的是从一个百度贴吧页面下载图片...
    99+
    2023-06-02
  • pyhon爬虫—爬取原创力文档(全面解析)
    目录 前言环境准备一、分析网页结构判断网页为静态还是动态 二、编写代码请求网址,解析数据循环获取全部数据下载文档图片 三、优化代码目的实现过程补充 小结 前言 寒假时收到了一个小任务,在百度上下载一些“规范文档”。阴...
    99+
    2024-04-02
  • Python批量爬虫下载PDF文件代码实现
    本文的背景是:大学关系很好的老师问我能不能把Excel中1000个超链接网址对应的pdf文档下载下来。虽然可以手动一个一个点击下载,但是这样太费人力和时间了。我想起了之前的爬虫经验,给老师分析了一下可...
    99+
    2023-09-27
    python 爬虫 pdf
  • Elasticsearch文档批量操作的方法
    本篇内容介绍了“Elasticsearch文档批量操作的方法”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!Elasticsearch的文档操...
    99+
    2023-06-30
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作