python批量爬取文档

批量文档 python 2023-01-30 23:01:32 274人浏览薄情痞子

Python 官方文档：入门教程 => 点击学习

摘要

　　最近项目需要将批量链接中的pdf文档爬下来处理，根据以下步骤完成了任务：将批量下载链接copy到text中，每行1个链接；再读txt文档构造url_list列表，利用readlines返回以行为单位的列表；利用str的rstr

　　最近项目需要将批量链接中的pdf文档爬下来处理，根据以下步骤完成了任务：

将批量下载链接copy到text中，每行1个链接；
再读txt文档构造url_list列表，利用readlines返回以行为单位的列表；
利用str的rstrip方法，删除 string 字符串末尾的指定字符（默认为空格）；
调用getFile函数：
1. 通过指定分隔符‘/’对字符串进行切片，取list的最后一列即链接文档名作为下载文件名。
2. 调用urlopen,调用read、write方法完成下载

　　参考资料：

https://blog.csdn.net/zhrq95/article/details/79300411
Https://blog.csdn.net/yllifesong/article/details/81044619

 1 import urllib.request
 2 import os
 3 
 4 def getFile(url):
 5     file_name = url.split('/')[-1]
 6     u = urllib.request.urlopen(url)
 7     f = open(file_name, 'wb')
 8     block_sz = 8192
 9     while True:
10         buffer = u.read(block_sz)
11         if not buffer:
12             break
13         f.write(buffer)
14     f.close()
15     print("Sucessful to download" + " " + file_name)
16 
17 os.chdir(os.path.join(os.getcwd(), 'pdf_download'))
18 
19 f=open('E:/VGID_Text/url_list.txt')
20 url_list=f.readlines()
21 url_lst=[]
22 for line in url_list:
23     line=line.rstrip("\n")
24     getFile(line)

您可能感兴趣的文档:

点击免费下载>>软考高级考试备考技巧/历年真题/备考精华资料

--结束END--

本文标题: python批量爬取文档

本文链接: https://www.lsjlt.com/news/181378.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑，方便收藏和打印～

下载Word文档

去做题

猜你喜欢

python批量爬取文档

　　最近项目需要将批量链接中的pdf文档爬下来处理，根据以下步骤完成了任务：将批量下载链接copy到text中，每行1个链接；再读txt文档构造url_list列表，利用readlines返回以行为单位的列表；利用str的rstr...

99+

2023-01-30

批量文档 python
Python爬虫之爬取某文库文档数据

目录一、基本开发环境二、相关模块的使用三、目标网页分析四、整体思路五、爬虫代码实现六、写入文档一、基本开发环境 Python 3.6 Pycharm 二、相关模块的使用 impo...

99+

2024-04-02
python爬虫怎么批量爬取百度图片

这篇文章将为大家详细讲解有关python爬虫怎么批量爬取百度图片，小编觉得挺实用的，因此分享给大家做个参考，希望大家阅读完这篇文章后可以有所收获。Python主要用来做什么Python主要应用于：1、Web开发；2、数据科学研究；3、网络爬...

99+

2023-06-14
python如何爬取智能翻页批量下载文件

这篇文章主要介绍python如何爬取智能翻页批量下载文件，文中介绍的非常详细，具有一定的参考价值，感兴趣的小伙伴们一定要看完！Python主要用来做什么Python主要应用于：1、Web开发；2、数据科学研究；3、网络爬虫；4、嵌入式应用开...

99+

2023-06-14
Python静态网页爬取：批量获取高清壁

前言在设计爬虫项目的时候，首先要在脑内明确人工浏览页面获得图片时的步骤一般地，我们去网上批量打开壁纸的时候一般操作如下： 1、打开壁纸网页 2、单击壁纸图（打开指定壁纸的页面） 3、选择分辨率（我们要下载高清的图） 4、保存图片实际...

99+

2023-01-31

静态批量网页
python之批量读取文件

python的os模块可以实现普遍的操作系统功能，并且和平台无关。以下为实现根目录下文件的批量读取。 os.listdir(dirname)可以列出dirname下的目录和文件，依次读取相应的文件即可。 # -*- coding...

99+

2023-01-31

批量文件 python
python-爬虫-xpath方法-批量爬取王者皮肤图片

import requestsfrom lxml import etree 获取NBA成员信息 # 发送的地址url = 'https://nba.hupu.com/stats/players'# U...

99+

2023-09-13

python 爬虫 jupyter
怎么利用Python批量爬取网页图片

你可以使用Python的requests库来发起HTTP请求，并使用BeautifulSoup库来解析HTML文档以获取图片的URL...

99+

2023-09-27

Python
使用Python怎么爬取某文库文档数据

使用Python怎么爬取某文库文档数据？相信很多没有经验的人对此束手无策，为此本文总结了问题出现的原因和解决方法，通过这篇文章希望你能解决这个问题。python是什么意思Python是一种跨平台的、具有解释性、编译性、互动性和面向对象的脚本...

99+

2023-06-14
Python实现Word文档样式批量处理

这里批量处理word文档的操作主要是通过python-docx非标准库实现的，通过定位到文档对象、再到段落、最后到一行文本从而完成针对文字对象的处理。使用pip的方式安装pyth...

99+

2024-04-02
Python一键实现PDF文档批量转Word

目录实现效果环境准备代码实现无论是在工作还是学习当中，大家都会遇到这样一个问题，将“PDF当中的内容(文本和图片)转换为Word的格式”，也就是说从只读转换成...

99+

2024-04-02
如何使用Java爬虫批量爬取图片

目录Java爬取图片爬取思路具体步骤具体代码实体类 Picture 和工具类 HeaderUtil下载类最重要的类：解析页面类 PictureSpider启动类 BootStrap...

99+

2023-05-15

Java爬虫 Java爬虫批量批量爬取图片
怎么使用Java爬虫批量爬取图片

本篇内容主要讲解“怎么使用Java爬虫批量爬取图片”，感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷，实用性强。下面就让小编来带大家学习“怎么使用Java爬虫批量爬取图片”吧!爬取思路对于这种图片的获取，其实本质上就是就是文件的下载（H...

99+

2023-07-06
python怎么批量读取文件名

在Python中，可以使用os模块来批量读取文件名。具体步骤如下：导入os模块：import os 使用os.listdir()...

99+

2024-02-29

python
python怎么批量读取dat文件

你可以使用glob模块来批量读取.dat文件。下面是一个示例代码： import glob file_list = glob.gl...

99+

2024-02-29

python
Python批量对word文档进行操作步骤

目录导读应用细节介绍导读前面几章我们以经介绍了怎么批量对excel和ppt操作今天我们说说对word文档的批量操作应用 python-docx允许您创建新文档以及对现有文档进行更...

99+

2024-04-02
Python爬虫：如何快速掌握Python爬虫核心技术，批量爬取网络图片

对于爬虫，很多伙伴首选的可能就是Python了吧，我们在学习Python爬虫的时候得有侧重点，这篇文章教大家如何快速掌握Python爬虫的核心！有不清楚的地方，可以留言！1. 概述本文主要实现一个简单的爬虫，目的是从一个百度贴吧页面下载图片...

99+

2023-06-02
pyhon爬虫—爬取原创力文档（全面解析）

目录前言环境准备一、分析网页结构判断网页为静态还是动态二、编写代码请求网址，解析数据循环获取全部数据下载文档图片三、优化代码目的实现过程补充小结前言寒假时收到了一个小任务，在百度上下载一些“规范文档”。阴...

99+

2024-04-02
Python批量爬虫下载PDF文件代码实现

本文的背景是：大学关系很好的老师问我能不能把Excel中1000个超链接网址对应的pdf文档下载下来。虽然可以手动一个一个点击下载，但是这样太费人力和时间了。我想起了之前的爬虫经验，给老师分析了一下可...

99+

2023-09-27

python 爬虫 pdf
Elasticsearch文档批量操作的方法

本篇内容介绍了“Elasticsearch文档批量操作的方法”的有关知识，在实际案例的操作过程中，不少人都会遇到这样的困境，接下来就让小编带领大家学习一下如何处理这些情况吧！希望大家仔细阅读，能够学有所成！Elasticsearch的文档操...

99+

2023-06-30