iis服务器助手广告
返回顶部
首页 > 资讯 > 后端开发 > Python >Python实现复制文档数据
  • 827
分享到

Python实现复制文档数据

Python复制文档数据Python文档数据 2022-12-14 15:12:29 827人浏览 泡泡鱼

Python 官方文档:入门教程 => 点击学习

摘要

目录前言环境使用模块使用基本思路流程一. 分析数据来源二. 代码实现步骤代码展示前言 我们百度搜索一些东西得时候,经常找到文档里面 然后就会发现需要充值才能复制!怎么可以不花钱也保存

前言

我们百度搜索一些东西得时候,经常找到文档里面

然后就会发现需要充值才能复制!怎么可以不花钱也保存呢?

今天就分享给大家一个python获取文档数据得方法

环境使用

Python 3.8

PyCharm

模块使用

requests >>> 数据请求模块 pip install requests

docx >>> 文档保存 pip install python-docx

re 内置模块 不需要安装

ctrl + R : 首先你得看得数据, 才能想办法获取

安装python第三方模块

win + R 输入 cmd 点击确定, 输入安装命令 pip install 模块名 (pip install requests) 回车

在pycharm中点击Terminal(终端) 输入安装命令

基本思路流程

一. 分析数据来源

找文档数据内容, 是在那个url里面生成的

通过开发工具进行抓包分析

1.打开开发者工具: F12 / 鼠标右键点击检查选择network

2.刷新网页: 让本网页数据内容重新加载一遍

如果你是非VIP账号, 看数据, 图片形式 —> 把数据<图片> 获取下来 —> 做文字识别

3.分析文库数据内容, 图片所在地址

获取所有图片内容: 文库数据 --> 图片形式 —> 所有图片内容保存下载

文字识别, 把图片文字识别出来, 保存Word文档里面

二. 代码实现步骤

1.发送请求, 模拟浏览器对于url地址发送请求

图片数据包

2.获取数据, 获取服务器返回响应数据

开发者工具: response

3.解析数据, 提取图片链接地址

4.保存数据, 把图片内容保存到本地文件夹

5.做文字识别, 识别文字内容

6.把文字数据信息, 保存word文档里面

代码展示

# 导入数据请求模块
import requests
# 导入格式化输出模块
from pprint import pprint
# 导入base64
import base64
# 导入os模块
import os
# 导入文档模块
from docx import Document
# 导入正则
import re
# 导入JSON
import json

文字识别:

  • 注册一个百度云api账号
  • 创建应用 并且去免费领取资源
  • 在技术文档里面 Access Token获取
  • 调用API接口去做文字识别
def get_content(file):
    # client_id 为官网获取的AK, client_secret 为官网获取的SK
    host = 'https://aip.****.com/oauth/2.0/token?grant_type=client_credentials&client_id=Gu7BGsfoKFZjLGvOKP7WezYv&client_secret=rGa2v2FcVnxBDFlerSW5H0D2eO7nRxdp'
    response = requests.get(host)
    access_token = response.json()['access_token']
    '''
    通用文字识别(高精度版)
    '''
    request_url = "Https://aip.****.com/rest/2.0/ocr/v1/accurate_basic"
    # 二进制方式打开图片文件
    f = open(file, 'rb')
    img = base64.b64encode(f.read())
    params = {"image":img}
    request_url = request_url + "?access_token=" + access_token
    headers = {'content-type': 'application/x-www-fORM-urlencoded'}
    json_data = requests.post(request_url, data=params, headers=headers).json()
    # 列表推导式
    words = '\n'.join([i['words'] for i in json_data['words_result']])
    return words
# # 读取文件夹里面所有图片内容
# content_list = []
# files = os.listdir('img\\')
# for file in files:
#     filename = 'img\\' + file
#     words = get_content(file=filename)
#     print(words)
#     content_list.append(words)
#
# # 保存word文档里面
# doc = Document()
# # 添加第一段文档内容
# content = '\n'.join(content_list)
# doc.add_paragraph(content)
# doc.save('data.docx')
link = 'https://wenku.****.com/aggs/74d1a923482fb4daa58d4b8e?index=0&_wkts_=1670327737660&bdQuery=%E7%AD%94%E9%A2%98'
# 请求头
headers = {
    'User-Agent': 'Mozilla/5.0 (windows NT 10.0; WOW64) AppleWEBKit/537.36 (Khtml, like Gecko) Chrome/101.0.0.0 Safari/537.36'
}
html_data = requests.get(url=link, headers=headers).text
json_data = json.loads(re.findall('var pageData = (.*?);', html_data)[0])
pprint(json_data)
for j in json_data['aggInfo']['docList']:
    name = j['title']  # 名字
    score = j['score'] # 评分
    viewCount = j['viewCount'] # 阅读量
    downloadCount = j['downloadCount'] # 下载量
    docId = j['docId'] # 数据包ID

1.发送请求, 模拟浏览器对于url地址发送请求

长链接, 可以分段写

问号前面: url链接

问号后面: 请求参数/查询参数

    # 确定请求链接
    url = 'https://wenku.****.com/gsearch/rec/pcviewdocrec'
    # 请求参数
    data = {
        'docId': docId,
        'query': name,
        'recPositions': ''
    }
    # 请求头
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.0.0 Safari/537.36'
    }
    #发送请求
    response = requests.get(url=url, params=data, headers=headers)
    # <Response [200]> 响应对象, 200 表示请求成功
    print(response)

2.获取数据, 获取服务器返回响应数据

开发者工具: response

  • response.json() 获取响应json字典数据, 但是返回数据必须是完整json数据格式 花括号 {}
  • response.text 获取响应文本数据, 返回字符串 任何时候都可以, 但是基本获取网页源代码的时候
  • response.content 获取响应二进制数据, 返回字节 保存图片/音频/视频/特定格式文件
  • print(response.json()) 打印字典数据, 呈现一行
  • pprint(response.json()) 打印字典数据, 呈现多行, 展开效果

3.解析数据, 提取图片链接地址

字典取值: 键值对 根据冒号左边内容[键], 提取冒号右边的内容[值]

    # 定义文件名 整型
    num = 1
    # for循环遍历, 把列表里面元素一个一个提取出来
    for index in response.json()['data']['relateDoc']:
        # index 字典呀
        pic = index['pic']
        print(pic)
        # # 4. 保存数据  发送请求 + 获取数据 二进制数据内容
        # img_content = requests.get(url=pic, headers=headers).content
        # # 'img\\'<文件夹名字> + str(num)<文件名> + '.jpg'<文件后缀>  mode='wb' 保存方式, 二进制保存
        # # str(num) 强制转换成 字符串
        # # '图片\\' 相对路径, 相对于你代码的路径 你代码在那个地方, 那个代码所在地方图片文件夹
        # with open('图片\\' + str(num) + '.jpg', mode='wb') as f:
        #     # 写入数据 保存数据  把图片二进制数据保存
        #     f.write(img_content)
        # # 每次循环 + 1
        # print(num)
        # num += 1

以上就是Python实现复制文档数据的详细内容,更多关于Python复制文档数据的资料请关注编程网其它相关文章!

--结束END--

本文标题: Python实现复制文档数据

本文链接: https://www.lsjlt.com/news/174865.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑,方便收藏和打印~

下载Word文档
猜你喜欢
  • Python实现复制文档数据
    目录前言环境使用模块使用基本思路流程一. 分析数据来源二. 代码实现步骤代码展示前言 我们百度搜索一些东西得时候,经常找到文档里面 然后就会发现需要充值才能复制!怎么可以不花钱也保存...
    99+
    2022-12-14
    Python复制文档数据 Python 文档数据
  • python 复制文件实现
    使用python实现对文件夹的复制操作file类中没有提供专门的文件复制函数,因此只能通过使用文件的读写函数来实现文件的复制。这里仅仅给出范例:...
    99+
    2023-06-02
  • Python:实现文件归档
    实现功能: 将E:\123文件备份至E:\backup 文件夹下,以当前的日期为子目录存放备份后的文件 1 #! /usr/bin/python 2 #Filename:backup.py 3 #功能说明:备份文件,以当前日期为子目录存...
    99+
    2023-01-31
    文件 Python
  • 深入理解Go语言文档中的io.Copy函数实现文件复制
    深入理解Go语言文档中的io.Copy函数实现文件复制,需要具体代码示例Go语言是一门开源的静态类型编程语言,它以简洁、高效、并发安全的特点而备受开发者青睐。在Go语言的标准库中,io包是一个非常重要的包,它提供了一组用于I/O操作的函数和...
    99+
    2023-11-03
    Go语言 文件复制 关键词: ioCopy函数
  • mssql数据同步怎么实现数据复制
    本篇文章为大家展示了mssql数据同步怎么实现数据复制,内容简明扼要并且容易理解,绝对能使你眼前一亮,通过这篇文章的详细介绍希望你能有所收获。 一 配置发布服务器 在发布服务器...
    99+
    2024-04-02
  • Java 实现文件复制及文件夹复制
    在Java中,有多种方法可以实现文件的复制。以下是几种常用的方式: 使用字节流进行复制: 通过FileInputStream和FileOutputStream分别创建源文件和目标文件的输入输出流,然后通过循环读取源文件内容,并将数据写入目标...
    99+
    2023-09-26
    java 开发语言
  • 学习Go语言文档中的encoding/binary.Write函数实现二进制数据写入
    学习Go语言文档中的encoding/binary.Write函数实现二进制数据写入Go语言是一种静态类型的编译型语言,它具有良好的性能和简洁的语法。在Go语言中,可以使用encoding/binary包中的Write函数来实现对二进制数据...
    99+
    2023-11-03
    关键词:Go语言 encoding/binary Write函数 二进制数据写入
  • 深入理解Go语言文档中的io.CopyN函数实现限定字节数的文件复制
    深入理解Go语言文档中的io.CopyN函数实现限定字节数的文件复制Go语言中的io包提供了许多用于处理输入输出流的函数和方法。其中一个非常实用的函数是io.CopyN,它可以实现限定字节数的文件复制。本文将深入理解这个函数,并提供具体的代...
    99+
    2023-11-03
    深入理解 关键词: ioCopyN函数 限定字节数的文件复制
  • 深入理解Go语言文档中的io.CopyBuffer函数实现带缓冲的文件复制
    Go语言的标准库中提供了很多IO操作相关的函数,其中有一个io.CopyBuffer函数可以实现带缓冲的文件复制。在本文中,我们将深入理解io.CopyBuffer函数的实现原理,并提供具体代码示例。一、函数介绍io.CopyBuffer函...
    99+
    2023-11-03
    Go语言 文件复制 ioCopyBuffer
  • Python+OpenCV实战之实现文档扫描
    目录1.效果展示2.项目准备3.代码的讲解与展示4.项目资源5.项目总结与评价1.效果展示 网络摄像头扫描:   图片扫描:  最终扫描保存的图片: &n...
    99+
    2024-04-02
  • 用Python实现给Word文档盖章
    目录模块分解设置加粗功能块练习知识归纳与总结总结目标文件夹内有多份 Word 文件 ——【xxx涨薪通告.docx】,我们需要在这些文档的末尾处添加公司的电子...
    99+
    2024-04-02
  • Python爬虫之爬取某文库文档数据
    目录一、基本开发环境二、相关模块的使用三、目标网页分析四、整体思路五、爬虫代码实现六、写入文档一、基本开发环境 Python 3.6 Pycharm 二、相关模块的使用 impo...
    99+
    2024-04-02
  • mysql数据归档怎么实现
    实现MySQL数据归档可以通过以下几种方法: 分区表:MySQL支持将表按照特定的列或表达式进行分区,可以根据时间范围将数据分散到...
    99+
    2024-04-09
    mysql
  • 用python生成mysql数据库结构文档
    最近因为项目原因需要编写数据库设计文档,但是由于数据表太多,手动编写耗费的时间太久,所以搞了一个简单的脚本快速生成数据库结构,保存到word文档中。 安装pymysql和docume...
    99+
    2024-04-02
  • vue实现复制文字复制图片实例详解
    目录正文方法复制文本复制图片正文 复制文字和图片是我们经常会使用到的需求,我们这篇文章主要介绍使用navigator.clipboard.write()来实现复制文字和图片。不过这...
    99+
    2023-02-23
    vue复制文字图片 vue 复制
  • sqllite数据库中怎么实现表复制
    这篇文章给大家介绍sqllite数据库中怎么实现表复制,内容非常详细,感兴趣的小伙伴们可以参考借鉴,希望对大家能有所帮助。1.通过sql lite打开目的库,然后选中目的库右键,弹出有个date trans...
    99+
    2024-04-02
  • 使用Python怎么爬取某文库文档数据
    使用Python怎么爬取某文库文档数据?相信很多没有经验的人对此束手无策,为此本文总结了问题出现的原因和解决方法,通过这篇文章希望你能解决这个问题。python是什么意思Python是一种跨平台的、具有解释性、编译性、互动性和面向对象的脚本...
    99+
    2023-06-14
  • python读取word文档表格里的数据
    首先需要安装相应的支持库: 直接在命令行执行pip install python-docx 示例代码如下: import docx from docx import Document #导入库 path = "E:\\pyt...
    99+
    2023-01-31
    表格 文档 数据
  • Python中怎么操作MongoDB文档数据库
    Python中怎么操作MongoDB文档数据库,相信很多没有经验的人对此束手无策,为此本文总结了问题出现的原因和解决方法,通过这篇文章希望你能解决这个问题。1.Pymongo 安装安装pymongo:pip install&nbs...
    99+
    2023-06-02
  • 基于Python实现网页文章转PDF文档
    我们有时候看到一篇好的文章,想去保存下来,传统方式一般是收藏书签、复制粘贴到文档或者直接复制链接保存,但这样一次两次还好,数量多了,比较麻烦不说,还可能不好找~ 这个时候,Pyth...
    99+
    2024-04-02
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作