广告
返回顶部
首页 > 资讯 > 后端开发 > Python >如何使用Python+ChatGPT批量生成论文
  • 768
分享到

如何使用Python+ChatGPT批量生成论文

Python ChatGPT批量生成论文Python ChatGPT批量生成 2023-02-27 11:02:28 768人浏览 泡泡鱼

Python 官方文档:入门教程 => 点击学习

摘要

目录用python+ChatGPT批量生成论文概述下载论文pdf转文本用GPT-3生成概述输出概述集成测试总结用Python+ChatGPT批量生成论文概述 做算法研究离不开阅读大量

Python+ChatGPT批量生成论文概述

算法研究离不开阅读大量论文。从海量论文中找到需要的论文往往耗费算法团队不少的精力。

ChatGPT官方例子中有一个“TL;DR”摘要生成,非常适合生成论文摘要。

在这里插入图片描述

于是我用python+GPT-3 api开发了一个工具,可以直接从arxiv地址生成论文概述。实现步骤如下:

下载论文

第一步,我们要先拿到论文正文。

从arxiv上下载论文非常简单,如果你知道论文编号(比如2302.08996),那么论文的pdf下载地址为:https://arxiv.org/pdf/[论文编号].pdf。我们只需要发起网络请求即可将论文下载到本地。

我这里使用requests库发起网络请求,你可以使用任何你喜欢库完成论文下载。

def download_paper(paper_id: str, file_name: Optional[str] = None) -> Optional[str]:
    """ 根据论文id将论文下载到本地

    Parameters
    -----------
    paper_id: str
        论文id
    file_name: Optional[str]
        本地文件名,如果为空则用论文id做文件名

    Returns
    -------
    result: Optional[str]
        论文下载结果。成功则返回本地文件路径,失败则返回None
    """
    paper_url = f"Https://arxiv.org/pdf/{paper_id}.pdf"
    if not file_name:
        file_name = f"{paper_id}.pdf"

    res = requests.get(url=paper_url)
    if res.status_code == 200:
        with open(file_name, "wb") as f:
            f.write(res.content)
            return file_name
    return None

pdf转文本

ChatGPT只接受文本输入,所以拿到论文后,我们需要将pdf格式的论文转换为纯文本。这里给大家推荐一个好用的pdf转文本库——pdfplumber

pdfplumber使用非常简单,只要打开文件,即可通过pdfplumber.pages获取到每一页pdf内容。然后调用pdfplumber.Page类的extract_text()方法就能提取页面的文本。示例代码如下:

def pdf2txt(file_name: str | pdfplumber.PDF, page_start: int, page_end: int) -> str:
    """

    Parameters
    -----------
    file_name: str | pdfplumber.PDF
        pdf文件路径或pdfplumber.PDF实例
    page_start: int
        要转换的起始页页码
    page_end: int
        要转换的结束页页码

    Returns
    -------
    content: str
        转换后的文本
    """
    content = ""
    if isinstance(file_name, str):
        pages = pdfplumber.open(file_name).pages
    elif isinstance(file_name, pdfplumber.PDF):
        pages = file_name.pages
    else:
        raise AttributeError("需要传入pdf路径或PDF对象")
    for page in pages[page_start:page_end]:
        content += page.extract_text()
    return content

上面的代码会逐页提取给定pdf文档指定页码范围内的内容并返回。

用GPT-3生成概述

有了文本,我们就可以用ChatGPT来生成概述了。

首先我们导入openai库,并配置好参数:

import openai

openai.api_key = "YOUR_API_KEY"

TLDRParameter = {
    "model": "text-davinci-003",
    "max_tokens": 2048,
    "temperature": 0.3,
    "top_p": 1.0,
    "frequency_penalty": 0.0,
    "presence_penalty": 0.0,
    "stop": ["\n\n"]
}

tldr_tag = "\n\n tl;dr:" # 给ChatGPT明确的文本补全意图

这里的tldr_tag需要稍微解释一下,这段字符串会添加在我们论文文本的末尾,用于提示ChatGPT我们要做的是上面文本的摘要。为了让ChatGPT能够将论文内容和我们给出的提示区分开来,在参数中我们设置了stop,用于告诉ChatGPT输入到哪里结束。

输出概述

ChatGPT对输入长度是有限制的,因此我们不能一次性将整个论文内容输入进去,需要一页一页得输入并生成每一页的概述。

pages = pdfplumber.open(file_name).pages
for p in pages:
    content = p.extract_text() + tldr_tag
    response = openai.Completion.create(prompt=content, **TLDRParameter)
    print(f"Page1 {index + 1}:\n")
    print(response["choices"][0]["text"])
    print("\n\n")

集成测试

将上面的代码集成到一起,我们就可以得到一个完整可用的论文概述工具

import requests
import pdfplumber
import openai
from typing import Optional

openai.api_key = "YOUR_API_KEY"

TLDRParameter = {
    "model": "text-davinci-003",
    "max_tokens": 2048,
    "temperature": 0.3,
    "top_p": 1.0,
    "frequency_penalty": 0.0,
    "presence_penalty": 0.0,
    "stop": ["\n"]
}

tldr_tag = "\ntl;dr:"


def download_paper(paper_id: str, file_name: Optional[str] = None) -> Optional[str]:
    """ 根据论文id将论文下载到本地

    Parameters
    -----------
    paper_id: str
        论文id
    file_name: Optional[str]
        本地文件名,如果为空则用论文id做文件名

    Returns
    -------
    result: Optional[str]
        论文下载结果。成功则返回本地文件路径,失败则返回None
    """
    paper_url = f"https://arxiv.org/pdf/{paper_id}.pdf"
    if not file_name:
        file_name = f"{paper_id}.pdf"

    res = requests.get(url=paper_url)
    if res.status_code == 200:
        with open(file_name, "wb") as f:
            f.write(res.content)
            return file_name
    return None


if __name__ == '__main__':
    file_name = download_paper('2302.08996')
    pages = pdfplumber.open(file_name).pages
    for index, page in enumerate(pages):
        content = page.extract_text() + tldr_tag
        response = openai.Completion.create(prompt=content, **TLDRParameter)
        print(f"Page {index + 1}:\n")
        print(response["choices"][0]["text"])
        print("\n\n")

我用最新发出的2302.08996做测试,输出如下:

Page 1:

 We employ meta reinforcement learning to model short-duration trading in financial markets as a sequential decision-making problem. We incorporate symbolic features based on frequently occurring patterns in price series to improve the perfORMance of our meta-RL alGorithm. Preliminary results on real data indicate that meta-RL and logical features are more effective than vanilla RL or primary price features alone.
Page 2:
 Meta-learning techniques, such as Inductive Logic Programming (ILP) and RL2, can be used to train a trading agent on a new task with limited data.
Page 3:
 We propose a meta-RL agent that can rapidly adapt to new reward patterns. We use PPO to train the agent and an LSTM agent. We also use hand-crafted features and learned logical features to augment the agent's neural network model. Results show that the agent outperforms vanilla reinforcement learning.
Page 4:

上面每一页的输出都很好地概括了该页的核心内容,其中第四页为空是因为这一页绝大部分内容是参考文献,ChatGPT也很聪明的没有返回概述。

总结

试用了一天,我认为模型对论文总结得很棒,用这个工具读起论文来效率大增。尽管它永远可能取代实际阅读整篇论文的重要过程,但却可以作为探索发现更广泛有趣科学的工具。

这篇文章更多的是一个概念的证明,如果想大规模用于生产还有很多细节要处理,比如pdf转换的文本的格式,按页转换文本带来得章节错位等问题。然而,我觉得这些问题都可以解决。在ChatGPT的加持下,我认为我们比以往任何时候都更高效地处理更多科学信息。

到此这篇关于用Python+ChatGPT批量生成论文的文章就介绍到这了,更多相关Python+ChatGPT批量生成论文内容请搜索编程网以前的文章或继续浏览下面的相关文章希望大家以后多多支持编程网!

--结束END--

本文标题: 如何使用Python+ChatGPT批量生成论文

本文链接: https://www.lsjlt.com/news/197609.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑,方便收藏和打印~

下载Word文档
猜你喜欢
  • 如何使用Python+ChatGPT批量生成论文
    目录用Python+ChatGPT批量生成论文概述下载论文pdf转文本用GPT-3生成概述输出概述集成测试总结用Python+ChatGPT批量生成论文概述 做算法研究离不开阅读大量...
    99+
    2023-02-27
    Python ChatGPT批量生成论文 Python ChatGPT批量生成
  • 怎么使用Python+ChatGPT批量生成论文
    这篇文章主要介绍了怎么使用Python+ChatGPT批量生成论文的相关知识,内容详细易懂,操作简单快捷,具有一定借鉴价值,相信大家阅读完这篇怎么使用Python+ChatGPT批量生成论文文章都会有所收获,下面我们一起来看看吧。用Pyth...
    99+
    2023-07-05
  • 教你使用Python根据模板批量生成docx文档
    目录一、需求说明二、实验准备三、代码实现四、实验结果一、需求说明 能够根据模板批量生成docx文档。具体而言,读取excel中的数据,然后使用python批量生成docx文档。 二、...
    99+
    2022-11-12
  • 使用python批量生成insert语句的方法
    1.建表语句 2.目标insert语句 INSERT INTO `bidprcu_dic_a`( `DIC_ID`, `DIC_TYPE_CODE`, `DIC_TYP...
    99+
    2022-11-12
  • 如何使用VBS调用Photoshop批量生成缩略图
    这篇文章给大家分享的是有关如何使用VBS调用Photoshop批量生成缩略图的内容。小编觉得挺实用的,因此分享给大家做个参考,一起跟随小编过来看看吧。模仿腾讯新闻页,给KingCms添加了新闻页图片点播的代码,代码要求的图片点播格式如下:0...
    99+
    2023-06-08
  • 怎么在python中使用faker库批量生成假数据
    这篇文章将为大家详细讲解有关怎么在python中使用faker库批量生成假数据,文章内容质量较高,因此小编分享给大家做个参考,希望大家阅读完这篇文章后对相关知识有一定的了解。faker使用方法基本使用faker使用起来非常简单,我们看一下就...
    99+
    2023-06-08
  • Python如何用str.format()批量生成网址(豆瓣读书为例)
    目录1 用法说明1.1 写法1.2 举例2 应用:豆瓣读书2.1 初步2.2 分析URL2.3 生成参考链接:1 用法说明 str.format() 方法通过字符串中的花括号 {} ...
    99+
    2022-11-12
  • 如何使用批处理文件生成文件列表清单
    小编给大家分享一下如何使用批处理文件生成文件列表清单,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获,下面让我们一起去了解一下吧!方法:先进入文件目录下,建立一个.txt格式的纯文档文件。在这个...
    99+
    2023-06-08
  • python如何批量读取.mat文件并保存成.npy
    目录python批量读取.mat文件并保存成.npypython读取.mat文件时出现错误解决总结python批量读取.mat文件并保存成.npy import numpy as n...
    99+
    2022-12-14
    python批量读取mat文件 读取mat文件保存成npy python读取mat文件
  • 如何使用Python批量对文本文件编码互转
    本文小编为大家详细介绍“如何使用Python批量对文本文件编码互转”,内容详细,步骤清晰,细节处理妥当,希望这篇“如何使用Python批量对文本文件编码互转”文章能帮助大家解决疑惑,下面跟着小编的思路慢慢深入,一起来学习新知识吧。在Wind...
    99+
    2023-07-05
  • 如何利用ChatGPT和Python实现情景生成对话功能
    如何利用ChatGPT和Python实现情景生成对话功能引言:近年来,自然语言处理技术发展迅猛,其中一项重要技术就是对话模型。OpenAI的ChatGPT是一种非常强大的对话模型,它可以理解和生成人类语言。本文将介绍如何利用ChatGPT和...
    99+
    2023-10-25
    ChatGPT Python 情景生成对话
  • 如何使用python批量修改文本文件编码格式
    使用python批量修改文本文件编码格式 把文本文件的编码格式进行批量幻化,比如ascii, gb2312, utf8等,相互转化,字符集的大小来看,utf8>gb2312&g...
    99+
    2023-03-24
    python批量修改文本文件编码格式 python批量修改文件编码
  • 如何批量检测主机IP并把结果生成excel文件表格
    如何批量检测主机IP并把结果生成excel文件表格,相信很多没有经验的人对此束手无策,为此本文总结了问题出现的原因和解决方法,通过这篇文章希望你能解决这个问题。这是对上一个脚本的扩展,增加了生成excel表格#coding=gbkimpor...
    99+
    2023-06-04
  • 一文详解如何使用Python批量拼接图片
    目录前言〇、准备工作,PIL库安装使用pip安装一、简单程序实现二、更复杂情况总结前言 当需要将多张图像拼接成一张更大的图像时,通常会用到图片拼接技术。这种技术在许多领域中都有广泛的...
    99+
    2023-05-19
    python多图拼接 python拼接图片 python图片拼图
  • python生成器如何使用
    这篇文章主要介绍“python生成器如何使用”,在日常操作中,相信很多人在python生成器如何使用问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”python生成器如何使用”...
    99+
    2022-10-19
  • 怎么使用Python根据原始Excel表格批量生成目标Excel表格
    本文小编为大家详细介绍“怎么使用Python根据原始Excel表格批量生成目标Excel表格”,内容详细,步骤清晰,细节处理妥当,希望这篇“怎么使用Python根据原始Excel表格批量生成目标Excel表格”文章能帮助大家解决疑惑,下面跟...
    99+
    2023-07-06
  • 如何利用ChatGPT和Python实现内容生成与推荐功能
    如何利用ChatGPT和Python实现内容生成与推荐功能引言:随着人工智能技术的快速发展,ChatGPT(聊天型生成对抗网络)成为了一种强大的模型,能够理解并生成人类语言。在Python编程语言的支持下,我们可以利用ChatGPT实现各种...
    99+
    2023-10-24
    ChatGPT Python 内容生成
  • python如何使用ProjectQ生成量子算法指令集
    这篇文章主要介绍python如何使用ProjectQ生成量子算法指令集,文中介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们一定要看完!输出算法操作首先介绍一个最基本的使用方法,就是使用ProjectQ来打印量子算法中所输入的量子门操作...
    99+
    2023-06-15
  • Python如何使用文件接口生成二维码?
    Python是一种高级编程语言,因其简单易学和强大的功能而被广泛使用。其中,Python的文件接口是非常强大的,可以用来处理各种文件类型,包括生成二维码。 在本文中,我们将介绍如何使用Python文件接口生成二维码。我们将首先介绍二维码的基...
    99+
    2023-10-09
    文件 接口 二维码
  • Python如何用dom模块生成XML文
    Python如何用dom模块生成XML文件呢主要方法三点:首先、生成XML节点(node)createElement("node_name")然后、给节点添加属性值(Attribute)node.setAttribute("att_name...
    99+
    2023-01-31
    如何用 模块 Python
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作