返回顶部
首页 > 资讯 > 后端开发 > Python >如何使用 Synapse 从 ADLS gen2 读取 python 中的 pdf 或 pptx 或 docx 文件?
  • 702
分享到

如何使用 Synapse 从 ADLS gen2 读取 python 中的 pdf 或 pptx 或 docx 文件?

2024-02-10 10:02:50 702人浏览 薄情痞子

Python 官方文档:入门教程 => 点击学习

摘要

问题内容 我希望在 synapse 笔记本中使用 python 读取不同格式的文件。其中包括 .pdf、.pptx、.docx、.msg 和 .eml。我希望能够读取文件,然后用 Py

问题内容

我希望在 synapse 笔记本中使用 python 读取不同格式的文件。其中包括 .pdf、.pptx、.docx、.msg 和 .eml。我希望能够读取文件,然后用 Python 解析和操作它们。我能够使用不同的 python 库在数据块中做到这一点。

这就是我在 data bricks 中完成此任务的方式:

from pptx import Presentation
prs = Presentation(file_name)

# for pdf
from pypdf import PdfReader
reader = PdfReader(open(filename, 'rb'))

# Word docs
import docx
doc = docx.Document(file_name)

# .eml files
import email
msg = email.message_from_file(open(file_name))type here

# .msg files
import extract_msg
msg = extract_msg.Message(file_name)

在 synapse 中我收到错误: filenotfounderror:[errno 2]没有这样的文件或目录。

这些文件路径可以使用 sparkpandas 读取 csv、excel 或 txt 数据,因此我认为不存在授权或连接问题。格式为:abfs[s]://file_system_name@account_name.dfs.core.windows.net/file_path

我还尝试安装存储位置。这确实有助于读取文本文件,但对其他格式没有帮助。在 synapse 中安装存储位置


正确答案


安装是正确的方法,此答案进行了解释。我正在使用 synapse studio 。关键是使用从挂载存储的路径命令获取的文件格式。否则我基本上可以使用我之前在问题中提到的内容。只有 pdf 我必须从使用 pypdf 库更改为 pypdf2。

有效的格式是:

path = mssparkutils.fs.getmountpath("/mounted_name") 
# this gave me this fORMat '/synfs/{jobid}/mounted_path/{filename}'

从 mssparkutils fs 获取的格式不起作用

mssparkutils.fs.ls("synfs:/{jobId}/mounted_path/") 
# this gave a different format which did not work   'synfs:/{jobId}/mounted_path/{filename}'

以上就是如何使用 Synapse 从 ADLS gen2 读取 python 中的 pdf 或 pptx 或 docx 文件?的详细内容,更多请关注编程网其它相关文章!

--结束END--

本文标题: 如何使用 Synapse 从 ADLS gen2 读取 python 中的 pdf 或 pptx 或 docx 文件?

本文链接: https://www.lsjlt.com/news/563003.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

猜你喜欢
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作