广告
返回顶部
首页 > 资讯 > 后端开发 > Python >Python实现读取HTML表格pd.read_html()
  • 706
分享到

Python实现读取HTML表格pd.read_html()

2024-04-02 19:04:59 706人浏览 薄情痞子

Python 官方文档:入门教程 => 点击学习

摘要

目录python读取html表格pd.read_html读取数据不完整问题解决办法Python读取HTML表格 数据部门提供的数据是xls格式的文件,但是执行读取xls文件的脚本报错

Python读取HTML表格

数据部门提供的数据是xls格式的文件,但是执行读取xls文件的脚本报错。

xlrd报错:

xlrd.biffh.XLRDError: Unsupported fORMat, or corrupt file: Expected BOF record; found b'<html xm'

读取xlrd的脚本

data_lines = read_excel_file(self.file_path)

def read_excel_file(file_path):
    """
    读取excel文件
    """
    import xlrd
    print('[Info] excel file: {}'.format(file_path))
    book = xlrd.open_workbook(file_path)
    sheet = book.sheet_by_index(0)
    data_lines = []
    for row in range(0, sheet.nrows):
        line_data = []
        for column in range(0, sheet.ncols):
            val = sheet.cell(row, column).value
            line_data.append(val)
        data_lines.append(line_data)
    return data_lines  # 二维数组

原因是文件格式是HTML表格,参考python xlrd unsupported format, or corrupt file.

使用pandas的read_html读取文件,同时替换nan为空字符,数据格式保持一致。

def read_html_table(file_path):
    """
    读取html表格
    """
    import pandas as pd
    pd_table = pd.read_html(file_path)
    df = pd_table[0]
    # num_col = df.shape[1]
    # num_row = df.shape[0]
    df_data = df.values.tolist()
    df_data = df_data[1:]
    for r_idx, row in enumerate(df_data):
        for c_idx, value in enumerate(row):
            # 判断nan,参考https://stackoverflow.com/questions/944700/how-can-i-check-for-nan-values
            if value != value:
                df_data[r_idx][c_idx] = ""
    return df_data

读取问题解决。

pd.read_html读取数据不完整问题

问题:有一个较大的表格数据存在了html中,打算用read_html直接取出来这部分数据,但后来发现read_html读取的数据不完整,后来检查html的table都没有任何问题

解决办法

pd.read_html的默认解析器为 'lxml' ,添加参数flavor='bs4'便可解决

以上为个人经验,希望能给大家一个参考,也希望大家多多支持编程网。

--结束END--

本文标题: Python实现读取HTML表格pd.read_html()

本文链接: https://www.lsjlt.com/news/119312.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑,方便收藏和打印~

下载Word文档
猜你喜欢
  • Python实现读取HTML表格pd.read_html()
    目录Python读取HTML表格pd.read_html读取数据不完整问题解决办法Python读取HTML表格 数据部门提供的数据是xls格式的文件,但是执行读取xls文件的脚本报错...
    99+
    2022-11-11
  • python如何实现读取excel表格
    本篇内容介绍了“python如何实现读取excel表格”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!一、python读取excel表格数据1...
    99+
    2023-07-02
  • 用python实现读取xlsx表格操作
    目录前言读操作总结前言 快要过年了,现在是工作的事情也不想干,学习也完全学不进去,关于xlsx的操作原本昨天已经写好了,不过悲催的是,忘记发布了直接关浏览器关闭后发现已经丢失了。以下...
    99+
    2022-11-13
  • 怎么用python实现读取xlsx表格
    今天小编给大家分享一下怎么用python实现读取xlsx表格的相关知识点,内容详细,逻辑清晰,相信大部分人都还太了解这方面的知识,所以分享这篇文章给大家参考一下,希望大家阅读完这篇文章后有所收获,下面我们一起来了解一下吧。前言快要过年了,现...
    99+
    2023-06-29
  • Python读取HTML表格报错怎么解决
    今天小编给大家分享一下Python读取HTML表格报错怎么解决的相关知识点,内容详细,逻辑清晰,相信大部分人都还太了解这方面的知识,所以分享这篇文章给大家参考一下,希望大家阅读完这篇文章后有所收获,下面我们一起来了解一下吧。Python读取...
    99+
    2023-07-02
  • python实现读取excel表格详解方法
    目录一、python读取excel表格数据1、读取excel表格数据常用操作2、xlrd模块主要操作3、读取单元格内容为日期时间的方式4、读取合并单元格的数据二、python写入ex...
    99+
    2022-11-11
  • python读取excel表格的数据
    1.在Windows命令行中安装第三方模块xlrd,先切到python安装目录(Python34),然后切到Scripts,然后输入命令easy_install xlrd按回车进行安装安装完成2.新建一个excel表,然后保存,造数据3.编...
    99+
    2023-01-31
    表格 数据 python
  • Python——openpyxl读取Excel表格(读取、单元格修改、单元格加底色)
    🌸 欢迎来到Python办公自动化专栏—Python处理办公问题,解放您的双手 🏳️‍🌈 博客主页:一晌小贪欢的博客主页 👍 ...
    99+
    2023-10-26
    python excel 开发语言 python办公自动化 自动化
  • python读取json数据还原表格批量转换成html
    目录一、实操1.首先创建一个新的文档2.添加文本二、word转成html1.使用pydocx转换2.使用win32模块背景: 由于需要对ocr识别系统的表格识别结果做验证,通过返回的...
    99+
    2022-11-13
  • Python如何读取Excel表格数据
    环境: Pycharm IDE 3.9  2021.2.1 Excel作为目前主要的流行数据表格,其存储的数据整齐,强可观性。需要对大量的数据进行分析时,可以利用python脚本语言进行数据分析。 python读取excel数据: 打开py...
    99+
    2023-09-07
    excel
  • Python如何读取excel表格的数据
    这篇文章主要介绍“Python如何读取excel表格的数据”的相关知识,小编通过实际案例向大家展示操作过程,操作方法简单快捷,实用性强,希望这篇“Python如何读取excel表格的数据”文章能帮助大家解决问题。小编这里推荐使用一款兼容性非...
    99+
    2023-06-27
  • 利用Python实现读取Word表格计算汇总并写入Excel
    目录前言一、首先导入包二、读评价表所在的目录文件三、读word文件,处理word中的表格数据四、统计计算五、将统计计算结果写入汇总Excel完整代码总结前言 快过年了,又到了公司年底...
    99+
    2022-11-13
  • python读取word文档表格里的数据
    首先需要安装相应的支持库: 直接在命令行执行pip install python-docx 示例代码如下: import docx from docx import Document #导入库 path = "E:\\pyt...
    99+
    2023-01-31
    表格 文档 数据
  • C#读取word中表格数据的方法实现
    前些日子有一个项目需要从word文件中取表格数据并进行处理,网上大部分方案都是基于office的com组件实现,但是这样有一个缺点,如果电脑里没有安装office将无法使用,因为之前...
    99+
    2022-11-13
  • Python实现读取json文件到excel表
    本文实例为大家分享了Python实现读取json文件到excel表,供大家参考,具体内容如下 一、需求 1、'score.json' 文件内容: { "1":["小花",99,100,98.5], ...
    99+
    2022-06-04
    文件 Python json
  • python读取pdf格式文档的实现代码
    python读取pdf文档 一、 准备工作 安装对应的库 pip install pdfminer3k pip install pdfminer.six 二、部分变量的...
    99+
    2022-11-12
  • Python中怎么读取电子表格的数据
    今天就跟大家聊聊有关Python中怎么读取电子表格的数据,可能很多人都不太了解,为了让大家更加了解,小编给大家总结了以下内容,希望大家根据这篇文章可以有所收获。从电子表格读取 CSVPython 包含了一个 csv 模块,它可读取和写入 C...
    99+
    2023-06-16
  • React实现表格选取
    本文实例为大家分享了React实现表格选取的具体代码,供大家参考,具体内容如下 在工作中,遇到一个需求,在表格中实现类似于Excel选中一片区域的,然后拿到选中区域的所有数据。 1....
    99+
    2022-11-13
  • 怎么利用Python实现读取Word表格计算汇总并写入Excel
    这篇文章将为大家详细讲解有关怎么利用Python实现读取Word表格计算汇总并写入Excel,文章内容质量较高,因此小编分享给大家做个参考,希望大家阅读完这篇文章后对相关知识有一定的了解。前言快过年了,又到了公司年底评级的时候了。今年的评级...
    99+
    2023-06-28
  • Unity连接MySQL并读取表格数据的实现代码
    表格如下: 在Unity读取并调用时的代码: 而如果想要查看该数据库中的另一个表,不是直接使用Table[1],而是需要更改SELECT * from <?...
    99+
    2022-11-12
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作