日本免费高清视频-国产福利视频导航-黄色在线播放国产-天天操天天操天天操天天操|www.shdianci.com

學無先后,達者為師

網站首頁 編程語言 正文

Python實現讀取HTML表格?pd.read_html()_python

作者:SpikeKing ? 更新時間: 2022-09-07 編程語言

Python讀取HTML表格

數據部門提供的數據是xls格式的文件,但是執行讀取xls文件的腳本報錯。

xlrd報錯:

xlrd.biffh.XLRDError: Unsupported format, or corrupt file: Expected BOF record; found b'<html xm'

讀取xlrd的腳本

data_lines = read_excel_file(self.file_path)

def read_excel_file(file_path):
    """
    讀取excel文件
    """
    import xlrd
    print('[Info] excel file: {}'.format(file_path))
    book = xlrd.open_workbook(file_path)
    sheet = book.sheet_by_index(0)
    data_lines = []
    for row in range(0, sheet.nrows):
        line_data = []
        for column in range(0, sheet.ncols):
            val = sheet.cell(row, column).value
            line_data.append(val)
        data_lines.append(line_data)
    return data_lines  # 二維數組

原因是文件格式是HTML表格,參考python xlrd unsupported format, or corrupt file.

使用pandas的read_html讀取文件,同時替換nan為空字符,數據格式保持一致。

def read_html_table(file_path):
? ? """
? ? 讀取html表格
? ? """
? ? import pandas as pd
? ? pd_table = pd.read_html(file_path)
? ? df = pd_table[0]
? ? # num_col = df.shape[1]
? ? # num_row = df.shape[0]
? ? df_data = df.values.tolist()
? ? df_data = df_data[1:]
? ? for r_idx, row in enumerate(df_data):
? ? ? ? for c_idx, value in enumerate(row):
? ? ? ? ? ? # 判斷nan,參考https://stackoverflow.com/questions/944700/how-can-i-check-for-nan-values
? ? ? ? ? ? if value != value:
? ? ? ? ? ? ? ? df_data[r_idx][c_idx] = ""
? ? return df_data

讀取問題解決。

pd.read_html讀取數據不完整問題

問題:有一個較大的表格數據存在了html中,打算用read_html直接取出來這部分數據,但后來發現read_html讀取的數據不完整,后來檢查html的table都沒有任何問題

解決辦法

pd.read_html的默認解析器為 'lxml' ,添加參數flavor='bs4'便可解決

原文鏈接:https://blog.csdn.net/caroline_wendy/article/details/117256179

欄目分類
最近更新