網站首頁編程語言正文

python編碼格式導致csv讀取錯誤問題(csv.reader,?pandas.csv_read)_python

作者：ThitherShore ? 更新時間： 2022-07-03 編程語言

python編碼格式導致csv讀取錯誤

本文記錄python小白我今天遇到的這兩個問題（csv.reader和pandas.csv_read）：

pandas模塊“CParserError: Error tokenizing data. C error: Expected 1 fields in line 4, saw 2”錯誤

csv模塊“line contains NULL byte”錯誤

今天處理數據時疏忽了，而且還偷懶把數據復制到xlsx保存后，直接修改文件后綴成.csv準備用來讀取。之后運行算法要讀數據的時候果然問題來了。

import pandas as pd
path = 'water30.csv'
df=pd.read_csv(path)

注：后兩行可寫作df=pd.read_csv('water30.csv')。

但由于read_csv本身有好多參數（雖然這里不用）, 故寫成path習慣好些。

這樣會報錯CParserError: Error tokenizing data. C error: Expected 1 fields in line 4, saw 2

我在網上查了好多種解決辦法，由于read_csv的參數很多，所以各有其詞，我這里遇到的應該也只是其中一種，久尋無果。直到我看到這里說看了模塊_csv.c的代碼后，發現文件里不能有 “\0”, 所以csv文件不可以是unicode編碼的，可以是ANSI。

針對我直接改后綴名的結果是，點擊那個.csv打開時就已經提示我：

也就是這里改后綴并沒有把文件格式弄好。所以我選擇“另存為”改選了文件格式為

之后，讀取就不會報錯了。

注：有個疑問沒有解決，就是那個我“直接改后綴得到的那個.csv”我用記事本打開查看了一下，編碼就是ANSI啊。那我就不知道為什么報錯了……不過問題倒是暫時解決了。

現在讀取到的格式為

是個結構體。

另外，對于：csv模塊“line contains NULL byte”錯誤。和上面出現問題原因和解決方案是一樣的，比如

import csv
csvfile=file('water30.csv','rb')
reader = csv.reader(csvfile)
for line in reader:
     print line
csvfile.close()

報錯：Error: line contains NULL byte

修正后，讀入的數據格式為list，如下

[‘1’, ‘2’, ‘2’, ‘1’, ‘2’]
[‘1’, ‘1’, ‘1’, ‘2’, ‘2’]
[‘1’, ‘2’, ‘1’, ‘1’, ‘1’]
[‘1’, ‘1’, ‘1’, ‘1’, ‘2’]
[‘1’, ‘1’, ‘1’, ‘2’, ‘2’]
[‘1’, ‘1’, ‘1’, ‘2’, ‘2’]
[‘0.697’, ‘0.744’, ‘0.634’, ‘0.403’, ‘0.481’]
[‘0.46’, ‘0.376’, ‘0.264’, ‘0.237’, ‘0.149’]
[‘1’, ‘1’, ‘1’, ‘1’, ‘1’]

pandas讀取csv常見錯誤及解決

1）第一種錯誤

錯誤提示：

pandas.errors.ParserError: Error tokenizing data. C error: Expected 1 fields in line 121, saw 2

解決方法：

import pandas as pd
data = pd.read_csv(inputfile, encoding='utf-8',header=None,sep = '\t')

2）第二種錯誤

錯誤提示：

pandas.errors.ParserError: Error tokenizing data. C error: EOF inside string starting at line 15945

解決方法：

import pandas as pd
import csv
df = pd.read_csv(csvfile, quoting=csv.QUOTE_NONE, encoding='utf-8')

原文鏈接：https://blog.csdn.net/thither_shore/article/details/52338324

上一篇：C#中的預定義類型與引用類型_C#教程
下一篇：Python基礎教程之錯誤和異常的處理方法_python

日本免费高清视频-国产福利视频导航-黄色在线播放国产-天天操天天操天天操天天操|www.shdianci.com

網站首頁編程語言正文

python編碼格式導致csv讀取錯誤問題(csv.reader,?pandas.csv_read)_python

目錄