網站首頁編程語言正文

python重復值處理得方法_python

作者：??FizzH???? ? 更新時間： 2022-07-14 編程語言

前言：

如果大家接觸過數據分析，那么大家可能都知道，最讓人頭疼的就是在數據錄入的過程中，不可避免的會產生重復值，缺失值和異常值了，python也提供了一些方法讓我們處理這些值。下面讓我們一塊來學習一下吧~

今天，先處理重復值，首先創建一個包含重復值的DataFrame,如下：

import pandas as pd
data = pd.DataFrame([[1,2],[1,2],[3,4]],columns = ['a','b'])
print(data)

我們將其打印出來，結果如下：

可以看出來第一第二行是重復的，這里的數據量比較少，可以直接肉眼觀察，但如果數據量多的時候，我們就需要用到diplicated()函數來查詢了，我們用它來查查上面data的重復值。

data[data.duplicated()]

我們可以看出，它把索引為1的行打印了出來，如果有3行一樣的呢？我們下面來試試！

import pandas as pd
data = pd.DataFrame([[1,2],[1,2],[1,2],[3,4]],columns = ['a','b'])
data[data.duplicated()]

其結果如下：

可以看出，重復項出了第一個出現的數據外，都會顯示出來。

如果想統計出一共有多少行重復了，我們就可以用到sum()函數，代碼如下：

data.duplicated().sum()

很多情況下，我們都需要刪除掉重復的數據，這時候我們就可以用到drop_duplicated()函數，我們將data的重復行刪除掉試試！

data.drop_duplicated()

剛執行代碼時發生了錯誤，原來是duplicates而不是duplicated!

但是要注意，用drop_duplicates()刪除重復項并不會影響data的結構，如果你要把data結構改掉就要重新賦值。如果要用來刪除某列的重復值的話，直接在括號內加上列名即可。

如下：

原文鏈接：https://juejin.cn/post/7064768893092380702