網(wǎng)站首頁 編程語言 正文
前言:
如果大家接觸過數(shù)據(jù)分析,那么大家可能都知道,最讓人頭疼的就是在數(shù)據(jù)錄入的過程中,不可避免的會產(chǎn)生重復(fù)值,缺失值和異常值了,python也提供了一些方法讓我們處理這些值。下面讓我們一塊來學(xué)習(xí)一下吧~
今天,先處理重復(fù)值,首先創(chuàng)建一個包含重復(fù)值的DataFrame,如下:
import pandas as pd
data = pd.DataFrame([[1,2],[1,2],[3,4]],columns = ['a','b'])
print(data)
我們將其打印出來,結(jié)果如下:
可以看出來第一第二行是重復(fù)的,這里的數(shù)據(jù)量比較少,可以直接肉眼觀察,但如果數(shù)據(jù)量多的時候,我們就需要用到diplicated()函數(shù)來查詢了,我們用它來查查上面data的重復(fù)值。
data[data.duplicated()]
我們可以看出,它把索引為1的行打印了出來,如果有3行一樣的呢?我們下面來試試!
import pandas as pd
data = pd.DataFrame([[1,2],[1,2],[1,2],[3,4]],columns = ['a','b'])
data[data.duplicated()]
其結(jié)果如下:
可以看出,重復(fù)項出了第一個出現(xiàn)的數(shù)據(jù)外,都會顯示出來。
如果想統(tǒng)計出一共有多少行重復(fù)了,我們就可以用到sum()函數(shù),代碼如下:
data.duplicated().sum()
很多情況下,我們都需要刪除掉重復(fù)的數(shù)據(jù),這時候我們就可以用到drop_duplicated()函數(shù),我們將data的重復(fù)行刪除掉試試!
data.drop_duplicated()
剛執(zhí)行代碼時發(fā)生了錯誤,原來是duplicates而不是duplicated!
但是要注意,用drop_duplicates()刪除重復(fù)項并不會影響data的結(jié)構(gòu),如果你要把data結(jié)構(gòu)改掉就要重新賦值。如果要用來刪除某列的重復(fù)值的話,直接在括號內(nèi)加上列名即可。
如下:
原文鏈接:https://juejin.cn/post/7064768893092380702
相關(guān)推薦
- 2022-09-24 如何將一個CSV格式的文件分割成兩個CSV文件_python
- 2022-05-17 ubuntu Could NOT find CURL (missing: CURL_LIBRARY
- 2021-11-29 Docker部署前后端分離項目的實現(xiàn)示例_docker
- 2022-06-22 android實現(xiàn)注冊登錄程序_Android
- 2022-09-21 Flutter實現(xiàn)資源下載斷點續(xù)傳的示例代碼_Android
- 2022-11-28 基于Python實現(xiàn)DIT-FFT算法_python
- 2022-01-09 el-tree同級節(jié)點可選擇 其他節(jié)點及父節(jié)點禁用
- 2022-12-09 Python構(gòu)造函數(shù)與析構(gòu)函數(shù)超詳細(xì)分析_python
- 最近更新
-
- window11 系統(tǒng)安裝 yarn
- 超詳細(xì)win安裝深度學(xué)習(xí)環(huán)境2025年最新版(
- Linux 中運行的top命令 怎么退出?
- MySQL 中decimal 的用法? 存儲小
- get 、set 、toString 方法的使
- @Resource和 @Autowired注解
- Java基礎(chǔ)操作-- 運算符,流程控制 Flo
- 1. Int 和Integer 的區(qū)別,Jav
- spring @retryable不生效的一種
- Spring Security之認(rèn)證信息的處理
- Spring Security之認(rèn)證過濾器
- Spring Security概述快速入門
- Spring Security之配置體系
- 【SpringBoot】SpringCache
- Spring Security之基于方法配置權(quán)
- redisson分布式鎖中waittime的設(shè)
- maven:解決release錯誤:Artif
- restTemplate使用總結(jié)
- Spring Security之安全異常處理
- MybatisPlus優(yōu)雅實現(xiàn)加密?
- Spring ioc容器與Bean的生命周期。
- 【探索SpringCloud】服務(wù)發(fā)現(xiàn)-Nac
- Spring Security之基于HttpR
- Redis 底層數(shù)據(jù)結(jié)構(gòu)-簡單動態(tài)字符串(SD
- arthas操作spring被代理目標(biāo)對象命令
- Spring中的單例模式應(yīng)用詳解
- 聊聊消息隊列,發(fā)送消息的4種方式
- bootspring第三方資源配置管理
- GIT同步修改后的遠(yuǎn)程分支