網(wǎng)站首頁 編程語言 正文
前言
今天我們一起來聊聊DataFrame中的索引。
上一篇文章當(dāng)中我們介紹了DataFrame數(shù)據(jù)結(jié)構(gòu)當(dāng)中一些常用的索引的使用方法,比如iloc、loc以及邏輯索引等等。今天的文章我們來看看DataFrame的一些基本運(yùn)算。
數(shù)據(jù)對齊
我們可以計算兩個DataFrame的加和,pandas會自動將這兩個DataFrame進(jìn)行數(shù)據(jù)對齊,如果對不上的數(shù)據(jù)會被置為Nan(not a number)。
首先我們來創(chuàng)建兩個DataFrame:
import numpy as np
import pandas as pd
df1 = pd.DataFrame(np.arange(9).reshape((3, 3)), columns=list('abc'), index=['1', '2', '3'])
df2 = pd.DataFrame(np.arange(12).reshape((4, 3)), columns=list('abd'), index=['2', '3', '4', '5'])
得到的結(jié)果和我們設(shè)想的一致,其實只是通過numpy數(shù)組創(chuàng)建DataFrame,然后指定index和columns而已,這應(yīng)該算是很基礎(chǔ)的用法了。
然后我們將兩個DataFrame相加,會得到:
我們發(fā)現(xiàn)pandas將兩個DataFrame加起來合并了之后,凡是沒有在兩個DataFrame都出現(xiàn)的位置就會被置為Nan。這其實是很有道理的,實際上不只是加法,我們可以計算兩個DataFrame的加減乘除的四則運(yùn)算都是可以的。如果是計算兩個DataFrame相除的話,那么除了對應(yīng)不上的數(shù)據(jù)會被置為Nan之外,除零這個行為也會導(dǎo)致異常值的發(fā)生(可能不一定是Nan,而是inf)。
fill_value
如果我們要對兩個DataFrame進(jìn)行運(yùn)算,那么我們當(dāng)然不會希望出現(xiàn)空值。這個時候就需要對空值進(jìn)行填充了,我們直接使用運(yùn)算符進(jìn)行運(yùn)算是沒辦法傳遞參數(shù)進(jìn)行填充的,這個時候我們需要使用DataFrame當(dāng)中為我們提供的算術(shù)方法。
DataFrame當(dāng)中常用的運(yùn)算符有這么幾種:
add、sub、div這些我們都很好理解,那么這里的radd、rsub方法又是什么意思呢,為什么前面要加上一個r呢?
看起來費(fèi)解,但是說白了一文不值,radd是用來翻轉(zhuǎn)參數(shù)的。舉個例子,比如說我們希望得到DataFrame當(dāng)中所有元素的倒數(shù),我們可以寫成1 / df。由于1本身并不是一個DataFrame,所以我們不能用1來呼叫DataFrame當(dāng)中的方法,也就不能傳遞參數(shù),為了解決這種情況,我們可以把1 / df寫成df.rdiv(1),這樣我們就可以在其中傳遞參數(shù)了。
由于在算除法的過程當(dāng)中發(fā)生了除零,所以我們得到了一個inf,它表示無窮大。
我們可以在add、div這些方法當(dāng)中傳入一個fill_value的參數(shù),這個參數(shù)可以在計算之前對于一邊出現(xiàn)缺失值的情況進(jìn)行填充。也就是說對于對于只在一個DataFrame中缺失的位置會被替換成我們指定的值,如果在兩個DataFrame都缺失,那么依然還會是Nan。
我們對比下結(jié)果就能發(fā)現(xiàn)了,相加之后的(1, d), (4, c)以及(5, c)的位置都是Nan,因為df1和df2兩個DataFrame當(dāng)中這些位置都是空值,所以沒有被填充。
fill_value這個參數(shù)在很多api當(dāng)中都有出現(xiàn),比如reindex等,用法都是一樣的,我們在查閱api文檔的時候可以注意一下。
那么對于這種填充了之后還出現(xiàn)的空值我們應(yīng)該怎么辦呢?難道只能手動找到這些位置進(jìn)行填充嗎?當(dāng)然是不現(xiàn)實的,pandas當(dāng)中還為我們提供了專門解決空值的api。
空值api
在填充空值之前,我們首先要做的是發(fā)現(xiàn)空值。針對這個問題,我們有isna這個api,它會返回一個bool型的DataFrame,DataFrame當(dāng)中的每一個位置表示了原DataFrame對應(yīng)的位置是否是空值。
dropna
當(dāng)然只是發(fā)現(xiàn)是否是空值肯定是不夠的,我們有時候會希望不要空值的出現(xiàn),這個時候我們可以選擇drop掉空值。針對這種情況,我們可以使用DataFrame當(dāng)中的dropna方法。
我們發(fā)現(xiàn)使用了dropna之后,出現(xiàn)了空值的行都被拋棄了。只保留了沒有空值的行,有時候我們希望拋棄是的列而不是行,這個時候我們可以通過傳入axis參數(shù)進(jìn)行控制。
這樣我們得到的就是不含空值的列,除了可以控制行列之外,我們還可以控制執(zhí)行drop的嚴(yán)格程度。我們可以通過how這個參數(shù)來判斷,how支持兩種值傳入,一種是'all',一種是'any'。all表示只有在某一行或者是某一列全為空值的時候才會拋棄,any與之對應(yīng)就是只要出現(xiàn)了空值就會拋棄。默認(rèn)不填的話認(rèn)為是any,一般情況下我們也用不到這個參數(shù),大概有個印象就可以了。
fillna
pandas除了可以drop含有空值的數(shù)據(jù)之外,當(dāng)然也可以用來填充空值,事實上這也是最常用的方法。
我們可以很簡單地傳入一個具體的值用來填充:
fillna會返回一個新的DataFrame,其中所有的Nan值會被替換成我們指定的值。如果我們不希望它返回一個新的DataFrame,而是直接在原數(shù)據(jù)進(jìn)行修改的話,我們可以使用inplace參數(shù),表明這是一個inplace的操作,那么pandas將會在原DataFrame上進(jìn)行修改。
df3.fillna(3, inplace=True)
除了填充具體的值以外,我們也可以和一些計算結(jié)合起來算出來應(yīng)該填充的值。比如說我們可以計算出某一列的均值、最大值、最小值等各種計算來填充。fillna這個函數(shù)不僅可以使用在DataFrame上,也可以使用在Series上,所以我們可以針對DataFrame中的某一列或者是某些列進(jìn)行填充:
除了可以計算出均值、最大最小值等各種值來進(jìn)行填充之外,還可以指定使用缺失值的前一行或者是后一行的值來填充。實現(xiàn)這個功能需要用到method這個參數(shù),它有兩個接收值,ffill表示用前一行的值來進(jìn)行填充,bfill表示使用后一行的值填充。
我們可以看到,當(dāng)我們使用ffill填充的時候,對于第一行的數(shù)據(jù)來說由于它沒有前一行了,所以它的Nan會被保留。同樣當(dāng)我們使用bfill的時候,最后一行也無法填充。
總結(jié)
今天的文章當(dāng)中我們主要介紹了DataFrame的一些基本運(yùn)算,比如最基礎(chǔ)的四則運(yùn)算。在進(jìn)行四則運(yùn)算的時候由于DataFrame之間可能存在行列索引不能對齊的情況,這樣計算得到的結(jié)果會出現(xiàn)空值,所以我們需要對空值進(jìn)行處理。我們可以在進(jìn)行計算的時候通過傳入fill_value進(jìn)行填充,也可以在計算之后對結(jié)果進(jìn)行fillna填充。
在實際的運(yùn)用當(dāng)中,我們一般很少會直接對兩個DataFrame進(jìn)行加減運(yùn)算,但是DataFrame中出現(xiàn)空置是家常便飯的事情。因此對于空值的填充和處理非常重要,可以說是學(xué)習(xí)中的重點(diǎn),大家千萬注意。
原文鏈接:https://zhuanlan.zhihu.com/p/165230863
相關(guān)推薦
- 2022-08-13 IDEA快速展開和折疊方法代碼快捷鍵
- 2022-04-01 將numpy array保存為nii格式 itk-snap打不開
- 2022-10-13 Pygame?zero集合_python
- 2024-01-28 springboot登錄認(rèn)證JWT令牌
- 2022-03-09 c++中STL庫隊列詳細(xì)介紹_C 語言
- 2024-01-14 springboot-mybatis/JPA流式查詢
- 2023-02-01 Bat腳本之在文件中查找多個字符串并保存到文件中_DOS/BAT
- 2022-01-19 標(biāo)準(zhǔn)時間格式轉(zhuǎn)換(正則寫法)
- 最近更新
-
- window11 系統(tǒng)安裝 yarn
- 超詳細(xì)win安裝深度學(xué)習(xí)環(huán)境2025年最新版(
- Linux 中運(yùn)行的top命令 怎么退出?
- MySQL 中decimal 的用法? 存儲小
- get 、set 、toString 方法的使
- @Resource和 @Autowired注解
- Java基礎(chǔ)操作-- 運(yùn)算符,流程控制 Flo
- 1. Int 和Integer 的區(qū)別,Jav
- spring @retryable不生效的一種
- Spring Security之認(rèn)證信息的處理
- Spring Security之認(rèn)證過濾器
- Spring Security概述快速入門
- Spring Security之配置體系
- 【SpringBoot】SpringCache
- Spring Security之基于方法配置權(quán)
- redisson分布式鎖中waittime的設(shè)
- maven:解決release錯誤:Artif
- restTemplate使用總結(jié)
- Spring Security之安全異常處理
- MybatisPlus優(yōu)雅實現(xiàn)加密?
- Spring ioc容器與Bean的生命周期。
- 【探索SpringCloud】服務(wù)發(fā)現(xiàn)-Nac
- Spring Security之基于HttpR
- Redis 底層數(shù)據(jù)結(jié)構(gòu)-簡單動態(tài)字符串(SD
- arthas操作spring被代理目標(biāo)對象命令
- Spring中的單例模式應(yīng)用詳解
- 聊聊消息隊列,發(fā)送消息的4種方式
- bootspring第三方資源配置管理
- GIT同步修改后的遠(yuǎn)程分支