網(wǎng)站首頁 編程語言 正文
python去重及數(shù)據(jù)合并
drop_dupicates
參數(shù)含義:
-
subset
:即表示要去重指定參考的列 -
keep
: {‘first’, ‘last’, False}, default ‘first’
inplace:boolean, default False, 直接在原來的數(shù)據(jù)上修改還是保留副本
data = pd.DataFrame({'id':[1,1,2],'value':[12,14,27]}) #第一個參數(shù)傳入需要比對的列,在"id"列有相同的id,則進(jìn)行去重 data.drop_duplicates(['id'],keep='last',inplace=True) #我想比較"id"、"value"兩列的值全部相同時則去重 data.drop_duplicates(['id','value'],keep='last',inplace=True) #如果想直接比較數(shù)據(jù)中的全部列都相同時才能去除,則可以按照如下方法.keep默認(rèn)的是保留第一個 data.drop_duplicates()
merge
首先關(guān)于連接,從SQL中的可以得知,連接主要分為外連接和內(nèi)連接:
內(nèi)連接
內(nèi)連接是指在兩個數(shù)據(jù)表中,根據(jù)其指定合并的列,找到其交集,也就是既在df1中出現(xiàn),也在df2中出現(xiàn)的數(shù)據(jù)
df1=pd.DataFrame({'key':['b','b','a','c','a','a','b'], ? ? ? ? ? ? ? ? ? 'data':range(7)}) df2=pd.DataFrame({'key':['a','b','d'], ? ? ? ? ? ? ? ? ? 'data2':range(3)}) df = pd.merge(df1,df2,on='key',how='inner') #不寫how也沒關(guān)系,因為merge默認(rèn)的就是內(nèi)連接?
假設(shè)如果在df1和df2中的指定要合并的列的列名不一致的話,則需要顯式指定根據(jù)哪一列進(jìn)行合并
df3=pd.DataFrame({'key1':['b','b','a','c','a','a','b'], ? ? ? ? ? ? ? ? ? 'data':range(7)}) df4=pd.DataFrame({'key2':['a','b','d'], ? ? ? ? ? ? ? ? ? 'data2':range(3)}) df = pd.merge(df3,df4,left_on='key1',right_on='key2') # 該結(jié)果比上面的on='key'的結(jié)果多一列相同的列,但是兩個的本質(zhì)是一樣的,都是內(nèi)連接
外連接
外連接可以分為三種,全外連接、左連接和右連接。
全外連接就是保留兩個表中指定合并的列關(guān)鍵字的并集,然后在左右兩個表中找到相對應(yīng)的數(shù)據(jù)進(jìn)行填充,沒有的用NAN代替
df1=pd.DataFrame({'key':['b','b','a','c','a','a','b'], ? ? ? ? ? ? ? ? ? 'data':range(7)}) df2=pd.DataFrame({'key':['a','b','d'], ? ? ? ? ? ? ? ? ? 'data2':range(3)}) df = pd.merge(df1,df2,on='key',how='outer')
右連接是保留右表中指定列的所有關(guān)鍵字,然后去左表中找到指定列對應(yīng)的數(shù)據(jù)進(jìn)行補(bǔ)充,沒有的就NAN代替
df = pd.merge(df1,df2,on='key',how='right')
左連接是保留左表中指定列的所有關(guān)鍵字,然后去右表中找到指定列對應(yīng)的數(shù)據(jù)進(jìn)行補(bǔ)充,沒有的就NAN代替
df = pd.merge(df1,df2,on='key',how='left')
python去重腳本
可以用來去除字典、漏洞數(shù)量等
使用方法,將要去重的部分保存成為csv格式,并命名為all.csv,直接執(zhí)行后,會在當(dāng)前目錄下生成qc.csv的文件!
#coding:utf-8 ciku=open(r'all.csv','r') ? #打開需要去重文件 xieci=open(r'qc.csv','w') ? #打開處理后存放的文件 cikus=ciku.readlines()? list2 = {}.fromkeys(cikus).keys() ? ? #列表去重方法,將列表數(shù)據(jù)當(dāng)作字典的鍵寫入字典,依據(jù)字典鍵不可重復(fù)的特性去重 i=1 for line in list2: ?? ?if line[0]!=',': ?? ??? ?# print line[0:-1].decode('utf-8').encode('gbk') ?? ??? ?# print ?u"writing"+i ?? ??? ?i+=1 ?? ??? ?xieci.writelines(line) xieci.close()
總結(jié)
原文鏈接:https://blog.csdn.net/qq_32618817/article/details/80430292
相關(guān)推薦
- 2022-11-21 Android四大組件之broadcast廣播詳解_Android
- 2023-01-15 mvn?打包報錯:no?compiler?is?provided?in?this?environme
- 2022-05-03 如何判斷?.NET?Core?應(yīng)用程序以管理員身份運(yùn)行的_實用技巧
- 2022-08-26 Python中def()函數(shù)的實戰(zhàn)練習(xí)題_python
- 2022-07-20 C語言開發(fā)中的常見錯誤詳解_C 語言
- 2022-09-29 Shell函數(shù)返回值方式_linux shell
- 2022-08-14 C++學(xué)習(xí)之算術(shù)運(yùn)算符使用詳解_C 語言
- 2022-11-05 一文了解Python3的錯誤和異常_python
- 最近更新
-
- window11 系統(tǒng)安裝 yarn
- 超詳細(xì)win安裝深度學(xué)習(xí)環(huán)境2025年最新版(
- Linux 中運(yùn)行的top命令 怎么退出?
- MySQL 中decimal 的用法? 存儲小
- get 、set 、toString 方法的使
- @Resource和 @Autowired注解
- Java基礎(chǔ)操作-- 運(yùn)算符,流程控制 Flo
- 1. Int 和Integer 的區(qū)別,Jav
- spring @retryable不生效的一種
- Spring Security之認(rèn)證信息的處理
- Spring Security之認(rèn)證過濾器
- Spring Security概述快速入門
- Spring Security之配置體系
- 【SpringBoot】SpringCache
- Spring Security之基于方法配置權(quán)
- redisson分布式鎖中waittime的設(shè)
- maven:解決release錯誤:Artif
- restTemplate使用總結(jié)
- Spring Security之安全異常處理
- MybatisPlus優(yōu)雅實現(xiàn)加密?
- Spring ioc容器與Bean的生命周期。
- 【探索SpringCloud】服務(wù)發(fā)現(xiàn)-Nac
- Spring Security之基于HttpR
- Redis 底層數(shù)據(jù)結(jié)構(gòu)-簡單動態(tài)字符串(SD
- arthas操作spring被代理目標(biāo)對象命令
- Spring中的單例模式應(yīng)用詳解
- 聊聊消息隊列,發(fā)送消息的4種方式
- bootspring第三方資源配置管理
- GIT同步修改后的遠(yuǎn)程分支