網站首頁 編程語言 正文
python去重及數據合并
drop_dupicates
參數含義:
-
subset
:即表示要去重指定參考的列 -
keep
: {‘first’, ‘last’, False}, default ‘first’
inplace:boolean, default False, 直接在原來的數據上修改還是保留副本
data = pd.DataFrame({'id':[1,1,2],'value':[12,14,27]}) #第一個參數傳入需要比對的列,在"id"列有相同的id,則進行去重 data.drop_duplicates(['id'],keep='last',inplace=True) #我想比較"id"、"value"兩列的值全部相同時則去重 data.drop_duplicates(['id','value'],keep='last',inplace=True) #如果想直接比較數據中的全部列都相同時才能去除,則可以按照如下方法.keep默認的是保留第一個 data.drop_duplicates()
merge
首先關于連接,從SQL中的可以得知,連接主要分為外連接和內連接:
內連接
內連接是指在兩個數據表中,根據其指定合并的列,找到其交集,也就是既在df1中出現,也在df2中出現的數據
df1=pd.DataFrame({'key':['b','b','a','c','a','a','b'], ? ? ? ? ? ? ? ? ? 'data':range(7)}) df2=pd.DataFrame({'key':['a','b','d'], ? ? ? ? ? ? ? ? ? 'data2':range(3)}) df = pd.merge(df1,df2,on='key',how='inner') #不寫how也沒關系,因為merge默認的就是內連接?
假設如果在df1和df2中的指定要合并的列的列名不一致的話,則需要顯式指定根據哪一列進行合并
df3=pd.DataFrame({'key1':['b','b','a','c','a','a','b'], ? ? ? ? ? ? ? ? ? 'data':range(7)}) df4=pd.DataFrame({'key2':['a','b','d'], ? ? ? ? ? ? ? ? ? 'data2':range(3)}) df = pd.merge(df3,df4,left_on='key1',right_on='key2') # 該結果比上面的on='key'的結果多一列相同的列,但是兩個的本質是一樣的,都是內連接
外連接
外連接可以分為三種,全外連接、左連接和右連接。
全外連接就是保留兩個表中指定合并的列關鍵字的并集,然后在左右兩個表中找到相對應的數據進行填充,沒有的用NAN代替
df1=pd.DataFrame({'key':['b','b','a','c','a','a','b'], ? ? ? ? ? ? ? ? ? 'data':range(7)}) df2=pd.DataFrame({'key':['a','b','d'], ? ? ? ? ? ? ? ? ? 'data2':range(3)}) df = pd.merge(df1,df2,on='key',how='outer')
右連接是保留右表中指定列的所有關鍵字,然后去左表中找到指定列對應的數據進行補充,沒有的就NAN代替
df = pd.merge(df1,df2,on='key',how='right')
左連接是保留左表中指定列的所有關鍵字,然后去右表中找到指定列對應的數據進行補充,沒有的就NAN代替
df = pd.merge(df1,df2,on='key',how='left')
python去重腳本
可以用來去除字典、漏洞數量等
使用方法,將要去重的部分保存成為csv格式,并命名為all.csv,直接執行后,會在當前目錄下生成qc.csv的文件!
#coding:utf-8 ciku=open(r'all.csv','r') ? #打開需要去重文件 xieci=open(r'qc.csv','w') ? #打開處理后存放的文件 cikus=ciku.readlines()? list2 = {}.fromkeys(cikus).keys() ? ? #列表去重方法,將列表數據當作字典的鍵寫入字典,依據字典鍵不可重復的特性去重 i=1 for line in list2: ?? ?if line[0]!=',': ?? ??? ?# print line[0:-1].decode('utf-8').encode('gbk') ?? ??? ?# print ?u"writing"+i ?? ??? ?i+=1 ?? ??? ?xieci.writelines(line) xieci.close()
總結
原文鏈接:https://blog.csdn.net/qq_32618817/article/details/80430292
相關推薦
- 2022-07-07 Android?配合Mat工具監聽查找內存泄漏的操作方法_Android
- 2022-04-16 python修改全局變量可以不加global嗎?_python
- 2022-09-13 超詳細圖解修改pip?install默認安裝路徑的方法_python
- 2022-09-22 uni ui 、color ui 圖標icon的使用
- 2022-08-21 Android設置重復文字水印背景的方法_Android
- 2023-01-05 Python中使用jpype調用Jar包中的實現方法_python
- 2022-10-15 QT?UDP網絡編程實現簡單消息傳輸_C 語言
- 2022-12-16 C++?Boost?Atomic詳細講解_C 語言
- 最近更新
-
- window11 系統安裝 yarn
- 超詳細win安裝深度學習環境2025年最新版(
- Linux 中運行的top命令 怎么退出?
- MySQL 中decimal 的用法? 存儲小
- get 、set 、toString 方法的使
- @Resource和 @Autowired注解
- Java基礎操作-- 運算符,流程控制 Flo
- 1. Int 和Integer 的區別,Jav
- spring @retryable不生效的一種
- Spring Security之認證信息的處理
- Spring Security之認證過濾器
- Spring Security概述快速入門
- Spring Security之配置體系
- 【SpringBoot】SpringCache
- Spring Security之基于方法配置權
- redisson分布式鎖中waittime的設
- maven:解決release錯誤:Artif
- restTemplate使用總結
- Spring Security之安全異常處理
- MybatisPlus優雅實現加密?
- Spring ioc容器與Bean的生命周期。
- 【探索SpringCloud】服務發現-Nac
- Spring Security之基于HttpR
- Redis 底層數據結構-簡單動態字符串(SD
- arthas操作spring被代理目標對象命令
- Spring中的單例模式應用詳解
- 聊聊消息隊列,發送消息的4種方式
- bootspring第三方資源配置管理
- GIT同步修改后的遠程分支