網站首頁編程語言正文

python的去重以及數據合并的用法說明_python

作者：Just_do_it_2018 ? 更新時間： 2023-04-12 編程語言

python去重及數據合并

drop_dupicates

參數含義：

subset：即表示要去重指定參考的列
keep : {‘first’, ‘last’, False}, default ‘first’

inplace:boolean, default False, 直接在原來的數據上修改還是保留副本

data = pd.DataFrame({'id':[1,1,2],'value':[12,14,27]})

#第一個參數傳入需要比對的列,在"id"列有相同的id,則進行去重
data.drop_duplicates(['id'],keep='last',inplace=True)

#我想比較"id"、"value"兩列的值全部相同時則去重
data.drop_duplicates(['id','value'],keep='last',inplace=True)

#如果想直接比較數據中的全部列都相同時才能去除，則可以按照如下方法.keep默認的是保留第一個
data.drop_duplicates()

merge

首先關于連接，從SQL中的可以得知，連接主要分為外連接和內連接：

內連接

內連接是指在兩個數據表中，根據其指定合并的列，找到其交集，也就是既在df1中出現，也在df2中出現的數據

df1=pd.DataFrame({'key':['b','b','a','c','a','a','b'],
? ? ? ? ? ? ? ? ? 'data':range(7)})
df2=pd.DataFrame({'key':['a','b','d'],
? ? ? ? ? ? ? ? ? 'data2':range(3)})
df = pd.merge(df1,df2,on='key',how='inner') #不寫how也沒關系，因為merge默認的就是內連接?

假設如果在df1和df2中的指定要合并的列的列名不一致的話，則需要顯式指定根據哪一列進行合并

df3=pd.DataFrame({'key1':['b','b','a','c','a','a','b'],
? ? ? ? ? ? ? ? ? 'data':range(7)})
df4=pd.DataFrame({'key2':['a','b','d'],
? ? ? ? ? ? ? ? ? 'data2':range(3)})
df = pd.merge(df3,df4,left_on='key1',right_on='key2')
# 該結果比上面的on='key'的結果多一列相同的列，但是兩個的本質是一樣的，都是內連接

外連接

外連接可以分為三種，全外連接、左連接和右連接。

全外連接就是保留兩個表中指定合并的列關鍵字的并集，然后在左右兩個表中找到相對應的數據進行填充，沒有的用NAN代替

df1=pd.DataFrame({'key':['b','b','a','c','a','a','b'],
? ? ? ? ? ? ? ? ? 'data':range(7)})
df2=pd.DataFrame({'key':['a','b','d'],
? ? ? ? ? ? ? ? ? 'data2':range(3)})

df = pd.merge(df1,df2,on='key',how='outer')

右連接是保留右表中指定列的所有關鍵字，然后去左表中找到指定列對應的數據進行補充，沒有的就NAN代替

df = pd.merge(df1,df2,on='key',how='right')

左連接是保留左表中指定列的所有關鍵字，然后去右表中找到指定列對應的數據進行補充，沒有的就NAN代替

df = pd.merge(df1,df2,on='key',how='left')

python去重腳本

可以用來去除字典、漏洞數量等

使用方法，將要去重的部分保存成為csv格式，并命名為all.csv，直接執行后，會在當前目錄下生成qc.csv的文件！

#coding:utf-8

ciku=open(r'all.csv','r') ? #打開需要去重文件
xieci=open(r'qc.csv','w') ? #打開處理后存放的文件
cikus=ciku.readlines()?
list2 = {}.fromkeys(cikus).keys() ? ? #列表去重方法，將列表數據當作字典的鍵寫入字典，依據字典鍵不可重復的特性去重
i=1
for line in list2:
?? ?if line[0]!=',':
?? ??? ?# print line[0:-1].decode('utf-8').encode('gbk')
?? ??? ?# print ?u"writing"+i
?? ??? ?i+=1
?? ??? ?xieci.writelines(line)
xieci.close()

總結

原文鏈接：https://blog.csdn.net/qq_32618817/article/details/80430292

上一篇：C++實現日期類的示例詳解_C#教程
下一篇：如何徹底解決python?NameError:name?'_

日本免费高清视频-国产福利视频导航-黄色在线播放国产-天天操天天操天天操天天操|www.shdianci.com

網站首頁編程語言正文

python的去重以及數據合并的用法說明_python

目錄

python去重及數據合并

drop_dupicates

merge

python去重腳本

總結

相關推薦

日本免费高清视频-国产福利视频导航-黄色在线播放国产-天天操天天操天天操天天操|www.shdianci.com

網站首頁 編程語言 正文

python的去重以及數據合并的用法說明_python

目錄

python去重及數據合并

drop_dupicates

merge

python去重腳本

總結

相關推薦

網站首頁編程語言正文