網站首頁編程語言正文

Pandas的DataFrame如何做交集,并集,差集與對稱差集_python

作者：葉庭云?? ? 更新時間： 2022-04-05 編程語言

一、簡介

Python的數據類型集合：由不同元素組成的集合，集合中是一組無序排列的可 Hash 的值（不可變類型），可以作為字典的Key

Pandas中的DataFrame：DataFrame是一個表格型的數據結構，可以理解為帶有標簽的二維數組。

常用的集合操作如下圖所示：

二、交集

pandas的 merge 功能默認為 inner 連接，可以實現取交集
集合 set 可以直接用 & 取交集

import pandas as pd

print("CSDN葉庭云：https://yetingyun.blog.csdn.net/")
set1 = {"Python", "Go", "C++", "Java"}
set2 = {"Go", "C++", "JavaScript", "C"}
set1 & set2

df1 = pd.DataFrame([
? ? ? ? ['1', 'Python'],
? ? ? ? ['2', 'Go'],
? ? ? ? ['3', 'C++'],
? ? ? ? ['4', 'Java'],
? ? ], columns=['id','name'])


df2 = pd.DataFrame([
? ? ? ? ['2','Go'],
? ? ? ? ['3','C++'],
? ? ? ? ['5','JavaScript'],
? ? ? ? ['6','C'],
? ? ], columns=['id','name'])

pd.merge(df1, df2, on=['id','name'])

操作如下所示：

三、并集

Pandas的 merge 方法里參數 how 的取值有 “left”, “right”, “inner”, “outer”，默認是inner。outer外連接可以實現取并集。另一種方法也可以df1.append(df2)后去重，保留第一次出現的也可以實現取并集。
集合 set 可以直接用 | 取并集

set1 = {"Python", "Go", "C++", "Java"}
set2 = {"Go", "C++", "JavaScript", "C"}
set1 | set2

print("CSDN葉庭云：https://yetingyun.blog.csdn.net/")

df1 = pd.DataFrame([
? ? ? ? ['1', 'Python'],
? ? ? ? ['2', 'Go'],
? ? ? ? ['3', 'C++'],
? ? ? ? ['4', 'Java'],
? ? ], columns=['id','name'])


df2 = pd.DataFrame([
? ? ? ? ['2','Go'],
? ? ? ? ['3','C++'],
? ? ? ? ['5','JavaScript'],
? ? ? ? ['6','C'],
? ? ], columns=['id','name'])

pd.merge(df1, df2,
? ? ? ? ?on=['id','name'],
? ? ? ? ?how='outer')
? ? ? ? ?
df3 = df1.append(df2)
df3.drop_duplicates(subset=['id'], keep="first")

四、差集

set1 = {"Python", "Go", "C++", "Java"}
set2 = {"Go", "C++", "JavaScript", "C"}
set1 - set2

print("CSDN葉庭云：https://yetingyun.blog.csdn.net/")
set1 = {"Python", "Go", "C++", "Java"}
set2 = {"Go", "C++", "JavaScript", "C"}
set2 - set1

# df1-df2
df1 = pd.DataFrame([
? ? ? ? ['1', 'Python'],
? ? ? ? ['2', 'Go'],
? ? ? ? ['3', 'C++'],
? ? ? ? ['4', 'Java'],
? ? ], columns=['id','name'])


df2 = pd.DataFrame([
? ? ? ? ['2','Go'],
? ? ? ? ['3','C++'],
? ? ? ? ['5','JavaScript'],
? ? ? ? ['6','C'],
? ? ], columns=['id','name'])

df1 = df1.append(df2)
df1 = df1.append(df2)
set_diff_df = df1.drop_duplicates(subset=df1.columns,
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? keep=False)
set_diff_df

# df2-df1
df1 = pd.DataFrame([
? ? ? ? ['1', 'Python'],
? ? ? ? ['2', 'Go'],
? ? ? ? ['3', 'C++'],
? ? ? ? ['4', 'Java'],
? ? ], columns=['id','name'])

df2 = pd.DataFrame([
? ? ? ? ['2','Go'],
? ? ? ? ['3','C++'],
? ? ? ? ['5','JavaScript'],
? ? ? ? ['6','C'],
? ? ], columns=['id','name'])

print("CSDN葉庭云：https://yetingyun.blog.csdn.net/")
df2 = df2.append(df1)
df2 = df2.append(df1)
set_diff_df = df2.drop_duplicates(subset=df2.columns,
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? keep=False)
set_diff_df

# df1-df2
df1 = pd.DataFrame([
? ? ? ? ['1', 'Python'],
? ? ? ? ['2', 'Go'],
? ? ? ? ['3', 'C++'],
? ? ? ? ['4', 'Java'],
? ? ], columns=['id','name'])


df2 = pd.DataFrame([
? ? ? ? ['2','Go'],
? ? ? ? ['3','C++'],
? ? ? ? ['5','JavaScript'],
? ? ? ? ['6','C'],
? ? ], columns=['id','name'])

pd.concat([df1, df2, df2]).drop_duplicates(keep=False)

# df2-df1
df1 = pd.DataFrame([
? ? ? ? ['1', 'Python'],
? ? ? ? ['2', 'Go'],
? ? ? ? ['3', 'C++'],
? ? ? ? ['4', 'Java'],
? ? ], columns=['id','name'])


df2 = pd.DataFrame([
? ? ? ? ['2','Go'],
? ? ? ? ['3','C++'],
? ? ? ? ['5','JavaScript'],
? ? ? ? ['6','C'],
? ? ], columns=['id','name'])

pd.concat([df2, df1, df1]).drop_duplicates(keep=False)

五、對稱差集

print("CSDN葉庭云：https://yetingyun.blog.csdn.net/")
set1 = {"Python", "Go", "C++", "Java"}
set2 = {"Go", "C++", "JavaScript", "C"}
set1 ^ set2 ? ?# 對稱差集

# 去重 ? 不保留重復的：即可實現取對稱差集
df3 = df1.append(df2)

df3.drop_duplicates(subset=['id'], keep=False)

原文鏈接：https://blog.csdn.net/fyfugoyfa/article/details/122588761

上一篇：Python利用prettytable庫輸出好看的表格_py
下一篇：Python+Opencv答題卡識別用例詳解_python

日本免费高清视频-国产福利视频导航-黄色在线播放国产-天天操天天操天天操天天操|www.shdianci.com

網站首頁編程語言正文

Pandas的DataFrame如何做交集,并集,差集與對稱差集_python

目錄

一、簡介

二、交集

三、并集

四、差集

五、對稱差集

相關推薦

日本免费高清视频-国产福利视频导航-黄色在线播放国产-天天操天天操天天操天天操|www.shdianci.com

網站首頁 編程語言 正文

Pandas的DataFrame如何做交集,并集,差集與對稱差集_python

目錄

一、簡介

二、交集

三、并集

四、差集

五、對稱差集

相關推薦

網站首頁編程語言正文