網站首頁 編程語言 正文
數據聚合與分組運算
對數據集進行分組并對各組應用一個函數(無論是聚合還是轉換),通常是數據分析工作中的重要環節。在將數據集加載、融合、準備好之后,通常就是計算分組統計或生成透視表。pandas提供了一個靈活高效的gruopby功能,它使你能以一種自然的方式對數據集進行切片、切塊、摘要等操作。
關系型數據庫和SQL(Structured Query Language,結構化查詢語言)能夠如此流行的原因之一就是其能夠方便地對數據進行連接、過濾、轉換和聚合。但是,像SQL這樣的查詢語言所能執行的分組運算的種類很有限。在本章中你將會看到,由于Python和pandas強大的表達能力,我們可以執行復雜得多的分組運算(利用任何可以接受pandas對象或NumPy數組的函數)。
分組與聚合的原理
在Pandas中,分組是指使用特定的條件將原數據劃分為多個組,聚合在這里指的是,對每個分組中的數據執行某些操作,最后將計算的結果進行整合。
分組與聚合的過程大概分為以下三步:
通過groupby()方法將數據拆分成組
groupby(by=None, axis=0, level=None, as_index=True, sort=True,group_keys=True, squeeze=False, observed=False, **kwargs)
- by:用于確定進行分組的依據。
- axis:表示分組軸的方向。
- sort:表示是否對分組標簽進行排序,接收布爾值,默認為True。
按列名進行分組
# 通過列名進行分組
import pandas as pd
df = pd.DataFrame({"key":['c','b','c','a','b','b','a','c','a'],
"data":[2,4,6,8,10,1,14,16,19]
})
print(df)
'''
key data
0 c 2
1 b 4
2 c 6
3 a 8
4 b 10
5 b 1
6 a 14
7 c 16
8 a 19
'''
# 按照key列進行分組
print(df.groupby(by='key'))
'''<pandas.core.groupby.generic.DataFrameGroupBy object at 0x0000000008216688>
'''
group_obj = df.groupby('key')
for i in group_obj:
print(i)
'''
('a', key data
3 a 8
6 a 14
8 a 19)
('b', key data
1 b 4
4 b 10
5 b 1)
('c', key data
0 c 2
2 c 6
7 c 16)
'''
按Series對象進行分組
如果Series對象與Pandas對象的索引長度不相同時,則只會將具有相同索引的部分數據進行分組
import numpy as np
import pandas as pd
df = pd.DataFrame({
'key1':['A','A','B','B','A'],
'key2':['one','two','one','two','one'],
'data1':['2','3','4','6','8'],
'data2':['3','5','6','3','7']
})
print(df)
'''
key1 key2 data1 data2
0 A one 2 3
1 A two 3 5
2 B one 4 6
3 B two 6 3
4 A one 8 7
'''
se = pd.Series(['a','b','c','a','b'])
print(se)
'''
0 a
1 b
2 c
3 a
4 b
dtype: object
'''
group_obj = df.groupby(se) # 定義series對象進行分組
for i in group_obj:
print(i)
'''
('a', key data
0 c 2
3 a 8)
('b', key data
1 b 4
4 b 10)
('c', key data
2 c 6)
'''
按字典進行分組
可以將這個字典傳給groupby,來構造數組
# 通過字典進行分組
from pandas import DataFrame,Series
num_df = DataFrame({'a':[1,2,3,4,5],
'b':[6,7,8,9,10],
'c':[11,12,13,14,15],
'd':[5,4,3,2,1],
'e':[10,9,8,7,6]})
print(num_df)
'''
a b c d e
0 1 6 11 5 10
1 2 7 12 4 9
2 3 8 13 3 8
3 4 9 14 2 7
4 5 10 15 1 6
'''
# 定義分組規則
mapping = {'a':'第一組','b':'第二組','c':'第一組','d':'第三組','e':'第二組'}
by_column = num_df.groupby(mapping, axis=1)
for i in by_column:
print(i)
'''
('第一組', a c
0 1 11
1 2 12
2 3 13
3 4 14
4 5 15)
('第三組', d
0 5
1 4
2 3
3 2
4 1)
('第二組', b e
0 6 10
1 7 9
2 8 8
3 9 7
4 10 6)
'''
按函數進行分組
將函數作為分組鍵會更加靈活,任何一個被當做分組鍵的函數都會在各個索引值上被調用一次,返回的值會被用作分組名稱。
使用內置函數len進行分組 groupby_obj = df.groupby(len)
比起使用字典或Series,使用Python函數是一種更原生的方法定義分組映射。任何被當做分組鍵的函數都會在各個索引值上被調用一次,其返回值就會被用作分組名稱。你可以計算一個字符串長度的數組,更簡單的方法是傳入len函數:
key_list = ['a', 'a', 'a', 'b', 'b']
num_df.groupby([len, key_list]).min()
原文鏈接:https://blog.csdn.net/weixin_44018458/article/details/128728844
相關推薦
- 2023-02-18 go?gin?正確讀取http?response?body內容并多次使用詳解_Golang
- 2023-01-07 python導入其他目錄下模塊的四種情況_python
- 2022-09-08 執行go?vendor第三方包版本沖突問題解決_Golang
- 2023-01-17 SqlServer事務語法及使用方法詳解_MsSql
- 2023-02-27 plt.subplot()參數及使用介紹_python
- 2022-09-10 docker?machine安裝極狐gitlab的過程詳解_docker
- 2022-12-31 Python中CSV文件的讀寫庫操作方法_python
- 2022-08-11 Python操作數據庫之數據庫編程接口_python
- 最近更新
-
- window11 系統安裝 yarn
- 超詳細win安裝深度學習環境2025年最新版(
- Linux 中運行的top命令 怎么退出?
- MySQL 中decimal 的用法? 存儲小
- get 、set 、toString 方法的使
- @Resource和 @Autowired注解
- Java基礎操作-- 運算符,流程控制 Flo
- 1. Int 和Integer 的區別,Jav
- spring @retryable不生效的一種
- Spring Security之認證信息的處理
- Spring Security之認證過濾器
- Spring Security概述快速入門
- Spring Security之配置體系
- 【SpringBoot】SpringCache
- Spring Security之基于方法配置權
- redisson分布式鎖中waittime的設
- maven:解決release錯誤:Artif
- restTemplate使用總結
- Spring Security之安全異常處理
- MybatisPlus優雅實現加密?
- Spring ioc容器與Bean的生命周期。
- 【探索SpringCloud】服務發現-Nac
- Spring Security之基于HttpR
- Redis 底層數據結構-簡單動態字符串(SD
- arthas操作spring被代理目標對象命令
- Spring中的單例模式應用詳解
- 聊聊消息隊列,發送消息的4種方式
- bootspring第三方資源配置管理
- GIT同步修改后的遠程分支