日本免费高清视频-国产福利视频导航-黄色在线播放国产-天天操天天操天天操天天操|www.shdianci.com

學無先后,達者為師

網站首頁 編程語言 正文

pandas數據聚合與分組運算的實現_python

作者:CarveStone ? 更新時間: 2023-03-18 編程語言

數據聚合與分組運算

對數據集進行分組并對各組應用一個函數(無論是聚合還是轉換),通常是數據分析工作中的重要環節。在將數據集加載、融合、準備好之后,通常就是計算分組統計或生成透視表。pandas提供了一個靈活高效的gruopby功能,它使你能以一種自然的方式對數據集進行切片、切塊、摘要等操作。

關系型數據庫和SQL(Structured Query Language,結構化查詢語言)能夠如此流行的原因之一就是其能夠方便地對數據進行連接、過濾、轉換和聚合。但是,像SQL這樣的查詢語言所能執行的分組運算的種類很有限。在本章中你將會看到,由于Python和pandas強大的表達能力,我們可以執行復雜得多的分組運算(利用任何可以接受pandas對象或NumPy數組的函數)。

分組與聚合的原理

在Pandas中,分組是指使用特定的條件將原數據劃分為多個組,聚合在這里指的是,對每個分組中的數據執行某些操作,最后將計算的結果進行整合。

分組與聚合的過程大概分為以下三步:

[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-1DcdPD1Z-1674035110873)(10數據聚合與分組運算.assets/image-20210402111015748.png)]

通過groupby()方法將數據拆分成組

groupby(by=None, axis=0, level=None, as_index=True, sort=True,group_keys=True, squeeze=False, observed=False, **kwargs)

  • by:用于確定進行分組的依據。
  • axis:表示分組軸的方向。
  • sort:表示是否對分組標簽進行排序,接收布爾值,默認為True。

按列名進行分組

# 通過列名進行分組
import pandas as pd
df = pd.DataFrame({"key":['c','b','c','a','b','b','a','c','a'],
                "data":[2,4,6,8,10,1,14,16,19]
})
print(df)
'''
  key  data
0   c     2
1   b     4
2   c     6
3   a     8
4   b    10
5   b     1
6   a    14
7   c    16
8   a    19
'''
# 按照key列進行分組
print(df.groupby(by='key'))
'''<pandas.core.groupby.generic.DataFrameGroupBy object at 0x0000000008216688>
'''
group_obj = df.groupby('key')
for i in group_obj:
    print(i)
'''
('a',   key  data
3   a     8
6   a    14
8   a    19)
('b',   key  data
1   b     4
4   b    10
5   b     1)
('c',   key  data
0   c     2
2   c     6
7   c    16)
'''

按Series對象進行分組

如果Series對象與Pandas對象的索引長度不相同時,則只會將具有相同索引的部分數據進行分組

import numpy as np
import pandas as pd
df = pd.DataFrame({
    'key1':['A','A','B','B','A'],
    'key2':['one','two','one','two','one'],
    'data1':['2','3','4','6','8'],
    'data2':['3','5','6','3','7']
})
print(df)
'''
  key1 key2 data1 data2
0    A  one     2     3
1    A  two     3     5
2    B  one     4     6
3    B  two     6     3
4    A  one     8     7
'''
se = pd.Series(['a','b','c','a','b'])
print(se)
'''
0    a
1    b
2    c
3    a
4    b
dtype: object
'''
group_obj = df.groupby(se) # 定義series對象進行分組
for i in group_obj:
    print(i)
'''
('a',   key  data
0   c     2
3   a     8)
('b',   key  data
1   b     4
4   b    10)
('c',   key  data
2   c     6)
'''

按字典進行分組

可以將這個字典傳給groupby,來構造數組

# 通過字典進行分組
from pandas import DataFrame,Series
num_df = DataFrame({'a':[1,2,3,4,5],
                   'b':[6,7,8,9,10],
                   'c':[11,12,13,14,15],
                   'd':[5,4,3,2,1],
                   'e':[10,9,8,7,6]})
print(num_df)
'''
   a   b   c  d   e
0  1   6  11  5  10
1  2   7  12  4   9
2  3   8  13  3   8
3  4   9  14  2   7
4  5  10  15  1   6
'''
# 定義分組規則
mapping = {'a':'第一組','b':'第二組','c':'第一組','d':'第三組','e':'第二組'}
by_column = num_df.groupby(mapping, axis=1)
for i in by_column:
    print(i)
'''
('第一組',    a   c
0  1  11
1  2  12
2  3  13
3  4  14
4  5  15)
('第三組',    d
0  5
1  4
2  3
3  2
4  1)
('第二組',     b   e
0   6  10
1   7   9
2   8   8
3   9   7
4  10   6)
'''

按函數進行分組

將函數作為分組鍵會更加靈活,任何一個被當做分組鍵的函數都會在各個索引值上被調用一次,返回的值會被用作分組名稱。

使用內置函數len進行分組 groupby_obj = df.groupby(len)

比起使用字典或Series,使用Python函數是一種更原生的方法定義分組映射。任何被當做分組鍵的函數都會在各個索引值上被調用一次,其返回值就會被用作分組名稱。你可以計算一個字符串長度的數組,更簡單的方法是傳入len函數:

key_list = ['a', 'a', 'a', 'b', 'b']
num_df.groupby([len, key_list]).min()

原文鏈接:https://blog.csdn.net/weixin_44018458/article/details/128728844

欄目分類
最近更新