網站首頁 編程語言 正文
Pandas導入
Pandas是Python第三方庫,提供高性能易用數據類型和分析工具 Pandas基于NumPy實現,常與NumPy和Matplotlib一同使用 兩個數據類型:Series, DataFrame
import pandas as pd
Pandas與numpy的比較
Pandas的Series類型
由一組數據及與之相關的數據索引組成
Pandas的Series類型的創建
Series類型可以由如下類型創建:
Python列表,index與列表元素個數一致 標量值,index表達Series類型的尺寸 Python字典,鍵值對中的“鍵”是索引,index從字典中進行選擇操作 ndarray,索引和數據都可以通過ndarray類型創建 其他函數,range()函數等
Pandas的Series類型的基本操作
Series類型包含index和values兩個部分:
index 獲得索引 values 獲得數據
由ndarray或字典創建的Series,操作類似ndarray或字典類型
pandas的DataFrame類型
DataFrame類型由共用相同索引的一組列組成
DataFrame是一個表格型的數據類型,每列值類型可以不同
DataFrame既有行索引、也有列索引
DataFrame常用于表達二維數據,但可以表達多維數據
DataFrame是二維帶“標簽”數組
DataFrame基本操作類似Series,依據行列索引
pandas的DataFrame類型創建
DataFrame類型可以由如下類型創建:
二維ndarray對象 由一維ndarray、列表、字典、元組或Series構成的字典 Series類型 其他的DataFrame類型
Pandas的Dataframe類型的基本操作
pandas索引操作
pandas重新索引
reindex()能夠改變或重排Series和DataFrame索引
reindex(index=None, columns=None, …)的參數
pandas刪除索引
drop()能夠刪除Series和DataFrame指定行或列索引
pandas數據運算
算術運算根據行列索引,補齊后運算,運算默認產生浮點數 補齊時缺項填充NaN (空值) 二維和一維、一維和零維間為廣播運算 采用+ ‐ * /符號進行的二元運算產生新的對象
算術運算
不同維度間為廣播運算,一維Series默認在軸1參與運算 使用運算方法可以令一維Series參與軸0運算
Pandas數據分析
pandas導入與導出數據
導入數據
pd.read_csv(filename):從CSV文件導入數據
pd.read_table(filename):從限定分隔符的文本文件導入數據
pd.read_excel(filename):從Excel文件導入數據
pd.read_sql(query, connection_object):從SQL表/庫導入數據
pd.read_json(json_string):從JSON格式的字符串導入數據
pd.read_html(url):解析URL、字符串或者HTML文件,抽取其中的tables表格
pd.read_clipboard():從你的粘貼板獲取內容,并傳給read_table()
pd.DataFrame(dict):從字典對象導入數據,Key是列名,Value是數據
導出數據
df.to_csv(filename):導出數據到CSV文件
df.to_excel(filename):導出數據到Excel文件
df.to_sql(table_name, connection_object):導出數據到SQL表
df.to_json(filename):以Json格式導出數據到文本文件
Pandas查看、檢查數據
df.head(n):查看DataFrame對象的前n行
df.tail(n):查看DataFrame對象的最后n行
df.shape():查看行數和列數
http://df.info():查看索引、數據類型和內存信息
df.describe():查看數值型列的匯總統計
s.value_counts(dropna=False):查看Series對象的唯一值和計數
df.apply(pd.Series.value_counts):查看DataFrame對象中每一列的唯一值和計數
Pandas數據選取
df[col]:根據列名,并以Series的形式返回列
df[[col1, col2]]:以DataFrame形式返回多列
s.iloc[0]:按位置選取數據
s.loc['index_one']:按索引選取數據
df.iloc[0,:]:返回第一行
df.iloc[0,0]:返回第一列的第一個元素
pandas數據清理
df.columns = ['a','b','c']:重命名列名
pd.isnull():檢查DataFrame對象中的空值,并返回一個Boolean數組
pd.notnull():檢查DataFrame對象中的非空值,并返回一個Boolean數組
df.dropna():刪除所有包含空值的行
df.dropna(axis=1):刪除所有包含空值的列
df.dropna(axis=1,thresh=n):刪除所有小于n個非空值的行
df.fillna(x):用x替換DataFrame對象中所有的空值
s.astype(float):將Series中的數據類型更改為float類型
s.replace(1,'one'):用‘one’代替所有等于1的值
s.replace([1,3],['one','three']):用'one'代替1,用'three'代替3
df.rename(columns=lambda x: x + 1):批量更改列名
df.rename(columns={'old_name': 'new_ name'}):選擇性更改列名
df.set_index('column_one'):更改索引列
df.rename(index=lambda x: x + 1):批量重命名索引
Pandas數據處理
df.columns = ['a','b','c']:重命名列名
pd.isnull():檢查DataFrame對象中的空值,并返回一個Boolean數組
pd.notnull():檢查DataFrame對象中的非空值,并返回一個Boolean數組
df.dropna():刪除所有包含空值的行
df.dropna(axis=1):刪除所有包含空值的列
df.dropna(axis=1,thresh=n):刪除所有小于n個非空值的行
df.fillna(x):用x替換DataFrame對象中所有的空值
s.astype(float):將Series中的數據類型更改為float類型
s.replace(1,'one'):用‘one’代替所有等于1的值
s.replace([1,3],['one','three']):用'one'代替1,用'three'代替3
df.rename(columns=lambda x: x + 1):批量更改列名
df.rename(columns={'old_name': 'new_ name'}):選擇性更改列名
df.set_index('column_one'):更改索引列
df.rename(index=lambda x: x + 1):批量重命名索引
df[df[col] > 0.5]:選擇col列的值大于0.5的行
df.sort_values(col1):按照列col1排序數據,默認升序排列
df.sort_values(col2, ascending=False):按照列col1降序排列數據
df.sort_values([col1,col2], ascending=[True,False]):先按列col1升序排列,后按col2降序排列數據
df.groupby(col):返回一個按列col進行分組的Groupby對象
df.groupby([col1,col2]):返回一個按多列進行分組的Groupby對象
df.groupby(col1)[col2]:返回按列col1進行分組后,列col2的均值
df.pivot_table(index=col1, values=[col2,col3], aggfunc=max):創建一個按列col1進行分組,并計算col2和col3的最大值的數據透視表
df.groupby(col1).agg(np.mean):返回按列col1分組的所有列的均值
data.apply(np.mean):對DataFrame中的每一列應用函數np.mean
data.apply(np.max,axis=1):對DataFrame中的每一行應用函數np.max
Pandas數據合并
df1.append(df2):將df2中的行添加到df1的尾部
df.concat([df1, df2],axis=1):將df2中的列添加到df1的尾部
df1.join(df2,on=col1,how='inner'):對df1的列和df2的列執行SQL形式的join
Pandas數據統計
df.describe():查看數據值列的匯總統計
df.mean():返回所有列的均值
df.corr():返回列與列之間的相關系數
df.count():返回每一列中的非空值的個數
df.max():返回每一列的最大值
df.min():返回每一列的最小值
df.median():返回每一列的中位數
df.std():返回每一列的標準差
原文鏈接:https://www.cnblogs.com/ranxi169/p/16712735.html
相關推薦
- 2022-03-29 redis的list數據類型相關命令介紹及使用_Redis
- 2022-09-13 iOS封裝倒計時按鈕HLCountDownButton示例詳解_IOS
- 2022-09-21 Python實現斐波那契數列的多種寫法總結_python
- 2021-11-06 Docker下部署lnmp詳細步驟_docker
- 2021-11-08 Android如何實現時間線效果_Android
- 2022-11-03 react+tsx中使用better-scroll詳解_React
- 2021-12-07 關于postman上傳文件執行成功而使用collection?runner執行失敗的問題_相關技巧
- 2022-07-07 Python筆記之a?=?[0]*x格式的含義及說明_python
- 最近更新
-
- window11 系統安裝 yarn
- 超詳細win安裝深度學習環境2025年最新版(
- Linux 中運行的top命令 怎么退出?
- MySQL 中decimal 的用法? 存儲小
- get 、set 、toString 方法的使
- @Resource和 @Autowired注解
- Java基礎操作-- 運算符,流程控制 Flo
- 1. Int 和Integer 的區別,Jav
- spring @retryable不生效的一種
- Spring Security之認證信息的處理
- Spring Security之認證過濾器
- Spring Security概述快速入門
- Spring Security之配置體系
- 【SpringBoot】SpringCache
- Spring Security之基于方法配置權
- redisson分布式鎖中waittime的設
- maven:解決release錯誤:Artif
- restTemplate使用總結
- Spring Security之安全異常處理
- MybatisPlus優雅實現加密?
- Spring ioc容器與Bean的生命周期。
- 【探索SpringCloud】服務發現-Nac
- Spring Security之基于HttpR
- Redis 底層數據結構-簡單動態字符串(SD
- arthas操作spring被代理目標對象命令
- Spring中的單例模式應用詳解
- 聊聊消息隊列,發送消息的4種方式
- bootspring第三方資源配置管理
- GIT同步修改后的遠程分支