網站首頁 編程語言 正文
pandas 是基于NumPy 的一種工具,該工具是為了解決數據分析任務而創建的。Pandas 納入了大量庫和一些標準的數據模型,提供了高效地操作大型數據集所需的工具。pandas提供了大量能使我們快速便捷地處理數據的函數和方法。你很快就會發現,它是使Python成為強大而高效的數據分析環境的重要因素之一。
1、pandas
pandas 是一個多功能且功能強大的數據科學庫。?
2、讀取數據
pd.read_csv("data.csv")
3、讀取指定列
pd.read_csv("data.csv", usecols=["date", "price"])
4、讀取并解析日期
pd.read_csv("data.csv", parse_dates=["date"])
5、讀取時指定數據類型
????????在讀取時設置類別數據類型可以節省內存。
pd.read_csv("data.csv", dtype={"house_type": "category"})
6、讀取時設置索引
pd.read_csv("data.csv", index_col="date")
7、設置讀取的行數
pd.read_csv("data.csv", nrows=100)
8、讀取時跳過行數
pd.read_csv("data.csv", skiprows=[1, 5]) # skips line 1 and 5
pd.read_csv("data.csv", skiprows=100) # skips the first 100 lines
pd.read_csv("data.csv", skiprows=lambda x: x > 0 and np.random.rand() > 0.1) # skip 90% of the rows
9、指定NA值
pd.read_csv("data.csv", na_values=["?"])
10、設置布爾值
pd.read_csv("data.csv", true_values=["yes"], false_values=["no"])
11、一次讀取多個文件后合并
import glob
import os
files = glob.glob("file_*.csv")
result = pd.concat([pd.read_csv(f) for f in files], ignore_index=True)
12、復制數據
df = pd.read_clipboard()
13、從 PDF 文件中讀取表格
from tabula import read_pdf
# Read pdf into list of DataFrame
df = read_pdf('test.pdf', pages='all')
14、快速可視化數據集
import pandas_profiling
df = pd.read_csv("data.csv")
profile = df.profile_report(title="Pandas Profiling Report")
profile.to_file(output_file="output.html")
15、按dtype過濾列
# 選擇
df.select_dtypes(include="number")
df.select_dtypes(include=["category", "datetime"])
# 排除
df.select_dtypes(exclude="object")
16、推斷數據類型
df.infer_objects().dtypes
17、向下轉換數值類型
pd.to_numeric(df.numeric_col, downcast="integer") # smallest signed int dtype
pd.to_numeric(df.numeric_col, downcast="float") # smallest float dtype
18、防止錯誤值并填充
# apply to whole data frame
df = df.apply(pd.to_numeric, errors="coerce")
# apply to specific columns
pd.to_numeric(df.numeric_column, errors="coerce")
# filling NA values with zero
pd.to_numeric(df.numeric_column, errors="coerce").fillna(0)
19、按列數據類型轉換
df = df.astype(
{
"date": "datetime64[ns]",
"price": "int",
"is_weekend": "bool",
"status": "category",
}
)
20、重命名列
df = df.rename({"PRICE": "price", "Date (mm/dd/yyyy)": "date"}, axis=1)
21、添加后綴和前綴
df.add_prefix("pre_")
df.add_suffix("_suf")
22、從原列創建新列
# create new column of Fahrenheit values from Celcius
df.assign(temp_f=lambda x: x.temp_c * 9 / 5 + 32)
23、在特定位置插入列
random_col = np.random.randint(10, size=len(df))
df.insert(3, 'random_col', random_col) # inserts at third column
24、三元表達式
df["logic"] = np.where(df["price"] > 5, "high", "low")
25、刪除列
df.drop('col1', axis=1, inplace=True)
df = df.drop(['col1','col2'], axis=1)
s = df.pop('col')
del df['col']
df.drop(df.columns[0], inplace=True)
26、修改列名
df.columns = df.columns.str.lower()
df.columns = df.columns.str.replace(' ', '_')
27、判斷包含
df['name'].str.contains("John")
df['phone_num'].str.contains('...-...-....', regex=True) # regex
df['email'].str.contains('gmail')
28、根據正則查找
pattern = '([A-Z0-9._%+-]+)@([A-Z0-9.-]+)\\.([A-Z]{2,4})'
df['email'].str.findall(pattern, flags=re.IGNORECASE)
29、檢查缺失值并打印缺失百分比
def missing_vals(df):
"""prints out columns with perc of missing values"""
missing = [
(df.columns[idx], perc)
for idx, perc in enumerate(df.isna().mean() * 100)
if perc > 0
]
if len(missing) == 0:
return "no missing values"
# sort desc by perc
missing.sort(key=lambda x: x[1], reverse=True)
print(f"There are a total of {len(missing)} variables with missing values\n")
for tup in missing:
print(str.ljust(f"{tup[0]:<20} => {round(tup[1], 3)}%", 1))
missing_vals(df)
30、處理缺失值
# drop
df.dropna(axis=0)
df.dropna(axis=1)
# impute
df.fillna(0)
df.fillna(method="ffill")
df.fillna(method='bfill')
# replace
df.replace( -999, np.nan)
df.replace("?", np.nan)
# interpolate
ts.interpolate() # time series
df.interpolate() # fill all consecutive values forward
df.interpolate(limit=1) # fill one consecutive value forward
df.interpolate(limit=1, limit_direction="backward")
df.interpolate(limit_direction="both")
31、從今天/之前獲取 X 小時/天/周
# from today
date.today() + datetime.timedelta(hours=30)
date.today() + datetime.timedelta(days=30)
date.today() + datetime.timedelta(weeks=30)
# ago
date.today() - datetime.timedelta(days=365)
32、過濾兩個日期
df[(df["Date"] > "2015-01-01") & (df["Date"] < "2017-01-01")]
33、按日/月/年過濾
df[(df["Date"] > "2015-01-01") & (df["Date"] < "2017-01-01")]
34、格式化數據格式
format_dict = {
"Date": "{:%d/%m/%y}",
"Open": "${:.2f}",
"Close": "${:.2f}",
"Volume": "{:,}",
}
df.style.format(format_dict)
35、設置數據顏色
(
df.style.format(format_dict)
.hide_index()
.highlight_min(["Open"], color="red")
.highlight_max(["Open"], color="green")
.background_gradient(subset="Close", cmap="Greens")
.bar('Volume', color='lightblue', align='zero')
.set_caption('Tesla Stock Prices in 2017')
)
36、獲取一列中最大最小項的id
df['col'].idxmin()
df['col'].idxmax()
37、對數據列應用函數
df.applymap(lambda x: np.log(x))
38、隨機打亂數據
df.sample(frac=1, random_state=7).reset_index(drop=True)
39、時間序列的百分比變化
df['col_name'].pct_change()
40、分配等級
df['rank'] = df['column_to_rank'].rank()
41、檢查內存占用
df.memory_usage().sum() / (1024**2) #converting to MB
42、將列的值分解為多行
df.explode("col_name").reset_index(drop=True)
43、將數量較小的類別轉換為“其他”
subclass = df.MSSubClass
subclass.value_counts()
top_five = subclass.value_counts().nlargest(5).index
mssubclass_new = subclass.where(subclass.isin(top_five), other="Other")
mssubclass_new.value_counts()
原文鏈接:https://blog.csdn.net/bashendixie5/article/details/125934325
相關推薦
- 2022-11-10 rust延遲5秒鎖屏的實現代碼_相關技巧
- 2022-05-20 python?關鍵字與標識符超詳細整理_python
- 2022-04-01 使用Git clone代碼失敗的解決方法
- 2022-10-05 Python線程池的實現淺析_python
- 2022-05-06 golang excel數據寫入到sqlite3中
- 2022-08-25 C++超詳細梳理IO流操作_C 語言
- 2022-08-25 C++示例講解vector容器_C 語言
- 2022-06-14 nginx搭建NFS服務器的方法步驟_nginx
- 最近更新
-
- window11 系統安裝 yarn
- 超詳細win安裝深度學習環境2025年最新版(
- Linux 中運行的top命令 怎么退出?
- MySQL 中decimal 的用法? 存儲小
- get 、set 、toString 方法的使
- @Resource和 @Autowired注解
- Java基礎操作-- 運算符,流程控制 Flo
- 1. Int 和Integer 的區別,Jav
- spring @retryable不生效的一種
- Spring Security之認證信息的處理
- Spring Security之認證過濾器
- Spring Security概述快速入門
- Spring Security之配置體系
- 【SpringBoot】SpringCache
- Spring Security之基于方法配置權
- redisson分布式鎖中waittime的設
- maven:解決release錯誤:Artif
- restTemplate使用總結
- Spring Security之安全異常處理
- MybatisPlus優雅實現加密?
- Spring ioc容器與Bean的生命周期。
- 【探索SpringCloud】服務發現-Nac
- Spring Security之基于HttpR
- Redis 底層數據結構-簡單動態字符串(SD
- arthas操作spring被代理目標對象命令
- Spring中的單例模式應用詳解
- 聊聊消息隊列,發送消息的4種方式
- bootspring第三方資源配置管理
- GIT同步修改后的遠程分支