網站首頁 編程語言 正文
前言
我們知道數據是一項寶貴的資產,近年來經歷了指數級增長。但是原始數據通常不能立即使用,它需要進行大量清理和轉換。
Pandas 是 Python 的數據分析和操作庫,它有多種清理數據的方法和函數。在本文中,我將做5個示例來幫助大家掌握數據清理技能。
數據集
這是一個包含臟數據的示例數據框
讓我們看看可以做些什么來使這個數據集變得干凈。
第一列是多余的,應該刪除;
Date 沒有標準;
Name 寫成姓氏、名字,并有大寫和小寫字母;
Payment 代表一個數量,但它們顯示為字符串,需要處理;
在 Note 中,有一些非字母數字應該被刪除;
示例 1
刪除列是使用 drop 函數的簡單操作。除了寫列名外,我們還需要指定軸參數的值,因為 drop 函數用于刪除行和列。 最后,我們可以使用 inplace 參數來保存更改。
import pandas as pd df.drop("Unnamed: 0", axis=1, inplace=True)
示例 2
我們有多種選擇將日期值轉換為適當的格式。一種更簡單的方法是使用 astype 函數來更改列的數據類型。
它能夠處理范圍廣泛的值并將它們轉換為整潔、標準的日期格式。
df["Date"] = df["Date"].astype("datetime64[ns]")
示例 3
關于名稱列,我們首先需要解決如下問題:
首先我們應該用所有大寫或小寫字母來表示它們。另一種選擇是將它們大寫(即只有首字母是大寫的);
切換姓氏和名字的順序;
df["Name"].str.split(",", expand=True)
然后,我將取第二列與第一列結合起來,中間有一個空格。最后一步是使用 lower 函數將字母轉換為小寫。
df["Name"] = (df["Name"].str.split(",", expand=True)[1] + " " + df["Name"].str.split(",", expand=True)[0]).str.lower()
示例 4
支付Payment的數據類型是不能用于數值分析的。在將其轉換為數字數據類型(即整數或浮點數)之前,我們需要刪除美元符號并將第一行中的逗號替換為點。
我們可以使用 Pandas 在一行代碼中完成所有這些操作
df["Payment"] = df["Payment"].str[1:].str.replace(",", ".").astype("float")
示例 5
Note 列中的一些字符也需要刪除。在處理大型數據集時,可能很難手動替換它們。
我們可以做的是刪除非字母數字字符(例如?、!、-、. 等)。在這種情況下也可以使用 replace 函數,因為它接受正則表達式。
如果我們只想要字母字符,下面是我們如何使用替換函數:
df["Note"].str.replace('[^a-zA-Z]', '') 0 Unhappy 1 Satisfied 2 Neutral 3 Unhappy 4 Neutral Name: Note, dtype: object
如果我們想要字母和數字(即字母數字),我們需要在我們的正則表達式中添加數字:
df["Note"].str.replace('[^a-zA-Z0-9]', '') 0 Unhappy 1 Satisfied 2 Neutral 3 Unhappy 4 Neutral0 Name: Note, dtype: object
請注意,這次沒有刪除最后一行中的 0,我只需選擇第一個選項。如果我還想在刪除非字母數字字符后將字母轉換為小寫
df["Note"] = df["Note"].str.replace('[^a-zA-Z]', '').str.lower()
與初始形式相比,數據集看起來要好得多。當然,它是一個簡單的數據集,但這些清理操作在處理大型數據集時肯定會對你有所幫助。
總結
原文鏈接:https://blog.csdn.net/weixin_38037405/article/details/122873305
相關推薦
- 2022-03-20 android自定義對話框實例代碼_Android
- 2023-12-18 Jedis和springboot集成redis
- 2022-12-28 React組件通信實現流程詳解_React
- 2022-09-09 使用PyTorch實現隨機搜索策略_python
- 2022-05-17 Spring Cloud OpenFeign源碼解析
- 2021-12-02 C語言中幾種常量的認識和理解_C 語言
- 2022-03-28 用python實現九九乘法表實例_python
- 2022-08-05 利用jQuery?treetable實現樹形表格拖拽詳解_jquery
- 最近更新
-
- window11 系統安裝 yarn
- 超詳細win安裝深度學習環境2025年最新版(
- Linux 中運行的top命令 怎么退出?
- MySQL 中decimal 的用法? 存儲小
- get 、set 、toString 方法的使
- @Resource和 @Autowired注解
- Java基礎操作-- 運算符,流程控制 Flo
- 1. Int 和Integer 的區別,Jav
- spring @retryable不生效的一種
- Spring Security之認證信息的處理
- Spring Security之認證過濾器
- Spring Security概述快速入門
- Spring Security之配置體系
- 【SpringBoot】SpringCache
- Spring Security之基于方法配置權
- redisson分布式鎖中waittime的設
- maven:解決release錯誤:Artif
- restTemplate使用總結
- Spring Security之安全異常處理
- MybatisPlus優雅實現加密?
- Spring ioc容器與Bean的生命周期。
- 【探索SpringCloud】服務發現-Nac
- Spring Security之基于HttpR
- Redis 底層數據結構-簡單動態字符串(SD
- arthas操作spring被代理目標對象命令
- Spring中的單例模式應用詳解
- 聊聊消息隊列,發送消息的4種方式
- bootspring第三方資源配置管理
- GIT同步修改后的遠程分支