網站首頁 編程語言 正文
LabelEncoder 和 OneHotEncoder 是什么
- 在數據處理過程中,我們有時需要對不連續的數字或者文本進行數字化處理。
- 在使用 Python 進行數據處理時,用 encoder 來轉化 dummy variable(虛擬數據)非常簡便,encoder 可以將數據集中的文本轉化成0或1的數值。
- LabelEncoder 和 OneHotEncoder 是 scikit-learn 包中的兩個功能,可以實現上述的轉化過程。
- sklearn.preprocessing.LabelEncoder
- sklearn.preprocessing.OneHotEncoder?
數據集中的類別數據
在使用回歸模型和機器學習模型時,所有的考察數據都是數值更容易得到好的結果。
因為回歸和機器學習都是基于數學函數方法的,所以當我們要分析的數據集中出現了類別數據(categorical data),此時的數據是不理想的,因為我們不能用數學的方法處理它們。
例如,在處理男和女兩個性別數據時,我們用0和1將其代替,再進行分析。
由于這種情況的出現,我們需要可以將文字數字化的現成方法。
LabelEncoder 和 OneHotEncoder 的區別
具體代碼
import pandas as pd
from sklearn.preprocessing import LabelEncoder, OneHotEncoder
from sklearn.cross_validation import train_test_split
# 讀取數據
data_df = pd.read_csv('https://archive.ics.uci.edu/ml/machine-learning-databases/'
'breast-cancer-wisconsin/wdbc.data', header=None)
# 前面的數據是特征,最后一列是標簽label
x, y = data_df.values[:, :-1], data_df.values[:, -1]
# 先實例化一個對象
encoder_x = LabelEncoder()
# 對標簽進行類別數據數字化
y = encoder_x.fit_transform( y )
原文鏈接:https://juejin.cn/post/7018066861132611591
相關推薦
- 2022-04-12 原生drag拖拽后元素過大,擋住其他可拖動位置無法拖動問題
- 2022-07-07 基于Python制作一個文件解壓縮工具_python
- 2022-09-13 Go語言中的數據競爭模式詳解_Golang
- 2022-03-15 linux系統中計劃任務介紹_Linux
- 2023-01-26 Redis中的配置文件,數據持久化,事務_Redis
- 2022-11-28 Android開發框架MVC-MVP-MVVM-MVI的演變Demo_Android
- 2022-05-11 django配置DJANGO_SETTINGS_MODULE的實現_python
- 2023-11-23 python獲取文件夾內所有文件并改名
- 最近更新
-
- window11 系統安裝 yarn
- 超詳細win安裝深度學習環境2025年最新版(
- Linux 中運行的top命令 怎么退出?
- MySQL 中decimal 的用法? 存儲小
- get 、set 、toString 方法的使
- @Resource和 @Autowired注解
- Java基礎操作-- 運算符,流程控制 Flo
- 1. Int 和Integer 的區別,Jav
- spring @retryable不生效的一種
- Spring Security之認證信息的處理
- Spring Security之認證過濾器
- Spring Security概述快速入門
- Spring Security之配置體系
- 【SpringBoot】SpringCache
- Spring Security之基于方法配置權
- redisson分布式鎖中waittime的設
- maven:解決release錯誤:Artif
- restTemplate使用總結
- Spring Security之安全異常處理
- MybatisPlus優雅實現加密?
- Spring ioc容器與Bean的生命周期。
- 【探索SpringCloud】服務發現-Nac
- Spring Security之基于HttpR
- Redis 底層數據結構-簡單動態字符串(SD
- arthas操作spring被代理目標對象命令
- Spring中的單例模式應用詳解
- 聊聊消息隊列,發送消息的4種方式
- bootspring第三方資源配置管理
- GIT同步修改后的遠程分支