網站首頁 編程語言 正文
LabelEncoder 和 OneHotEncoder 是什么
- 在數據處理過程中,我們有時需要對不連續的數字或者文本進行數字化處理。
- 在使用 Python 進行數據處理時,用 encoder 來轉化 dummy variable(虛擬數據)非常簡便,encoder 可以將數據集中的文本轉化成0或1的數值。
- LabelEncoder 和 OneHotEncoder 是 scikit-learn 包中的兩個功能,可以實現上述的轉化過程。
- sklearn.preprocessing.LabelEncoder
- sklearn.preprocessing.OneHotEncoder?
數據集中的類別數據
在使用回歸模型和機器學習模型時,所有的考察數據都是數值更容易得到好的結果。
因為回歸和機器學習都是基于數學函數方法的,所以當我們要分析的數據集中出現了類別數據(categorical data),此時的數據是不理想的,因為我們不能用數學的方法處理它們。
例如,在處理男和女兩個性別數據時,我們用0和1將其代替,再進行分析。
由于這種情況的出現,我們需要可以將文字數字化的現成方法。
LabelEncoder 和 OneHotEncoder 的區別
具體代碼
import pandas as pd
from sklearn.preprocessing import LabelEncoder, OneHotEncoder
from sklearn.cross_validation import train_test_split
# 讀取數據
data_df = pd.read_csv('https://archive.ics.uci.edu/ml/machine-learning-databases/'
'breast-cancer-wisconsin/wdbc.data', header=None)
# 前面的數據是特征,最后一列是標簽label
x, y = data_df.values[:, :-1], data_df.values[:, -1]
# 先實例化一個對象
encoder_x = LabelEncoder()
# 對標簽進行類別數據數字化
y = encoder_x.fit_transform( y )
原文鏈接:https://juejin.cn/post/7018066861132611591
相關推薦
- 2022-04-08 Unity?UGUI?按鈕綁定事件的?4?種方式匯總_C#教程
- 2022-05-10 bean基于xml文件
- 2022-08-22 詳解Go語言中for循環,break和continue的使用_Golang
- 2022-07-27 Golang的strings.Split()踩坑記錄_Golang
- 2022-09-03 詳解Docker鏡像的基本操作方法_docker
- 2022-12-24 C#?Math中常用數學運算的示例詳解_C#教程
- 2022-10-11 Data truncation: Data too long for column ‘context
- 2022-10-29 qt輸出自定義的pdf文件源碼詳解
- 最近更新
-
- window11 系統安裝 yarn
- 超詳細win安裝深度學習環境2025年最新版(
- Linux 中運行的top命令 怎么退出?
- MySQL 中decimal 的用法? 存儲小
- get 、set 、toString 方法的使
- @Resource和 @Autowired注解
- Java基礎操作-- 運算符,流程控制 Flo
- 1. Int 和Integer 的區別,Jav
- spring @retryable不生效的一種
- Spring Security之認證信息的處理
- Spring Security之認證過濾器
- Spring Security概述快速入門
- Spring Security之配置體系
- 【SpringBoot】SpringCache
- Spring Security之基于方法配置權
- redisson分布式鎖中waittime的設
- maven:解決release錯誤:Artif
- restTemplate使用總結
- Spring Security之安全異常處理
- MybatisPlus優雅實現加密?
- Spring ioc容器與Bean的生命周期。
- 【探索SpringCloud】服務發現-Nac
- Spring Security之基于HttpR
- Redis 底層數據結構-簡單動態字符串(SD
- arthas操作spring被代理目標對象命令
- Spring中的單例模式應用詳解
- 聊聊消息隊列,發送消息的4種方式
- bootspring第三方資源配置管理
- GIT同步修改后的遠程分支