日本免费高清视频-国产福利视频导航-黄色在线播放国产-天天操天天操天天操天天操|www.shdianci.com

學無先后,達者為師

網站首頁 編程語言 正文

python類別數據數字化LabelEncoder?VS?OneHotEncoder區別_python

作者:HZ在掘金 ? 更新時間: 2022-11-05 編程語言

LabelEncoder 和 OneHotEncoder 是什么

- 在數據處理過程中,我們有時需要對不連續的數字或者文本進行數字化處理。
- 在使用 Python 進行數據處理時,用 encoder 來轉化 dummy variable(虛擬數據)非常簡便,encoder 可以將數據集中的文本轉化成0或1的數值。
- LabelEncoder 和 OneHotEncoder 是 scikit-learn 包中的兩個功能,可以實現上述的轉化過程。
- sklearn.preprocessing.LabelEncoder
- sklearn.preprocessing.OneHotEncoder?

數據集中的類別數據

在使用回歸模型和機器學習模型時,所有的考察數據都是數值更容易得到好的結果。
因為回歸和機器學習都是基于數學函數方法的,所以當我們要分析的數據集中出現了類別數據(categorical data),此時的數據是不理想的,因為我們不能用數學的方法處理它們。

例如,在處理男和女兩個性別數據時,我們用0和1將其代替,再進行分析。

由于這種情況的出現,我們需要可以將文字數字化的現成方法。

LabelEncoder 和 OneHotEncoder 的區別

具體代碼

import pandas as pd
from sklearn.preprocessing import LabelEncoder, OneHotEncoder
from sklearn.cross_validation import train_test_split
# 讀取數據
data_df = pd.read_csv('https://archive.ics.uci.edu/ml/machine-learning-databases/'
                 'breast-cancer-wisconsin/wdbc.data', header=None)
# 前面的數據是特征,最后一列是標簽label
x, y = data_df.values[:, :-1], data_df.values[:, -1]
# 先實例化一個對象
encoder_x = LabelEncoder() 
# 對標簽進行類別數據數字化
y = encoder_x.fit_transform( y )

原文鏈接:https://juejin.cn/post/7018066861132611591

欄目分類
最近更新