網站首頁編程語言正文

Python中尋找數據異常值的3種方法_python

作者：sgzqc??????? ? 更新時間： 2022-10-18 編程語言

1. 引言

在數據處理、機器學習等領域，我們經常需要對各式各樣的數據進行處理，本文重點介紹三種非常簡單的方法來檢測數據集中的異常值。?

2. 舉個栗子

為了方便介紹，這里給出我們的測試數據集，如下：

data = pd.DataFrame([
[87, 82, 85],
[81, 89, 75],
[86, 87, 69],
[91, 79, 86],
[88, 89, 82],
[0, 0, 0], # this guy missed the exam
[100, 100, 100],
], columns=["math", "science", "english"])

圖示如下：

假設這里我們有一堆學生的三門科目的考試成績——英語、數學和科學。這些學生通常表現很好，但其中一人錯過了所有考試，三門科目都得了0分。在我們的分析中包括這個家伙可能會把事情搞砸，所以我們需要將他視為異常。

3. 孤立森林

使用孤立森林算法來求解上述異常值分析非常簡單，代碼如下：

from sklearn.ensemble import IsolationForest
predictions = IsolationForest().fit(data).predict(data)
# predictions = array([ 1, 1, 1, 1, 1, -1, -1])

這里預測值針對每一行進行預測，預測結果為1或者-1；其中1表示該行不是異常值，而-1表示該行是異常值。在上述例子中，我們的孤立森林算法將數據中的最后2行都預測為異常值。

4. 橢圓模型擬合

使用孤橢圓模型擬合算法來求解上述異常值同樣非常方便，代碼如下：

from sklearn.covariance import EllipticEnvelope
predictions = EllipticEnvelope().fit(data).predict(data)
# predictions = array([ 1, 1, 1, 1, 1, -1, 1])

在上述代碼中，我們使用了另外一種異常值檢測算法來代替孤立森林算法，但是代碼保持不變。相似地，在預測值中，1表示非異常值，-1表示異常值。在上述情況下，我們的橢圓模型擬合算法只將倒數第二個學生作為異常值，即所有成績都為零的考生。

5. 局部異常因子算法

類似地，我們可以非常方便地使用局部異常因子算法來對上述數據進行分析，樣例代碼如下：

from sklearn.neighbors import LocalOutlierFactor
predictions = LocalOutlierFactor(n_neighbors=5, novelty=True).fit(data).predict(data)
# array([ 1, 1, 1, 1, 1, -1, 1])

局部異常因子算法是sklearn上可用的另一種異常檢測算法，我們可以簡單地在這里隨插隨用。同樣地，這里該算法僅將最后第二個數據行預測為異常值。

6. 挑選異常值檢測方法

那么，我們如何決定哪種異常檢測算法更好呢？簡而言之，沒有“最佳”的異常值檢測算法——我們可以將它們視為做相同事情的不同方式（并獲得略有不同的結果）

7. 異常值消除

在我們從上述三種異常檢測算法中的任何一種獲得異常預測后，我們現在可以執行異常值的刪除。這里我們只需保留異常預測為1的所有數據行，

代碼如下：

# predictions = array([ 1, 1, 1, 1, 1, -1, 1])
data2 = data[predictions==1]

結果如下：

8. 總結

本文重點介紹了在Python中使用sklearn機器學習庫來進行異常值檢測的三種方法，并給出了相應的代碼示例。

原文鏈接：https://blog.51cto.com/u_15506603/5512727

上一篇：C++函數模板與重載解析超詳細講解_C 語言
下一篇：C++示例分析內聯函數與引用變量及函數重載的使用_C 語言

日本免费高清视频-国产福利视频导航-黄色在线播放国产-天天操天天操天天操天天操|www.shdianci.com

網站首頁編程語言正文

Python中尋找數據異常值的3種方法_python

目錄

1. 引言

2. 舉個栗子

3. 孤立森林

4. 橢圓模型擬合

5. 局部異常因子算法

6. 挑選異常值檢測方法

7. 異常值消除

8. 總結

相關推薦

日本免费高清视频-国产福利视频导航-黄色在线播放国产-天天操天天操天天操天天操|www.shdianci.com

網站首頁 編程語言 正文

Python中尋找數據異常值的3種方法_python

目錄

1. 引言

2. 舉個栗子

3. 孤立森林

4. 橢圓模型擬合

5. 局部異常因子算法

6. 挑選異常值檢測方法

7. 異常值消除

8. 總結

相關推薦

網站首頁編程語言正文