網(wǎng)站首頁 編程語言 正文
什么是探索性數(shù)據(jù)分析(EDA)?
EDA 是數(shù)據(jù)分析下的一種現(xiàn)象,用于更好地理解數(shù)據(jù)方面,例如:?
– 數(shù)據(jù)的主要特征?
– 變量和它們之間的關(guān)系?
– 確定哪些變量對我們的問題很重要?
我們將研究各種探索性數(shù)據(jù)分析方法,
例如:?
- 描述性統(tǒng)計,這是一種簡要概述我們正在處理的數(shù)據(jù)集的方法,包括樣本的一些度量和特征
- 分組數(shù)據(jù) [使用group by 進(jìn)行基本分組]
- ANOVA,方差分析,這是一種計算方法,可將觀察集中的變化劃分為不同的分量。
- 相關(guān)和相關(guān)方法
我們將使用的數(shù)據(jù)集是子投票數(shù)據(jù)集,您可以在 python 中將其導(dǎo)入為:
import pandas as pd
Df = pd.read_csv("https://vincentarelbundock.github.io / Rdatasets / csv / car / Child.csv")
描述性統(tǒng)計
描述性統(tǒng)計是了解數(shù)據(jù)特征和快速總結(jié)數(shù)據(jù)的有用方法。python 中的 Pandas 提供了一個有趣的方法describe()?。describe 函數(shù)對數(shù)據(jù)集應(yīng)用基本統(tǒng)計計算,如極值、數(shù)據(jù)點計數(shù)標(biāo)準(zhǔn)差等。任何缺失值或 NaN 值都會被自動跳過。describe() 函數(shù)很好地描繪了數(shù)據(jù)的分布情況。
DF.describe()
這是您在運(yùn)行上述代碼時將獲得的輸出:
另一種有用的方法是 value_counts(),它可以獲取分類屬性值系列中每個類別的計數(shù)。例如,假設(shè)您正在處理一個客戶數(shù)據(jù)集,這些客戶在列名 age 下分為青年、中年和老年類別,并且您的數(shù)據(jù)框是“DF”。您可以運(yùn)行此語句以了解有多少人屬于各個類別。在我們的數(shù)據(jù)集示例中可以使用教育列?
DF["education"].value_counts()
上述代碼的輸出將是:
另一個有用的工具是 boxplot,您可以通過 matplotlib 模塊使用它。箱線圖是數(shù)據(jù)分布的圖形表示,顯示極值、中位數(shù)和四分位數(shù)。我們可以使用箱線圖輕松找出異常值。現(xiàn)在再次考慮我們一直在處理的數(shù)據(jù)集,讓我們在屬性總體上繪制一個箱線圖?
import pandas as pd
import matplotlib.pyplot as plt
DF = pd.read_csv("https://raw.githubusercontent.com / fivethirtyeight / data / master / airline-safety / airline-safety.csv")
y = list(DF.population)
plt.boxplot(y)
plt.show()
發(fā)現(xiàn)異常值后,輸出圖將如下所示:
分組數(shù)據(jù)
Group by 是 pandas 中可用的一個有趣的度量,它可以幫助我們找出不同分類屬性對其他數(shù)據(jù)變量的影響。讓我們看一個在同一數(shù)據(jù)集上的示例,我們想找出人們的年齡和教育對投票數(shù)據(jù)集的影響。
DF.groupby(['education', 'vote']).mean()
輸出會有點像這樣:
如果按輸出表進(jìn)行分組難以理解,則進(jìn)一步的分析師使用數(shù)據(jù)透視表和熱圖對其進(jìn)行可視化。?
方差分析
ANOVA 代表方差分析。執(zhí)行它是為了找出不同類別數(shù)據(jù)組之間的關(guān)系。?
在 ANOVA 下,我們有兩個測量結(jié)果:?
– F-testscore:顯示組均值相對于變化的變化?
– p 值:顯示結(jié)果的重要性?
這可以使用 python 模塊 scipy 方法名稱f_oneway()?
這些樣本是每組的樣本測量值。?
作為結(jié)論,如果 ANOVA 檢驗給我們一個大的 F 檢驗值和一個小的 p 值,我們可以說其他變量和分類變量之間存在很強(qiáng)的相關(guān)性。
相關(guān)性和相關(guān)性計算
相關(guān)性是上下文中兩個變量之間的簡單關(guān)系,使得一個變量影響另一個變量。相關(guān)性不同于引起的行為。計算變量之間相關(guān)性的一種方法是找到 Pearson 相關(guān)性。在這里,我們找到兩個參數(shù),即皮爾遜系數(shù)和 p 值。當(dāng) Pearson 相關(guān)系數(shù)接近 1 或 -1 且 p 值小于 0.0001 時,我們可以說兩個變量之間存在很強(qiáng)的相關(guān)性。?
Scipy 模塊還提供了一種執(zhí)行 pearson 相關(guān)性分析的方法,
這里的示例是您要比較的屬性。?
原文鏈接:https://juejin.cn/post/7129035626963271717
相關(guān)推薦
- 2023-01-14 ubuntu開機(jī)后ROS程序自啟動問題_Linux
- 2022-12-12 python?打印完整異常問題_python
- 2023-06-20 Redis?設(shè)置密碼無效問題解決_Redis
- 2023-11-22 Linux fatal: unable to access ‘https://github xxxx
- 2022-06-30 Unity多屏幕設(shè)置的具體方案_C#教程
- 2022-03-23 C語言?scanf的工作原理詳解_C 語言
- 2022-02-28 Chrome控制臺提示“Slow network is detected. Fallback fon
- 2022-06-07 如何在Python中妥善使用進(jìn)度條詳解_python
- 最近更新
-
- window11 系統(tǒng)安裝 yarn
- 超詳細(xì)win安裝深度學(xué)習(xí)環(huán)境2025年最新版(
- Linux 中運(yùn)行的top命令 怎么退出?
- MySQL 中decimal 的用法? 存儲小
- get 、set 、toString 方法的使
- @Resource和 @Autowired注解
- Java基礎(chǔ)操作-- 運(yùn)算符,流程控制 Flo
- 1. Int 和Integer 的區(qū)別,Jav
- spring @retryable不生效的一種
- Spring Security之認(rèn)證信息的處理
- Spring Security之認(rèn)證過濾器
- Spring Security概述快速入門
- Spring Security之配置體系
- 【SpringBoot】SpringCache
- Spring Security之基于方法配置權(quán)
- redisson分布式鎖中waittime的設(shè)
- maven:解決release錯誤:Artif
- restTemplate使用總結(jié)
- Spring Security之安全異常處理
- MybatisPlus優(yōu)雅實現(xiàn)加密?
- Spring ioc容器與Bean的生命周期。
- 【探索SpringCloud】服務(wù)發(fā)現(xiàn)-Nac
- Spring Security之基于HttpR
- Redis 底層數(shù)據(jù)結(jié)構(gòu)-簡單動態(tài)字符串(SD
- arthas操作spring被代理目標(biāo)對象命令
- Spring中的單例模式應(yīng)用詳解
- 聊聊消息隊列,發(fā)送消息的4種方式
- bootspring第三方資源配置管理
- GIT同步修改后的遠(yuǎn)程分支