網(wǎng)站首頁 編程語言 正文
1.因子
????????R 中用因子代表數(shù)據(jù)中分類變量 , 如性別、省份、職業(yè)。有序因子代表有序量度,如打分結(jié)果,疾病嚴(yán)重程度等。
????????用 factor() 函數(shù)把字符型向量轉(zhuǎn)換成因子,如
x <- c(" 男", " 女", " 男", " 男", " 女") sex <- factor(x) sex
返回:
attributes(sex)
返回:
????????因子有 class 屬性,取值為"factor",還有一個(gè) levels(水平值) 屬性,此屬性可以用 levels() 函數(shù)訪問,如
levels(sex)
返回:
因子的 levels 屬性可以看成是一個(gè)映射,把整數(shù)值 1,2, . . . 映射成這些水平值,因子在保存時(shí)會保存成整數(shù)值 1,2, . . . 等與水平值對應(yīng)的編號。這樣可以節(jié)省存儲空間,在建模計(jì)算的程序中也比較有利于進(jìn)行數(shù)學(xué)運(yùn)算。
事實(shí)上,read.csv() 函數(shù)的默認(rèn)操作會把輸入文件的字符型列自動轉(zhuǎn)換成因子,這對于性別、職業(yè)、地名這樣的列是合適的,但是對于姓名、日期、詳細(xì)地址這樣的列則不合適。所以,在 read.csv() 調(diào)用中經(jīng)常加選項(xiàng) stringsAsFactors=FALSE 選項(xiàng)禁止這樣的自動轉(zhuǎn)換,還可以用 colClasses 選項(xiàng)逐個(gè)指定每列的類型。
?用 as.numeric() 可以把因子轉(zhuǎn)換為純粹的整數(shù)值,如
as.numeric(sex)
返回:
因?yàn)?strong>因子實(shí)際保存為整數(shù)值,所以對因子進(jìn)行一些字符型操作可能導(dǎo)致錯(cuò)誤。用 as.character() 可以把因子轉(zhuǎn)換成原來的字符型,如
as.character(sex)
返回:
為了對因子執(zhí)行字符型操作(如取子串),保險(xiǎn)的做法是先用 as.character() 函數(shù)強(qiáng)制轉(zhuǎn)換為字符型。
factor() 函數(shù)的一般形式為
factor(x, levels = sort(unique(x), na.last = TRUE), labels, exclude = NA, ordered = FALSE)
可以用選項(xiàng) levels 自行指定各水平值 , 不指定時(shí)由 x 的不同值來求得。可以用選項(xiàng) labels 指定各水平的標(biāo)簽 , 不指定時(shí)用各水平值的對應(yīng)字符串??梢杂?exclude 選項(xiàng)指定要轉(zhuǎn)換為缺失值 (NA) 的元素值集合。如果指定了 levels, 則當(dāng)自變量 x 的某個(gè)元素等于第 j 個(gè)水平值時(shí)輸出的因子對應(yīng)元素值取整數(shù) j, 如果該 元素值沒有出現(xiàn)在 levels 中則輸出的因子對應(yīng)元素值取NA。 ordered 取真值時(shí)表示因子水平是有次序的 (按編碼次序)。
在使用 factor() 函數(shù)定義因子時(shí),如果知道自變量元素的所有可能取值,應(yīng)盡可能使用 levels= 參數(shù)指定這些不同可能取值,這樣,即使某個(gè)取值沒有出現(xiàn),此變量代表的含義和頻數(shù)信息也是完整的。自己指定 levels= 的另一好處是可以按正確的次序顯示因子的分類統(tǒng)計(jì)值。
因?yàn)橐粋€(gè)因子的 levels 屬性是該因子獨(dú)有的,所以合并兩個(gè)因子有可能造成錯(cuò)誤,但在最新版本4.1.2 沒有報(bào)錯(cuò),應(yīng)跟版本有關(guān),如
li1 <- factor(c(' 男', ' 女')) li2 <- factor(c(' 男', ' 男')) c(li1, li2)
返回:
如果結(jié)果不是因子的話,需要對其進(jìn)行轉(zhuǎn)換。則那樣正確的做法是
factor(c(as.character(li1), as.character(li2)))
就是先轉(zhuǎn)換為字符型,再進(jìn)行合并就可以了。
2.table() 函數(shù)
?用 table() 函數(shù)統(tǒng)計(jì)因子各水平的出現(xiàn)次數(shù)(稱為頻數(shù)或頻率)。也可以對一般的向量統(tǒng)計(jì)每個(gè)不同元素的出現(xiàn)次數(shù)。如
x <- c(" 男", " 女", " 男", " 男", " 女") sex <- factor(x) table(sex)
返回:
對一個(gè)變量用 table 函數(shù)計(jì)數(shù)的結(jié)果是一個(gè)特殊的有元素名的向量,元素名是自變量的不同取值,結(jié)果的元素值是對應(yīng)的頻數(shù)。單個(gè)因子或單個(gè)向量的頻數(shù)結(jié)果可以用向量的下標(biāo)訪問方法取出單個(gè)頻數(shù)或若干個(gè)頻數(shù)的子集。
3.tapply() 函數(shù)
可以按照因子分組然后每組計(jì)算另一變量的概括統(tǒng)計(jì)。如
x <- c(" 男", " 女", " 男", " 男", " 女") sex <- factor(x) h <- c(165, 170, 168, 172, 159) tapply(h, sex, mean)
返回:
4.forcats 包的因子函數(shù)
如果使用此函數(shù),需要先進(jìn)行載入:
library(forcats)
????????在分類變量類數(shù)較多時(shí),往往需要對因子水平另外排序、合并等,forcats 包提 供了一些針對因子的方便函數(shù)。
????????orcats::fac_reorder() 可以根據(jù)不同因子水平分成的組中另一數(shù)值型變 量的統(tǒng)計(jì)量值排序。如:
set.seed(1) fac <- sample(c("red", "green", "blue"), 30, replace=TRUE) fac <- factor(fac, levels=c("red", "green", "blue")) x <- round(100*(10+rt(30,2))) res1 <- tapply(x, fac, sd); res1
返回:
?對上面數(shù)值畫條形圖:
barplot(res1)
返回:
????????如果希望按照統(tǒng)計(jì)量次序?qū)σ蜃优判?/strong>,可以用 forcats::fct_reorder() 函數(shù),并畫圖條形圖,如
fac2 <- fct_reorder(fac, x, sd) res2 <- tapply(x, fac2, sd) barplot(res2)
返回:
?新的因子 fac2 的因子水平次序已經(jīng)按照變量 x 的標(biāo)準(zhǔn)差從小到大排列。
????????有時(shí)在因子水平數(shù)較多時(shí)僅想將特定的一個(gè)或幾個(gè)水平次序放到因子水平最前面,可以用 forcats::fct_relevel() 函數(shù),如:
levels(fac)
返回:
fac3 <- fct_relevel(fac, "blue"); levels(fac3)
返回:
fct_relevel() 第一個(gè)參數(shù)是要修改次序的因子,后續(xù)可以有多個(gè)字符型參數(shù)表示要提前的水平。
forcats::fct_reorder2(f, x, y) 也調(diào)整因子 f 的水平的次序,但是根據(jù)與每組中最大的 x 值相對應(yīng)的 y 值大小調(diào)整次序,這樣在作多個(gè)因子水平對應(yīng)的曲線圖時(shí)可以比較容易地區(qū)分多條曲線。
?forcats::fct_recode() 可以修改每個(gè)水平的名稱,如:
fac4 <- fct_recode( fac, " 紅"="red", " 綠"="green", " 藍(lán)"="blue") table(fac4)
返回:
????????fct_recode() 在修改水平名時(shí)允許多個(gè)舊水平對應(yīng)到一個(gè)新水平,從而合并原來的水平。如果合并很多,可以用 fct_collapse() 函數(shù),記得要先導(dǎo)入forcats 包的因子函數(shù),如
compf <- fct_collapse( comp, " 其它"=c("", " 無名", " 無應(yīng)答"), " 聯(lián)想"=c(" 聯(lián)想", " 聯(lián)想集團(tuán)"), " 百度"=c(" 百度", " 百度集團(tuán)") )
如果某個(gè)因子頻數(shù)少的水平很多,在統(tǒng)計(jì)時(shí)有過多水平不易展示主要的類別,可以用 forcats::fct_lump(f) 合并,缺省地從最少的類合并一直到 “ 其它 ” 類超過其它最小的類之前,可以用 n= 參數(shù)指定要保留多少個(gè)類。
練習(xí)
設(shè)文件 class.csv 中包含如下內(nèi)容 :
name,sex,age,height,weight
Alice,F,13,56.5,84
Becka,F,13,65.3,98
Gail,F,14,64.3,90
Karen,F,12,56.3,77
Kathy,F,12,59.8,84.5
Mary,F,15,66.5,112
Sandy,F,11,51.3,50.5
Sharon,F,15,62.5,112.5
Tammy,F,14,62.8,102.5
Alfred,M,14,69,112.5
Duke,M,14,63.5,102.5
Guido,M,15,67,133
James,M,12,57.3,83
Jeffrey,M,13,62.5,84
John,M,12,59,99.5
Philip,M,16,72,150
Robert,M,12,64.8,128
Thomas,M,11,57.5,85
William,M,15,66.5,112
用如下程序把該文件讀入為 R 數(shù)據(jù)框 d.class, 其中的 sex 列已經(jīng)自動轉(zhuǎn)換為因
子。取出其中的 sex 和 age 列到變量 sex 和 age 中
d.class <- read.csv('class.csv', header=TRUE) sex <- d.class[,'sex'] age <- d.class[,'age']
(1) 統(tǒng)計(jì)并顯示列出 sex 的不同值頻數(shù);
(2) 分男女兩組分別求年齡最大值;
(3) 把 sex 變量轉(zhuǎn)換為一個(gè)新的因子, F 顯示成 “Female” , M 顯示成 “Male” 。
原文鏈接:https://blog.csdn.net/qq_25990967/article/details/122692012
相關(guān)推薦
- 2023-05-08 C語言超詳細(xì)講解雙向帶頭循環(huán)鏈表_C 語言
- 2022-06-15 C++詳細(xì)講解繼承與虛繼承實(shí)現(xiàn)_C 語言
- 2022-08-15 centos7 redis5安裝
- 2022-06-17 C語言深入講解棧與堆和靜態(tài)存儲區(qū)的使用_C 語言
- 2022-08-22 詳解golang執(zhí)行Linux?shell命令完整場景下的使用方法_Golang
- 2023-02-07 基于C#實(shí)現(xiàn)磁性吸附窗體_C#教程
- 2023-07-07 什么是 Spring 框架?使用 Spring 框架的好處是什么?Spring 框架中用到了哪些設(shè)計(jì)
- 2022-09-14 React路由組件傳參的三種方式(params、search、state)_React
- 最近更新
-
- window11 系統(tǒng)安裝 yarn
- 超詳細(xì)win安裝深度學(xué)習(xí)環(huán)境2025年最新版(
- Linux 中運(yùn)行的top命令 怎么退出?
- MySQL 中decimal 的用法? 存儲小
- get 、set 、toString 方法的使
- @Resource和 @Autowired注解
- Java基礎(chǔ)操作-- 運(yùn)算符,流程控制 Flo
- 1. Int 和Integer 的區(qū)別,Jav
- spring @retryable不生效的一種
- Spring Security之認(rèn)證信息的處理
- Spring Security之認(rèn)證過濾器
- Spring Security概述快速入門
- Spring Security之配置體系
- 【SpringBoot】SpringCache
- Spring Security之基于方法配置權(quán)
- redisson分布式鎖中waittime的設(shè)
- maven:解決release錯(cuò)誤:Artif
- restTemplate使用總結(jié)
- Spring Security之安全異常處理
- MybatisPlus優(yōu)雅實(shí)現(xiàn)加密?
- Spring ioc容器與Bean的生命周期。
- 【探索SpringCloud】服務(wù)發(fā)現(xiàn)-Nac
- Spring Security之基于HttpR
- Redis 底層數(shù)據(jù)結(jié)構(gòu)-簡單動態(tài)字符串(SD
- arthas操作spring被代理目標(biāo)對象命令
- Spring中的單例模式應(yīng)用詳解
- 聊聊消息隊(duì)列,發(fā)送消息的4種方式
- bootspring第三方資源配置管理
- GIT同步修改后的遠(yuǎn)程分支