網(wǎng)站首頁 編程語言 正文
BN原理、作用
函數(shù)參數(shù)講解
BatchNorm2d(256, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
- 1.
num_features
:一般輸入?yún)?shù)的shape為batch_size*num_features*height*width,即為其中特征的數(shù)量,即為輸入BN層的通道數(shù); - 2.
eps
:分母中添加的一個值,目的是為了計算的穩(wěn)定性,默認(rèn)為:1e-5,避免分母為0; - 3.
momentum
:一個用于運行過程中均值和方差的一個估計參數(shù)(我的理解是一個穩(wěn)定系數(shù),類似于SGD中的momentum的系數(shù)); - 4.
affine
:當(dāng)設(shè)為true時,會給定可以學(xué)習(xí)的系數(shù)矩陣gamma和beta
一般來說pytorch中的模型都是繼承nn.Module類的,都有一個屬性trainning指定是否是訓(xùn)練狀態(tài),訓(xùn)練狀態(tài)與否將會影響到某些層的參數(shù)是否是固定的,比如BN層或者Dropout層。
通常用model.train()指定當(dāng)前模型model為訓(xùn)練狀態(tài),model.eval()指定當(dāng)前模型為測試狀態(tài)。
同時,BN的API中有幾個參數(shù)需要比較關(guān)心的,一個是affine指定是否需要仿射,還有個是track_running_stats指定是否跟蹤當(dāng)前batch的統(tǒng)計特性。
容易出現(xiàn)問題也正好是這三個參數(shù):trainning,affine,track_running_stats。
其中的affine指定是否需要仿射,也就是是否需要上面算式的第四個,如果affine=False則γ=1,β=0,并且不能學(xué)習(xí)被更新。一般都會設(shè)置成affine=True。
trainning和track_running_stats,track_running_stats=True表示跟蹤整個訓(xùn)練過程中的batch的統(tǒng)計特性,得到方差和均值,而不只是僅僅依賴與當(dāng)前輸入的batch的統(tǒng)計特性。
相反的,如果track_running_stats=False那么就只是計算當(dāng)前輸入的batch的統(tǒng)計特性中的均值和方差了。
當(dāng)在推理階段的時候,如果track_running_stats=False,此時如果batch_size比較小,那么其統(tǒng)計特性就會和全局統(tǒng)計特性有著較大偏差,可能導(dǎo)致糟糕的效果。
如果BatchNorm2d的參數(shù)track_running_stats設(shè)置False,那么加載預(yù)訓(xùn)練后每次模型測試測試集的結(jié)果時都不一樣;track_running_stats設(shè)置為True時,每次得到的結(jié)果都一樣。
running_mean和running_var參數(shù)是根據(jù)輸入的batch的統(tǒng)計特性計算的,嚴(yán)格來說不算是“學(xué)習(xí)”到的參數(shù),不過對于整個計算是很重要的。
BN層中的running_mean和running_var的更新是在forward操作中進(jìn)行的,而不是在optimizer.step()中進(jìn)行的,因此如果處于訓(xùn)練中泰,就算不進(jìn)行手動step(),BN的統(tǒng)計特性也會變化。
model.train() #處于訓(xùn)練狀態(tài) for data , label in self.dataloader: pred =model(data) #在這里會更新model中的BN統(tǒng)計特性參數(shù),running_mean,running_var loss=self.loss(pred,label) #就算不進(jìn)行下列三行,BN的統(tǒng)計特性參數(shù)也會變化 opt.zero_grad() loss.backward() opt.step()
這個時候,要用model.eval()轉(zhuǎn)到測試階段,才能固定住running_mean和running_var,有時候如果是先預(yù)訓(xùn)練模型然后加載模型,重新跑測試數(shù)據(jù)的時候,結(jié)果不同,有一點性能上的損失,這個時候基本上是training和track_running_stats設(shè)置的不對。
如果使用兩個模型進(jìn)行聯(lián)合訓(xùn)練,為了收斂更容易控制,先預(yù)訓(xùn)練好模型model_A,并且model_A內(nèi)還有若干BN層,后續(xù)需要將model_A作為一個inference推理模型和model_B聯(lián)合訓(xùn)練,此時希望model_A中的BN的統(tǒng)計特性量running_mean和running_var不會亂變化,因此就需要將model_A.eval()設(shè)置到測試模型,否則在trainning模式下,就算是不去更新模型的參數(shù),其BN都會變化,這將導(dǎo)致和預(yù)期不同的結(jié)果。
總結(jié)
原文鏈接:https://blog.csdn.net/qq_39777550/article/details/108038677
相關(guān)推薦
- 2022-09-24 React報錯之Object?is?possibly?null的問題及解決方法_React
- 2023-06-16 Golang調(diào)用FFmpeg轉(zhuǎn)換視頻流的實現(xiàn)_Golang
- 2022-08-13 Android?Gradle同步優(yōu)化詳解_Android
- 2022-04-22 VSCode中g(shù)it上傳遇到 “在簽出前,請清理存儲庫工作樹。”問題解決
- 2022-08-06 Go語言開發(fā)編程規(guī)范命令風(fēng)格代碼格式_Golang
- 2023-01-07 anaconda?navigator打不開問題的解決方法_python
- 2022-11-10 android時間選擇控件之TimePickerView使用方法詳解_Android
- 2022-07-20 Android?shape與selector標(biāo)簽使用詳解_Android
- 最近更新
-
- window11 系統(tǒng)安裝 yarn
- 超詳細(xì)win安裝深度學(xué)習(xí)環(huán)境2025年最新版(
- Linux 中運行的top命令 怎么退出?
- MySQL 中decimal 的用法? 存儲小
- get 、set 、toString 方法的使
- @Resource和 @Autowired注解
- Java基礎(chǔ)操作-- 運算符,流程控制 Flo
- 1. Int 和Integer 的區(qū)別,Jav
- spring @retryable不生效的一種
- Spring Security之認(rèn)證信息的處理
- Spring Security之認(rèn)證過濾器
- Spring Security概述快速入門
- Spring Security之配置體系
- 【SpringBoot】SpringCache
- Spring Security之基于方法配置權(quán)
- redisson分布式鎖中waittime的設(shè)
- maven:解決release錯誤:Artif
- restTemplate使用總結(jié)
- Spring Security之安全異常處理
- MybatisPlus優(yōu)雅實現(xiàn)加密?
- Spring ioc容器與Bean的生命周期。
- 【探索SpringCloud】服務(wù)發(fā)現(xiàn)-Nac
- Spring Security之基于HttpR
- Redis 底層數(shù)據(jù)結(jié)構(gòu)-簡單動態(tài)字符串(SD
- arthas操作spring被代理目標(biāo)對象命令
- Spring中的單例模式應(yīng)用詳解
- 聊聊消息隊列,發(fā)送消息的4種方式
- bootspring第三方資源配置管理
- GIT同步修改后的遠(yuǎn)程分支