網站首頁 編程語言 正文
model.eval()的作用及分析
-
model.eval()
作用等同于self.train(False)
簡而言之,就是評估模式。而非訓練模式。
在評估模式下,batchNorm層,dropout層等用于優化訓練而添加的網絡層會被關閉,從而使得評估時不會發生偏移。
結論
在對模型進行評估時,應該配合使用with torch.no_grad() 與 model.eval():
? ? loop: ? ? ? ? model.train() ? ?# 切換至訓練模式 ? ? ? ? train…… ? ? ? ? model.eval() ? ? ? ? with torch.no_grad(): ? ? ? ? ? ? Evaluation ? ? end loop
Pytorch踩坑之model.eval()問題
最近在寫代碼時遇到一個問題,原本訓練好的模型,加載進來進行inference準確率直接掉了5個點,這簡直不能忍啊~下意識地感知到我肯定又在哪里寫了bug了~~~于是開始到處排查,從model load到data load,最終在一個被我封裝好的module的犄角旮旯里找到了問題,于是順便就在這里總結一下,避免以后再犯。?
對于訓練好的模型加載進來準確率和原先的不符,
比較常見的有兩方面的原因
data
-
model.state_dict()
?
1) data
數據方面,檢查前后兩次加載的data有沒有發生變化。首先檢查 transforms.Normalize 使用的均值和方差是否和訓練時相同;另外檢查在這個過程中數據是否經過了存儲形式的改變,這有可能會帶來數據精度的變化導致一定的信息丟失。比如我過用的其中一個數據集,原先將圖片存儲成向量形式,但其對應的是“png”格式的數據(后來在原始文件中發現了相應的描述。),而我進行了一次data-to-img操作,將向量轉換成了“jpg”形式,這時加載進來便造成了掉點。
2)model.state_dict()
第一方面造成的掉點一般不會太嚴重,第二方面造成的掉點就比較嚴重了,一旦模型的參數加載錯了,那就誤差大了。
如果是參數沒有正確加載進來則比較容易發現,這時準確率非常低,幾乎等于瞎猜。
而我這次遇到的情況是,準確率并不是特別低,只掉了幾個點,檢查了多次,均顯示模型參數已經成功加載了。后來仔細查看后發現在其中一次調用模型進行inference時,忘了寫 ‘model.eval()’,造成了模型的參數發生變化,再次調用則出現了掉點。于是又回顧了一下model.eval()和model.train()的具體作用。如下:
model.train() 和 model.eval() 一般在模型訓練和評價的時候會加上這兩句,主要是針對由于model 在訓練時和評價時 Batch Normalization 和 Dropout 方法模式不同:
- a) model.eval(),不啟用 BatchNormalization 和 Dropout。此時pytorch會自動把BN和DropOut固定住,不會取平均,而是用訓練好的值。不然的話,一旦test的batch_size過小,很容易就會因BN層導致模型performance損失較大;
- b) model.train() :啟用 BatchNormalization 和 Dropout。 在模型測試階段使用model.train() 讓model變成訓練模式,此時 dropout和batch normalization的操作在訓練q起到防止網絡過擬合的問題。
因此,在使用PyTorch進行訓練和測試時一定要記得把實例化的model指定train/eval。
model.eval() ? vs ? torch.no_grad()
雖然二者都是eval的時候使用,但其作用并不相同:
model.eval() 負責改變batchnorm、dropout的工作方式,如在eval()模式下,dropout是不工作的。
見下方代碼:
? import torch ? import torch.nn as nn ? ? drop = nn.Dropout() ? x = torch.ones(10) ?? ? # Train mode ?? ? drop.train() ? print(drop(x)) # tensor([2., 2., 0., 2., 2., 2., 2., 0., 0., 2.]) ?? ?? ? # Eval mode ?? ? drop.eval() ? print(drop(x)) # tensor([1., 1., 1., 1., 1., 1., 1., 1., 1., 1.])
torch.no_grad() 負責關掉梯度計算,節省eval的時間。
只進行inference時,model.eval()是必須使用的,否則會影響結果準確性。 而torch.no_grad()并不是強制的,只影響運行效率。
總結
原文鏈接:https://blog.csdn.net/weixin_43977640/article/details/109694244
相關推薦
- 2022-10-30 Django視圖層與模板層實例詳解_python
- 2022-08-27 解決react中useState狀態異步更新的問題_React
- 2023-01-30 Numpy?np.array()函數使用方法指南_python
- 2023-04-26 C語言函數聲明以及函數原型超詳細講解示例_C 語言
- 2022-09-06 C#面向對象編程中里氏替換原則的示例詳解_C#教程
- 2022-05-16 C++Smart?Pointer?智能指針詳解_C 語言
- 2022-08-27 DOS編寫腳本常用命令整理小結_DOS/BAT
- 2023-01-04 Android?Toolbar應用欄使用方法簡介_Android
- 最近更新
-
- window11 系統安裝 yarn
- 超詳細win安裝深度學習環境2025年最新版(
- Linux 中運行的top命令 怎么退出?
- MySQL 中decimal 的用法? 存儲小
- get 、set 、toString 方法的使
- @Resource和 @Autowired注解
- Java基礎操作-- 運算符,流程控制 Flo
- 1. Int 和Integer 的區別,Jav
- spring @retryable不生效的一種
- Spring Security之認證信息的處理
- Spring Security之認證過濾器
- Spring Security概述快速入門
- Spring Security之配置體系
- 【SpringBoot】SpringCache
- Spring Security之基于方法配置權
- redisson分布式鎖中waittime的設
- maven:解決release錯誤:Artif
- restTemplate使用總結
- Spring Security之安全異常處理
- MybatisPlus優雅實現加密?
- Spring ioc容器與Bean的生命周期。
- 【探索SpringCloud】服務發現-Nac
- Spring Security之基于HttpR
- Redis 底層數據結構-簡單動態字符串(SD
- arthas操作spring被代理目標對象命令
- Spring中的單例模式應用詳解
- 聊聊消息隊列,發送消息的4種方式
- bootspring第三方資源配置管理
- GIT同步修改后的遠程分支