網(wǎng)站首頁 編程語言 正文
前言
超參調(diào)優(yōu)是“模型調(diào)優(yōu)”(Model Tuning)階段最主要的工作,是直接影響模型最終效果的關(guān)鍵步驟,然而,超參調(diào)優(yōu)本身卻是一項非常低級且枯燥的工作,因為它的策略就是:不斷變換參數(shù)值,一輪一輪地去“試”,直到找出結(jié)果最好的一組參數(shù)。顯然,這個過程是可以通過編程封裝成自動化的工作,而不是靠蠻力手動去一遍一遍的測試。為此,Sklearn提供了多種(自動化)超參調(diào)優(yōu)方法(官方文檔),其中網(wǎng)格搜索(Grid Search)和隨機搜索(Randomized Search)是最基礎(chǔ)也是最常用的兩個:
方法名稱 | 對應(yīng)類/函數(shù) | 官方文檔 |
---|---|---|
網(wǎng)格搜索(Grid Search) | sklearn.model_selection.GridSearchCV | 文檔鏈接 |
隨機搜索(Randomized Search) | sklearn.model_selection.RandomizedSearchCV | 文檔鏈接 |
對應(yīng)類/函數(shù)的后綴CV是Cross-Validation的意思,因為它們每嘗試一種超參組合時,都會使用Cross-Validation進(jìn)行效果評估,所以調(diào)用它們時也都需要顯式指定cv參數(shù),即:驗證的輪次(K-Fold的份數(shù))。
網(wǎng)格搜索(Grid Search)
網(wǎng)格搜索(Grid Search)的邏輯其實非常簡單,就是由開發(fā)者針對每個超參設(shè)定多個值去嘗試,找出效果最好的那個,由于超參會有很多個,而每一個超參又有多個嘗試值,所以就變成了一個“排列組合”問題。例如我們想針對兩個超參進(jìn)行調(diào)優(yōu),第一個超參設(shè)置了2個嘗試值,第二個超參設(shè)置了3個嘗試值,則超參設(shè)置總共會有 2 × 3 = 6 種組合,理論上模型要被訓(xùn)練6次,如果再加上交叉驗證的輪次參數(shù)cv,假設(shè)cv=3,則總得的訓(xùn)練次數(shù)將變?yōu)椋? × 3 = 18 次。以下是《Hands-On ML, 2nd Edition》一書中提供的GridSearchCV示例代碼:
from sklearn.model_selection import GridSearchCV param_grid = [ {'n_estimators': [3, 10, 30], 'max_features': [2, 4, 6, 8]}, {'bootstrap': [False], 'n_estimators': [3, 10], 'max_features': [2, 3, 4]}, ] forest_reg = RandomForestRegressor() grid_search = GridSearchCV(forest_reg, param_grid, cv=5, scoring='neg_mean_squared_error', return_train_score=True) grid_search.fit(housing_prepared, housing_labels)
在這份示例代碼中,作者提供針對bootstrap、n_estimators和max_features三個超參,給出了兩套參數(shù)設(shè)定:
第一套:{'n_estimators': [3, 10, 30], 'max_features': [2, 4, 6, 8]}
總計:3 × 4 = 12 種組合
第二套:{'bootstrap': [False], 'n_estimators': [3, 10], 'max_features': [2, 3, 4]}
總計:1 × 2 × 3 = 6 種組合
合在一起一共:12 + 6 = 18 種組合,加上交叉驗證設(shè)定cv=5,所以最終將訓(xùn)練 18 × 5 = 90 次!這里我們可以看到param_grid是一個list,里面每一個元素是一個dict,一個dict就代表了一套參數(shù)設(shè)定,每套參數(shù)設(shè)定根據(jù)賦值情況又會產(chǎn)生多種參數(shù)組合。其實上面兩套組合也可以用下面的一套設(shè)定覆蓋:
param_grid = [ {'bootstrap': [True, False], 'n_estimators': [3, 10, 30], 'max_features': [2, 3, 4, 6, 8]} ]
但在此情況下,總的訓(xùn)練次數(shù)將會變?yōu)椋?2 × 3 × 5) × 5 = 150 次。由此可見,Sklearn這種允許設(shè)定多套參數(shù)的設(shè)計(即一個list下可配置多個dict)還是有可取之處,會方便開發(fā)人員更具經(jīng)驗設(shè)定最有希望的取值集合,減少訓(xùn)練次數(shù)。
隨機搜索(Randomized Search)
網(wǎng)格搜索適用于參數(shù)組合數(shù)比較少的情況,當(dāng)參數(shù)組合大到一定程度后,模型訓(xùn)練所占用的資源和持續(xù)時間將會超用戶的可接受范圍,此時往往就要改用隨機搜索(Randomized Search)了。隨機搜索的工作原理和網(wǎng)格搜索其實差不多,都是“暴力嘗試”,不同之處在于:網(wǎng)格搜索的參數(shù)取值集合是用戶設(shè)定的,而隨機搜索的參數(shù)取值則是指定好區(qū)間(最大值和最小值)由隨機數(shù)發(fā)生器隨機生成的,而想要生成多少種組合是可以設(shè)置的。以下是《Hands-On ML, 2nd Edition》一書中提供的RandomizedSearchCV示例代碼:
from sklearn.model_selection import RandomizedSearchCV from scipy.stats import randint param_distribs = { 'n_estimators': randint(low=1, high=200), 'max_features': randint(low=1, high=8), } forest_reg = RandomForestRegressor(random_state=42) rnd_search = RandomizedSearchCV(forest_reg, param_distributions=param_distribs, n_iter=10, cv=5, scoring='neg_mean_squared_error', random_state=42) rnd_search.fit(housing_prepared, housing_labels)
在這份代碼中,作者針對n_estimators和max_features兩個超參分別設(shè)定了 1 ~ 200 和 1 ~ 8 的取值區(qū)間,然后通過設(shè)定參數(shù)n_iter=10
將參數(shù)組合數(shù)設(shè)定為10,當(dāng)然,疊加上交叉驗證cv=5
后,實際的訓(xùn)練就是 5 × 10 = 50 次了。
原文鏈接:https://blog.csdn.net/bluishglc/article/details/128896730
相關(guān)推薦
- 2022-02-24 JDBC中在結(jié)果集中以列順序獲取值時注意類型匹配
- 2023-12-10 Failed to process, please exclude the tableName or
- 2022-11-13 C#實現(xiàn)定義一個通用返回值_C#教程
- 2022-07-27 Python中的pandas表格模塊、文件模塊和數(shù)據(jù)庫模塊_python
- 2022-03-19 解析OpenXml?Pptx的邊框虛線轉(zhuǎn)為WPF的邊框虛線問題_C#教程
- 2022-02-17 npm run serve Syntax Error: Error: Node Sass versi
- 2022-11-07 關(guān)于對python中self的深入理解_python
- 2022-09-01 MongoDB實現(xiàn)查詢、分頁和排序操作以及游標(biāo)的使用_MongoDB
- 最近更新
-
- window11 系統(tǒng)安裝 yarn
- 超詳細(xì)win安裝深度學(xué)習(xí)環(huán)境2025年最新版(
- Linux 中運行的top命令 怎么退出?
- MySQL 中decimal 的用法? 存儲小
- get 、set 、toString 方法的使
- @Resource和 @Autowired注解
- Java基礎(chǔ)操作-- 運算符,流程控制 Flo
- 1. Int 和Integer 的區(qū)別,Jav
- spring @retryable不生效的一種
- Spring Security之認(rèn)證信息的處理
- Spring Security之認(rèn)證過濾器
- Spring Security概述快速入門
- Spring Security之配置體系
- 【SpringBoot】SpringCache
- Spring Security之基于方法配置權(quán)
- redisson分布式鎖中waittime的設(shè)
- maven:解決release錯誤:Artif
- restTemplate使用總結(jié)
- Spring Security之安全異常處理
- MybatisPlus優(yōu)雅實現(xiàn)加密?
- Spring ioc容器與Bean的生命周期。
- 【探索SpringCloud】服務(wù)發(fā)現(xiàn)-Nac
- Spring Security之基于HttpR
- Redis 底層數(shù)據(jù)結(jié)構(gòu)-簡單動態(tài)字符串(SD
- arthas操作spring被代理目標(biāo)對象命令
- Spring中的單例模式應(yīng)用詳解
- 聊聊消息隊列,發(fā)送消息的4種方式
- bootspring第三方資源配置管理
- GIT同步修改后的遠(yuǎn)程分支