網站首頁編程語言正文

YOLOv5中SPP/SPPF結構源碼詳析(內含注釋分析)_python

作者：tt丫 ? 更新時間： 2022-07-03 編程語言

一、SPP的應用的背景

在卷積神經網絡中我們經常看到固定輸入的設計，但是如果我們輸入的不能是固定尺寸的該怎么辦呢？

通常來說，我們有以下幾種方法：

（1）對輸入進行resize操作，讓他們統統變成你設計的層的輸入規格那樣。但是這樣過于暴力直接，可能會丟失很多信息或者多出很多不該有的信息（圖片變形等），影響最終的結果。

（2）替換網絡中的全連接層，對最后的卷積層使用global average pooling，全局平均池化只和通道數有關，而與特征圖大小沒有關系

（3）最后一個當然是我們要講的SPP結構啦~

二、SPP結構分析

SPP結構又被稱為空間金字塔池化，能將任意大小的特征圖轉換成固定大小的特征向量。

接下來我們來詳述一下SPP是怎么處理滴~

輸入層：首先我們現在有一張任意大小的圖片，其大小為w * h。

輸出層：21個神經元 -- 即我們待會希望提取到21個特征。

分析如下圖所示：分別對1 * 1分塊，2?* 2分塊和4?* 4子圖里分別取每一個框內的max值（即取藍框框內的最大值），這一步就是作最大池化，這樣最后提取出來的特征值（即取出來的最大值）一共有1 * 1 + 2 * 2 + 4 * 4 = 21個。得出的特征再concat在一起。

而在YOLOv5中SPP的結構圖如下圖所示：

其中，前后各多加一個CBL，中間的kernel size分別為1 * 1，5 * 5，9 * 9和13 * 13。

三、SPPF結構分析

（x，y1這些是啥請看下面的代碼）

四、YOLOv5中SPP/SPPF結構源碼解析（內含注釋分析）

代碼注釋與上圖的SPP結構相對應。

class SPP(nn.Module):
    def __init__(self, c1, c2, k=(5, 9, 13)):#這里5，9，13，就是初始化的kernel size
        super().__init__()
        c_ = c1 // 2  # hidden channels
        self.cv1 = Conv(c1, c_, 1, 1)#這里對應第一個CBL
        self.cv2 = Conv(c_ * (len(k) + 1), c2, 1, 1)#這里對應SPP操作里的最后一個CBL
        self.m = nn.ModuleList([nn.MaxPool2d(kernel_size=x, stride=1, padding=x // 2) for x in k])
        #這里對應SPP核心操作，對5 * 5分塊，9 * 9分塊和13 * 13子圖分別取最大池化
 
    def forward(self, x):
        x = self.cv1(x)
        with warnings.catch_warnings():
            warnings.simplefilter('ignore')  # suppress torch 1.9.0 max_pool2d() warning忽略警告
            return self.cv2(torch.cat([x] + [m(x) for m in self.m], 1))
            #torch.cat對應concat

SPPF結構

class SPPF(nn.Module):
    # Spatial Pyramid Pooling - Fast (SPPF) layer for YOLOv5 by Glenn Jocher
    def __init__(self, c1, c2, k=5):  # equivalent to SPP(k=(5, 9, 13))
        super().__init__()
        c_ = c1 // 2  # hidden channels
        self.cv1 = Conv(c1, c_, 1, 1)
        self.cv2 = Conv(c_ * 4, c2, 1, 1)
        self.m = nn.MaxPool2d(kernel_size=k, stride=1, padding=k // 2)
 
    def forward(self, x):
        x = self.cv1(x)#先通過CBL進行通道數的減半
        with warnings.catch_warnings():
            warnings.simplefilter('ignore')  # suppress torch 1.9.0 max_pool2d() warning
            y1 = self.m(x)
            y2 = self.m(y1)
            #上述兩次最大池化
            return self.cv2(torch.cat([x, y1, y2, self.m(y2)], 1))
            #將原來的x,一次池化后的y1,兩次池化后的y2,3次池化的self.m(y2)先進行拼接，然后再CBL

總結

原文鏈接：https://blog.csdn.net/weixin_55073640/article/details/122621148

上一篇：解決編碼問題:UnicodeDecodeError:?'ut
下一篇：Python中字典常用操作的示例詳解_python

日本免费高清视频-国产福利视频导航-黄色在线播放国产-天天操天天操天天操天天操|www.shdianci.com

網站首頁編程語言正文

YOLOv5中SPP/SPPF結構源碼詳析(內含注釋分析)_python

目錄

一、SPP的應用的背景

二、SPP結構分析

三、SPPF結構分析

四、YOLOv5中SPP/SPPF結構源碼解析（內含注釋分析）

總結

相關推薦

日本免费高清视频-国产福利视频导航-黄色在线播放国产-天天操天天操天天操天天操|www.shdianci.com

網站首頁 編程語言 正文

YOLOv5中SPP/SPPF結構源碼詳析(內含注釋分析)_python

目錄

一、SPP的應用的背景

二、SPP結構分析

三、SPPF結構分析

四、YOLOv5中SPP/SPPF結構源碼解析（內含注釋分析）

總結

相關推薦

網站首頁編程語言正文