日本免费高清视频-国产福利视频导航-黄色在线播放国产-天天操天天操天天操天天操|www.shdianci.com

學無先后,達者為師

網站首頁 編程語言 正文

PyTorch計算損失函數對模型參數的Hessian矩陣示例_python

作者:Cyril_KI ? 更新時間: 2022-07-04 編程語言

前言

在實現Per-FedAvg的代碼時,遇到如下問題:

在這里插入圖片描述


可以發現,我們需要求損失函數對模型參數的Hessian矩陣。

模型定義

我們定義一個比較簡單的模型:

class ANN(nn.Module):
    def __init__(self):
        super(ANN, self).__init__()
        self.sigmoid = nn.Sigmoid()
        self.fc1 = nn.Linear(3, 4)
        self.fc2 = nn.Linear(4, 5)

    def forward(self, data):
        x = self.fc1(data)
        x = self.fc2(x)

        return x

輸出一下模型的參數:

model = ANN()
for param in model.parameters():
    print(param.size())

輸出如下:

torch.Size([4, 3])
torch.Size([4])
torch.Size([5, 4])
torch.Size([5])

求解Hessian矩陣

我們首先定義數據:

data = torch.tensor([1, 2, 3], dtype=torch.float)
label = torch.tensor([1, 1, 5, 7, 8], dtype=torch.float)
pred = model(data)
loss_fn = nn.MSELoss()
loss = loss_fn(pred, label)

然后求解一階梯度:

grads = torch.autograd.grad(loss, model.parameters(), retain_graph=True, create_graph=True)

輸出一下grads:

(tensor([[-1.0530, -2.1059, -3.1589],
        [ 2.3615,  4.7229,  7.0844],
        [-1.5046, -3.0093, -4.5139],
        [-2.0272, -4.0543, -6.0815]], grad_fn=<TBackward0>), tensor([-1.0530,  2.3615, -1.5046, -2.0272], grad_fn=<SqueezeBackward1>), tensor([[ 0.2945, -0.2725, -0.8159, -0.6720],
        [ 0.1936, -0.1791, -0.5362, -0.4416],
        [ 1.0800, -0.9993, -2.9918, -2.4641],
        [ 1.3448, -1.2444, -3.7255, -3.0683],
        [ 1.2436, -1.1507, -3.4450, -2.8373]], grad_fn=<TBackward0>), tensor([-0.6045, -0.3972, -2.2165, -2.7600, -2.5522],
       grad_fn=<MseLossBackwardBackward0>))

可以發現一共4個Tensor,分別為損失函數對四個參數Tensor(兩層,每層都有權重和偏置)的梯度。

然后針對每一個Tensor求解二階梯度:

hessian_params = []
    for k in range(len(grads)):
        hess_params = torch.zeros_like(grads[k])
        for i in range(grads[k].size(0)):
            # 判斷是w還是b
            if len(grads[k].size()) == 2:
                # w
                for j in range(grads[k].size(1)):
                    hess_params[i, j] = torch.autograd.grad(grads[k][i][j], model.parameters(), retain_graph=True)[k][i, j]
            else:
                # b
                hess_params[i] = torch.autograd.grad(grads[k][i], model.parameters(), retain_graph=True)[k][i]
        hessian_params.append(hess_params)

這里需要注意:由于模型一共兩層,每一層都有權重和偏置,其中權重參數為二維,偏置參數為一維,在進行具體的二階梯度求導時,需要進行判斷。

最終得到的hessian_params是一個列表,列表中包含四個Tensor,對應損失函數對兩層網絡權重和偏置的二階梯度。

原文鏈接:https://blog.csdn.net/Cyril_KI/article/details/124562109

欄目分類
最近更新