Pytorch內部中optim和loss是如何互動的？

時間 2021-05-30 07:53:22

1樓：zhangqi

SGD繼承了Optimizer,再看Optimizer類

net.parameters() == params快遞進去了Optimizer類，通過add_param_group新增進了self.param_groups 屬性params的字典裡。

最後看SDG裡的step

)根據gradient更新網路引數，d.grad是loss.backward()自動求導機制已計算出了引數的gradient

菜雞回答，望輕噴！！！

2樓：羅若天是真的菜

loss.backward()獲得所有parameter的gradient。

然後optimizer存了這些parameter的指標，step()根據這些parameter的gradient對parameter的值進行更新。

老實人上面使用者有糖吃可好講的已經挺好了，我再插兩句在建圖過程中，往往有兩種層，一種含引數有Variable，如全連線層，卷積層 Batch Normlization層等另一種不含引數無Variable，如Pooling層，Relu層，損失函式層等。閱讀原始碼發現 nn.裡面的是繼承自n...

張懷文相同的batchsize,多gpu會不會比單卡快都是個問題。我遇到過多卡時候，每個卡頻率撞牆的問題，甚至比單卡慢。就是快的時候，也不會有N張卡，提速N倍的能力。多卡並行相關程式的開銷多卡策略的開銷都不小。勒布朗詹姆斯哈登不會，pytorch有很多計算都是只在第一塊卡上進行的。而且如果雙...

王小山在DataLoder的iter中，會觸發子類Dataset中的getiterm函式讀取資料，並拼接成乙個batch返回，作為模型真正的輸入操作符過載如果乙個類定義了名為 getitem 的方法，x為該類的乙個例項 x i 可是為x.getitem x,i Goodbye響我覺得題主你想...