神經網路訓練時間主要耗時在於前向還是梯度反傳？

1樓：czvsdf

前向計算是按部就班的事情，順著模型自然推就出來了，可以理解為多項式時間出來（中學水平）。

引數更新就是個自加運算，類似資料庫update更新覆蓋，可以理解為常數時間出來（小學水平）。

梯度計算是個玄學，因為就前向計算的一步而言，就存在很多種梯度計算方式，其中包括靠譜的和不靠譜的（不靠譜的沒人用，我只是舉個例子），靠譜的包括torch的一堆優化器，簡單的梯度下降或者隨機梯度下降，那個就有點苟了，正常人學習大概要花一點時間；當然還有更苟的adam或者RMSProp，以及現在新出的一些梯度計算公式——反正核心都是花裡胡哨的組合加權各階導數。（本科水平，玩優化花裡胡哨的是研究生以上水平）

不靠譜的方法理論上不存在，因為效果肯定辣雞沒人用，比如複雜的隨機數或者沒事來個奇怪的複雜運算什麼的——所以理論上，如果有乙個很複雜的靠譜的計算梯度的優化方法，不考慮計算準確率提公升作用，只考慮時間複雜度的話，就可以視作乙個瞎搞的複雜函式。

因此，正常梯度計算的複雜顯然都是高於前向計算的，高階複雜的梯度計算就更不用說了（你可以理解為不靠譜的玄學計算），更是遠遠大於前向計算。PS當然也可以遠遠小於，如果不考慮效果提公升，你可以定義你的梯度計算公式始終為常值，比如233，顯然這樣查表的梯度計算複雜度會比引數更新的還低——當然這種梯度計算不存在2333333。

綜上，計算複雜度排名從高到低如下：

玄學≈複雜（高階導數）的梯度》簡單（低階導數）的梯度》前向計算》引數更新》不存在的常數梯度≈查表

PS 誰又能說，神經網路本身就不是玄學呢？

2樓：

反向慢。以前的pytorch的多卡平行計算只有前向做了多卡並行，反向還是1號卡單卡在做，很迷惑。不知道後來版本這點改了沒有。

3樓：TY Sun

考慮某層的計算為 y=f(x, w)，其中x為輸入，y為輸出，w為權重。

前向需計算y，反向需計算dx和dw（有些層無w，例如池化，首層通常不需計算dx），引數更新需計算w=w+dw。

所以一般來說是t2>t1>t3。

有些情況下，t3會比較複雜，但是一般也不會很久。

神經網路訓練時間主要耗時在於前向還是梯度反傳？

有沒有訓練神經網路的數字貨幣？

RNN神經網路訓練過程中weight幾乎不更新，只有bias更新？

訓練神經網路所需要的gpu是什麼意思？

其他用戶還看了：