在隨機梯度法的使用中，loss function的計算，是用乙個樣本進行計算還是用所有樣本進行計算？

1樓：讓cpu飛一會兒

loss函式的計算都是針對單一樣本的，只是在乙個批次上都會對這一批樣本做聚合，最常見的就是平均，當然也可以是sum或者自定義聚合函式。

2樓：ARYA

隨機梯度下降，一次對乙個樣本前向計算輸出，反向計算梯度，更新引數。

與之相對的是batch 梯度下降，一次計算全部資料，計算平均梯度，更新引數。

當然最常用的是mini batch乙個計算乙個小batch的資料，計算平均梯度，更新引數。

3樓：

乙個樣本。具體去寫吳恩達2-2的作業就會了，看看大叔先生的csdn部落格，附上原始碼，可以看到每次只抽取乙個樣本，計算前向傳播、loss、梯度、更新引數。

4樓：

題主問的應該是Stochastic gradient descent(SGD)的情況吧

梯度下降法分3種:

SGD 隨機梯度下降:每次計算乙個樣本的loss function, 然後根據乙個樣本的梯度萊更新引數;這種做法速度比較快但可能會收斂到區域性最優

Batch gradient descent 批梯度下降(也有地方叫full-batch gradient descent)，每次利用整個訓練集的樣本求loss function(需要對所有樣本求平均)，再求梯度更新引數;好處在於每次計算的負梯度方向更加接近最值所在方向，因而需要迭代的次數少;缺點是每次訓練的時間較長(尤其是訓練樣本比較多的時候)

minibatch gradient descent，小批次梯度下降，是前兩種方法的折中:每次選取乙個batch(batch size 一般選2的冪次，常用32，64)的資料計算loss function然後求梯度。在速度和效能上折中

5樓：Mr.Z

梯度下降：一次計算所有樣本的誤差再求平均，再求梯度SGD（隨機梯度下降）：蒙特卡洛取樣，用乙個樣本的誤差代替所有樣本的平均誤差，再求梯度

mini batch SGD：以上兩種方法的折中，用乙個小batch的平均誤差來近似，再求梯度。

現在一般都用的是mini batch SGD

在隨機梯度法的使用中，loss function的計算，是用乙個樣本進行計算還是用所有樣本進行計算？

Java中的類和c 中的類，在使用中要理解？

在Mac的terminal中如何使用命令來啟動應用程式？

在語言研究中，如何看待語料的使用？

其他用戶還看了：