LSTM中的num step與batch size的區別？

1樓：

舉個栗子：

在自然語言處理中,一句話是由很多個詞（假設一句話已經分詞）組成；

1.然後在訓練的時候，把所有的句子擷取為相同的長度，如果某乙個句子長度大於長度L，則截斷；如果句子長度小於L，則填充0，補充長度至L

2.如果訓練的時候，每次迭代的時候只有一句話，那麼梯度下降的時候，可能較為隨意；但是如果整個資料集一起訓練，一是訓練時間較長，二是自然語言處理的時候資料量很大，會導致記憶體溢位等，所以一般是sample batch_size的句子做一次迭代。

3.會到第一點，則每次輸入的資料大小應該是 [batchsize, sequence_length]的矩陣，這裡的sequencelength就是上文中樓主提到的num_step。

2樓：天雨粟

舉個例子，我有1000個人，每個人有12條記錄，分別代表乙個人過去12個月每個月花的錢。我訓練模型時，發現一次性選1000個人訓練記憶體會溢位，所以我一次給記憶體裡載入100個人，那麼我訓練一輪模型就要載入10次資料。

那麼100就是batch size，12就是num step，1000乘12就是你所有的樣本。

3樓：托比昂

num_step和batch_size的概念不僅在LSTM中,在深度學習中經常可以見到

batch_size是做一次梯度下降,也就是乙個step內所使用的資料量

那麼好,既然下降一次使用的資料量是batchs_size,那麼對整個資料集迭代一遍,需要做多少次梯度下降呢,這個值就是nums_tep,因此num_step=(資料集樣本數量) / batch_size

所以題主的第二個問題,很明顯兩者是相等的