BERT中，multi head 768 64 12與直接使用768 768矩陣統一計算，有什麼區別？

1樓：

沒啥區別，數學上一樣的。

真要硬扯區別，pytorch裡面直接用768*768的矩陣速度更快（我記得是這樣，有做過類似的實驗）。另外，有興趣的可以試試初始化，初始化768*768的結果和初始化12個768*64的結果應該也是不一樣的

2樓：蘇劍林

有乙個實用上的原因大家不知道是否考慮到了。

以BERT base為例，最大長度512（實際使用時長度通常還沒有512），此時，如果直接得到乙個的Attention矩陣，這其實是有些「浪費」的，因為任何矩陣理論上都只需要通過就能算出來，你用了，本身引數就存在冗餘。

另外，照我們的直觀想象（以及事後的一些觀察），我們可以發現每個token通常只是注意到有限的若干個token，這說明Attention矩陣通常來說是很「稀疏」的（這個稀疏指的是很多概率值非常接近於0，而不是等於0，因為softmax的結果理論上不能嚴格等於0），而稀疏意味著我們就算降到也是一種浪費，它可能只是兩個更低維矩陣的乘積，即所謂的低秩分解。

從SVD的角度來看，就是說每個實用的Attention矩陣，SVD分解後接近於0的奇異值佔了多數。而BERT base相當於假設了：每個的Attention矩陣，其明顯不等於0的奇異值不超過64個。

這樣每個Attention矩陣，我們都可以用來通過擬合。

所以，根據上述假設，你直接算注意力矩陣，很可能跟效果是差不多的，但計算量大很多。這時候倒不如用某種方式將分割為12個，然後算12次Attention矩陣，再以某種方式整合，這樣一來計算量其實跟直接算單個注意力差不多，而且從拍腦袋的角度想相當於某種模型融合，效果應該至少不差於單個注意力，甚至可能更好，因此有了多頭注意力。

當然，以上都是馬後炮地講的故事，事實上確實是更好，而且人家當初也未必這樣想的。

BERT中，multi head 768 64 12與直接使用768 768矩陣統一計算，有什麼區別？

Excel 中怎樣解決 IF 函式多於 7 層巢狀？

如何看待ti7中目前lgd在小組賽中全勝卻0 2輸給了幾乎全敗的igv？

日語中，數字 7 的發音（）是怎麼來的？

其他用戶還看了：

BERT中，multi head 768 64 12與直接使用768 768矩陣統一計算，有什麼區別？

Excel 中怎樣解決 IF 函式多於 7 層巢狀？

如何看待ti7中目前lgd在小組賽中全勝卻0 2輸給了幾乎全敗的igv？

日語中，數字 7 的發音（ ）是怎麼來的？

其他用戶還看了：

日語中，數字 7 的發音（）是怎麼來的？