為什麼多層感知機w不能相同b可以相同?

時間 2022-01-08 04:47:58

1樓:趙明明

用個簡單的例子來說下:

這裡面已知量有 ,

待求量有 ,待求量有6個,

如果w一樣,那麼待求量就降低為4個了,分別是:

如果b一樣,那麼待求量就將低為5個了,分別是:

待求量就是模型的參數量,代表此模型的能力。參數量越多,模型能力越強。

w一樣,引數的降低量為2,這個2多於b一樣時的引數降低量1,所以,吳老師說w相同效果不好,不如b一樣時效果好。

其實效果最好應該是w,b都不相同。

題主這裡,w一樣,loss完全不下降,說明當前資料對於現有模型太難了,w一樣的模型能力相對於現有資料太簡單了,參數量太少了。你也可以試試把學習率調小,或許可以看到loss微弱的降低。

吳老師還說: b的更新沒有對稱性,這個對稱性具體指啥?我不太理解,期待其他朋友的解釋

可能是指 b更新量相同吧。無論b是否一樣,b的更新量都是相同的。w的更新量跟輸入x,輸出y都有關係。b的更新量只跟y有關係,所以y對應的所有b的更新量是相同的。

為什麼RNN每個時間步要用相同的W?

初衷 We need a neural architecture that can process any length input.From CS224N 從多層網路出發到迴圈網路,我們需要利用20世紀80年代機器學習和統計模型早期思想的優點 在模型的不同部分共享引數。引數共享使得模型能夠擴充套件...

為什麼android刷機rom不能通用?

1.手機儲存小,32G,64G等,所以要求ROM尺寸要小,這樣各家ROM內的驅動就只有定製啦,而不能做成相容市面上通用的驅動,這樣尺寸會變大。2.手機發展歷史時間不如PC發展時間長,沒有形成大一統的相容驅動。3.手機硬體相對PC較多,比如手機有基帶,2G,3G,4G網路,GPS,攝相頭,陀螺儀,NF...

開發機到底是什麼?為什麼現代遊戲機廠商不能提供SDK,以交叉編譯的方式直接在個人pc上開發遊戲?

如果你買了開發機,主機廠商都會提供SDK,就算是幾十年前的紅白機都是有SDK的,雖然還是難用的一B。開發機和零售機型的區別無非就是是否開放除錯功能 開發機可以隨時安裝帶有除錯功能的系統和零售機型內建的系統,帶有除錯功能的系統還有一些比如模擬存檔損壞 在機器讀取硬碟檔案時將讀取速度變得很緩慢的功能,還...