Fine tuning中如果不凍結任何層,本質上是不是與不進行Fine tuning一樣?

時間 2021-06-07 23:36:40

1樓:Chuang

模擬一下,往一杯純水裡面加一顆鹽和一杯鹽水裡面加一顆鹽,一樣嗎?

其實使用Fine-Tuning作為DL的乙個小技巧,是有乙個前提條件的,就是樣本太小,無法單獨訓練出乙個效果良好的神經網路。然後就利用乙個預先訓練好的同型別的網路,提取其中的權重,然後整合到自己的網路中,相當於乙個捷徑吧。

如果你問題的假設前提是有足夠的資料集,那麼Fine-Tuning是完全沒有必要的,直接訓練就好了。

Fine-Tuning最大的優勢就是當你自己的樣本數量不足以支撐你去完成訓練好乙個網路的時候,別的網路能幫你一把。比如在計算機視覺方面,在訓練的很好的網路前幾層能夠提供很好的底層特徵,例如邊、角等等一類的基礎幾何資訊。有了這些豐富的基礎幾何形狀,等過渡到小資料集上進行 Fine-Tuning 的時候,就可以通過它們組合出上層具有強判別力的特徵,能夠更加快速的進入到更加「高階」的任務處理程序。

在使用深度網路做影象處理任務時,使用乙個在大的資料集上預訓練好的模型(例如caffe在imagenet上訓練的caffeNet, VGG16...)在自己資料上微調往往可以得到比直接用自己資料訓練更好的效果,這是因為在imagenet上預訓練的模型引數從微調一開始就處於乙個較好的位置,這樣微調能夠更快的使網路收斂。

然而,如果網路是空白的,那可能網路首先就會在前面的底層特徵提取上花上很長的時間,並且因為資料樣本少的問題,提取的特徵還不怎麼準確,導致網路整體效果不怎麼好。

再舉個例子,當遊戲中的你還在打小怪攢經驗賺金幣的時候,人家人命幣玩家或者代練的玩家早就在打最終的大Boss了。

這,就是輸在起跑線上了呀。

2樓:wangmeng

不一樣,與train from scratch相比,這樣訓練模型時,模型初始化時的引數分布不同,因而先驗分布不一樣。收斂時效能也會不一樣的。

在戀愛中女生該不該主動?如果男生不主動是不是代表他不喜歡你?

小冰 第乙個問題 很簡單的乙個道理 你想喝水 水杯放在桌子上 你去拿就能喝到 你在這裡問我該不該走過去拿起水杯喝一口 還是等水杯自己走過來或者不喝了等天上下雨就好了第二個問題 不一定也沒有必要考慮 只要你主動了不就知道了麼 無知 看男生平時關注你不,如果關注還是喜歡的,我現在也是碰到個女孩子我挺喜歡...

為什麼人會凍死而在液氮中培養的細胞不會凍死,而且還能保持活性?

不請自來 1.凍存的時候除了個別的像芽孢桿菌的孢子之類霸氣的玩意一般的凍存只要想讓細胞活著從大腸桿菌到腫瘤細胞都是需要加保護劑的低階到大腸桿菌到甘油高階到腫瘤細胞的DMSO 減少細胞因為大型水晶體造成的損傷 2.冷凍的時候是有各種規程的比如腫瘤細胞的程式降溫冰盒啥的不是簡簡單單的凍傷 3.都是盡可能...

如果人達到絕對零度,人會不會被凍齡?

武松戰腦斧 首先不知樓主說的是生理上的老化,還是時間上的停止。理論上說,達到絕對零度時,原子間的相對運動就停止了,人體的衰老源頭就是因為細胞的分解再生次數達到極限,失去了分解再生能力,而原子間相對運動的停止就避免了細胞由於參加各種生理活動所發生的老化。原理和美國隊長裡的情節相似。但絕對零度是一種理想...