MAML和pretraining的有本質區別嗎？

1樓：CK1998

個人理解：

如果硬要說是pre-training其實也沒有問題，因為MAML的目標就是學習特徵先驗，以在不同的task上只需要少量資料就能得到較好的極值點

但是和我們以往理解的pre-training又不太一樣，這是因為我們以往理解的pre-training是在大資料集（e.g. ImageNet）上訓練到極致，希望大資料集對於資料分布的刻畫能力足夠強而可以泛化到其他任務的資料分布上

總的來說前者希望得到的是起點，而後者想得到的東西更像是終點

同樣附上李巨集毅lecture的例子，個人感覺還是蠻清晰的（Slide link：http://

speech.ee.ntu.edu.tw/~t

lkagk/courses/ML_2019/Lecture/Meta1%20(v6).pdf）

2樓：飯飯

很多概念是非常相似的，比如Meta Learning對應Pretraining, Adaption對應Fine-Tune。但是，Meta Learning其正規化的，在目標上和Pretraining有著實質的區別。這種區別從其Loss上看得很明白，我想用兩句話總結一下

Meta-Learning的目標是，學習到的Meta Model經過每個Task的Adaption之後最好

Pretraining通常的目標是，學習到的Model本身在各個Task上最好，而在Pretraining的過程中是不會考慮Fine-tuning的

而從公式上看非常明顯，Pretraining使用最普遍的Gradient Descent，而MAML的Loss梯度回傳中，存在模型的二階導。

從下面兩張圖可以更好地理解這一點。假設圖裡面，Task_1, Task_2, Task_3這3個點，是三個Task對應的最佳引數的位置。而我們的優化從A點（灰色點）開始。

如果針對Task 1, 2, 3單獨作fine-tune（或者adaption），那引數優化的方向分別為Adaption_1, Adaption_2和 Adaption3.

在普通的Pretraining的過程中（上面這張圖）， Adaption是完全不考慮的，它只會找到離Task1,2,3都距離最短的那個點。但這個點不能保障再做完Adaption_1~Adaption_3之後，他們各自能離最佳點最近

在Meta Learning(MAML)的過程中（下面這張圖），優化器帶著原點以及Adaption_1 ~ Adaption_3三條線一起移動，他的目標是找到乙個位置，使得Adaption_1 ~ Adaption_3三條線的末端剛好離Task_1 ～ Task_3最近

然而這些是理論。實際使用MAML很多人應該發現， MAML效果在大多數情況下並沒有過於神奇。而且實際看來，MAML的最佳點往往離Pretraining的最佳點並沒有那麼大diff。

也就是二者實際效果還是相當一致的。這是我的直觀感受。當然，我們可以找出一些case，實際MAML的最佳點和Pretraining的最佳點相隔很遠。

但是這些都比較trick。

3樓：肉豹崽

MAML中的「較優點」實際上是針對我們訓練時的所有任務內的測試集的最優初始化，也就是說它需要滿足「所有任務分布」的最大似然條件概率估計

theta*才是我們想要的最優初始化點

4樓：

我認為你所說的確實有一定道理，你的觀點也和iclr2020的一篇文章有些相似

我認為maml reptile首先是一種pretraining，但是他們和pretraining的區別是額外考慮了高階的梯度，你所說的不過是方向改變了就是更高階梯度的影響。

另外，你所說的 pretraing是找乙個接近所有任務的最優點的乙個點這一點應該不是這麼明顯吧。，保證了能夠快速適應到不同的任務。

Rapid Learning or Feature Reuse? Towards Understanding the Effectiveness of MAML

5樓：

從本質來說，二者是有緊密關係的，思想上存在共通性。但是他們所針對的問題有差異，預訓練是針對資料層面，尋求資料的乙個統一的優化的表示；MAML是針對任務層面，尋求不同任務的乙個統一優化表示，當然這個過程也必然依賴於資料，畢竟不同任務可以進行遷移的本質在於資料的相似性。MAML是作用在比預訓練更大尺度上，如果要模擬，類似於普通的網路訓練和NAS的關係，乙個是針對特定的結構來尋找引數，乙個是把結構也引數化。

他們其實某種程度上都是在求均值，乙個是對資料表示方法的均值，乙個是對任務+資料表示的均值。

至於你說的梯度更新的方式，MAML不過是加了一點二階的統計資訊，這個對效能的改善應該是很小的，哪怕對結果有影響，我覺得也不會是本質的影響。他們的差異還是主要在對目標的假設上。

6樓：

看你怎麼定義 pretrain 了。通常我們說的 pretrain 是在 train 之前在乙個不同的 task 上學習一些先驗知識。MAML 並不應稱為 pretrain，因為它一開始 train 的 meta-task 和最後應用的 task 是同乙個，它沒有更換 meta-task，就是直接 train。

不談最原始的 MAML 的話，現在 meta-learning 的最好的那些模型（包括很多 MAML 的衍生）很多都是用了 pretrain 的方法拿到了乙個比較好的 feature engineering，然後才再做 meta-task 意義上的 fine-tuning。這樣可以叫 pretrain。

MAML 學到的初始化引數和 pretrain 得到的引數肯定不同，因為 pretrain 只是保證了在乙個 task 上 adapt 的很好，它並不關心如何 transfer 到其他 task 上，adaptivity 只是乙個 by-product. MAML 是直接學習了 adaptation 這個 meta-task。

MAML和pretraining的有本質區別嗎？

so that和such that和too，to的區別？

Jennie和Lisa Rosie和Jennie不合是真的嗎？

關於dubbo和zookeeper和solr的關係和作用？

其他用戶還看了：