如何理解《統計學習方法》中提到的「複雜的模型有較小的先驗概率，簡單的模型有較大的先驗概率」？

1樓：劉大彥

是不是我看的版本有問題，我看的版本裡說的正好相反啊，書裡說可以假設複雜的模型有較大的先驗概率，簡單的模型有較小的先驗概率。

2樓：SleepyBag

簡單的模型很可能靠譜（先驗概率大），複雜的模型很可能不靠譜（先驗概率小），所以即使某個簡單模型對於我們看到的資料不如某個複雜的模型，這個簡單的模型也更有可能是更好的模型。

所以我們要用一些方法盡可能得到比較簡單的模型。

比如 L2 正則化，就是認為引數的數值越大，模型越複雜，越不靠譜。即使我們從訓練資料中算出乙個比較大的引數，那也更可能是資料錯了，而不是算出來的這個引數是對的。因此 L2 正則化選擇盡量壓低每個引數的數值。

3樓：

沒有什麼難理解的，1總是不夠分配的，要表達的內容多了，自然就小了。本質不是大小問題，而是佔比，大小畢竟有e和log來處理過小過大問題。

4樓：呆坐的熊

建議題主把前提放上。

這句話在原文中是想用貝葉斯的觀點來表達奧卡姆剃刀。奧卡姆剃刀原則表示在所有可能模型中，既能夠很好地解釋資料並且複雜度最小的模型才是最好的模型。以分類任務為例，如果訓練了兩個模型乙個複雜乙個簡單，他們的測試誤差相同，那麼我們應該選擇簡單的那個模型。

用概率表示式來看，先定義X=，Y1=，Y2=。

P(Y|X)=P(X|Y)P(Y)/P(X)。其中P(Y)就是先驗概率。兩個模型精度情況，即P(X|Y1)=P(X|Y2)，為了讓P(Y1|X)>P(Y2|X),所以我們應該讓P(Y1)>P(Y2)。

總結就是讓複雜模型具有小先驗，簡單模型具有大先驗。

5樓：Megumi

先驗概率是指通過先驗知識得到的概率值。換種角度來看，事件發生的概率越小，意味著隨機性更高，模型的複雜度也越高，所以可以理解為複雜模型有較小的先驗概率。如果先驗概率較大，沒有必要使用複雜模型。