「過擬合」的嚴格定義是什麼?

時間 2021-05-31 17:40:33

1樓:克萊恩

簡單來說就是memorize data 而不是learn

比如你考試的時候吧past exam 的題全部背過了然而還是不會做這次考試的題

2樓:空氣幣和韭菜鏈

①訓練集的error持續降低,當測試集的error開始公升高的那一刻。(充要條件)

②當訓練集的error小於貝葉斯error。(充分條件)

3樓:Yeung Evan

嚴格定義目前應該還沒有。

你想,顧名思義,「過擬合」現象出現的原因在於「過度」地擬合,其反面可以歸結為「稀疏」(sparsity)。換句話說,避免「過擬合」和實現「稀疏」表達語義上看是等價的。而目前,人們在統計理論上對於稀疏性、特別是高維資料中的稀疏性了解的還不夠多。

在近十幾二十年中,理論上找到了稀疏性的一些充要條件,但這些充要條件看上去過於複雜且不自然(理想情況是找到足夠簡潔且具有解釋性的條件)。

通俗地來說,過擬合或者稀疏性是大資料時代帶來的獨有的問題,而目前人們對其還沒有足夠深刻的認知,就如同物理學進入量子時代,未來應該還有更成熟的理解。

4樓:翻翻學姐

在Tom M. Mitchell maching learning 一書中,給出了這樣乙個overfit定義,雖然不是嚴格的數學定義,供參考。

Definition: Given a hypothesis space , a hypothesis is said tooverfitthe training data if there exists some alternative hypothesis , such that has smaller error than over the training examples, but has a smaller error than over the entire distribution of instances.

5樓:

我不知道你所謂的嚴格的數學定義指的是什麼。你可能想要一種通過形式化的語言描述的定義。那麼 @Shenk 的答案裡就提供了一種。

實際上有很多機器學習的問題可以從不同的領域來研究,而在不同的領域對於某個東西的定義都可能不太一樣。因此你可能會碰到很多不同的嚴格的數學定義。其實這個問題簡單在網上簡單一搜就能夠找到很多資訊。

例如https://www.

25/過擬合(原因、解決方案、原理) - 雪倫的專欄 - CSDN部落格

用簡單易懂的語言描述「過擬合 overfitting」?

最後談談我的理解。

我不是很贊同從過多或者過少的引數的角度來描述過擬合。所謂擬合指的是你的模型學習了特徵和標註之間的某種關係,比附y=sin(x)。過擬合最直觀的理解是你的模型所學到的關係在測試集裡不存在。

一般來說這是因為你的模型學習了訓練集裡面的雜訊。

這個問題跟引數數量的關係是這樣的。對於一類模型,我們一般認為增加引數可以增強模型的學習能力。所以說引數越多,越有能力學習到雜訊。

但這並不是說,引數多就一定會學習到雜訊。同時,模型的學習能力也不會無限增強。總的來說,並不是增加引數就會導致過擬合。

6樓:

這學期正好在學Learning Theory,這是上課給出的定義。課件在Introduction to Statistical Learning Theory這裡面。

7樓:周瑤

這個恐怕沒有標準的數學定義。

就好比概論論裡的p值,最多出乙個公認的0.05顯著性水平,但實際上是人為的產物,無法從概論的其它公理中推導出來。

一般來說,評價是不是過擬合主要看測試集的的誤差大小。選擇測試集誤差最小的模型,此時對應了乙個訓練集的誤差,如果另乙個模型B包含了更多的引數,更小的訓練集誤差,但測試集誤差大於最優值,那就可以認為模型B是過擬合了。

氣體的吸熱 放熱的嚴格定義是什麼?

金晨羽 慕容行者 如 Byron所言,系統與外界的的熱交換為Q 標量 對於該系統 在本提問中為 氣體 Q為正的的時候吸熱,Q為負的時候放熱。氣體降溫時是否能吸熱,公升溫時能否放熱?氣體當然可以降溫時吸熱,只要同時對外做功即可,反之亦然。具體的吸放熱大小如何計算?這個量不能直接觀察,必須間接計算。對於...

為什麼svm不會過擬合?

過擬合是ML的核心難題,所有ML的模型都會存在過擬合,所以SVM肯定是存在過擬合的。特別是硬間隔SVM,是非常容易過擬合的,而加入軟間隔,很好的緩解了過擬合,SVM的最小化 w 本質上是要最大化間隔,但同時也是一種正則化方法,可以看作是對模型的結構約束,這樣可以篩選掉一部分w很大的模型,削減假設空間...

如何判斷自己的網路是欠擬合還是過擬合?

Chuang 首先題主你要保證你的資料集是沒有問題的,對於訓練集和測試集的劃分也是合理的。一般來說,對於網路擬合程度的判斷主要還是使用檢視訓練集誤差和驗證集誤差的方法。欠擬合乙個網路是欠擬合的,那必然在開發集和驗證集上的誤差是很大的。假定訓練集誤差是20 驗證集誤差是 22 在這裡對於訓練集而言,誤...