高斯過程說它是非引數模型，這點怎麼理解？

1樓：

We don』t want to specify upfront how many parameters are involved? We』d like to considerevery possible functionthat matches our data, with however many parameters are involved. That』s whatnon-parametricmeans:

it』s not that therearen』t parameters,it』s that there areinfinitely many parameters.

2樓：

高斯過程屬於貝葉斯非參模型，這類模型不是沒有引數，而是引數是無限維的。而與之相對的引數模型中模型的引數的個數是固定的、有限的。

如何簡單易懂地理解貝葉斯非引數模型？ - 數學 - 知乎

3樓：理查德帕克

一點淺見，所謂的非参指的是不對函式的形式建模，比如回歸，你不知道真實的y和x之間是什麼樣的關係，可能是線性也可能非線性，你選擇的函式類直接決定了你模型的上限，如果你用乙個線性函式來擬合高次多項式，毫無疑問效果有限。高斯過程是對函式建模，乙個函式可以看成是乙個無窮維度的向量，該向量的每個維度的值是該函式在每個點x上的值f（x），我們的訓練資料D可以看成對函式的一次抽樣，高斯過程也有引數，具體的就是高斯kernel的幾個引數，所以有参指的是對資料建模，引數決定了函式形式，非参指的是對函式建模，引數決定了函式對相近點的敏感程度。有參模型的缺點在於我們通過假設函式的形式限制了model的flexibility，而非參模型比如高斯過程也不是完美的，儲存kernel matrix需要平方複雜度的空間，資料量大的情況下很耗空間，而推斷的時候又需要對kernel矩陣求逆，是三次方量級的時間複雜度，所以通常用一些近似演算法，詳細請閱讀gaussian process for machine learning。

4樓：

引數化和非引數化指是否指定了具體的函式形式。非引數化模型也有引數，只是它不指定分布的函式形式

比如在密度估計中我們可以使用兩個高斯分布組合的方法去擬合雙峰的分布，這就是事先指定了高斯分布的分布函式。

在核密度估計和近鄰法密度估計中我們沒有具體的函式形式，只是實現做了假設：如果點x的鄰域R足夠小，可以把R中分布看成均勻分布，概率質量p=p(x)V. (V是R的體積) 。

而p=n/N (N是樣本容量，n是落在鄰域內的樣本個數）這樣我們就得到了p(x)的表示式。我們固定V，變化n得到核密度估計，固定n變化V得到近鄰密度估計。

在後兩種方法中沒有指定總體分布的具體函式形式，屬於非引數化方法。但是仍然有超引數v或者n

5樓：張大帥

這就其實涉及到超參和引數的定義了。引數一般是指固定乙個函式，要去估計的裡面的變數。但是，你要非說超參是引數，從哲學上來說也不能說是錯誤的。

比如knn分類，最近的幾個樣本投票決定，這是非參吧，因為你不需要估計任何引數，也不知道不假設分類函式的形式。但是具體看幾個近鄰呢？這是超參。

但轉念一想，這個超參是不是也可以進行估計呢？從整個系統的角度去看，這不也是引數嗎？

糾結這個問題沒什麼趣味，遵從慣例就好了。

6樓：Michael Jackson

引自wiki [Nonparametric statistics]：Non-parametric models differ from parametric models in that themodel structure is not specified a priori but is instead determined from data. The term non-parametric is not meant to imply that such models completely lack parameters but that the number and nature of the parameters are flexible and not fixed in advance.

形象說，引數模型表達的分布基本形狀是不變的只是高矮胖瘦這些引數變化了。而非引數模型能表達更加不規則形狀的分布，而且基本形狀與訓練樣本有關。

引數模型依賴於乙個先驗的概率分布假設，函式的形式是已知的，引數的維數是有限的。例如Gaussian模型。但是引數模型難以描述複雜的概率分布。

非引數模型不依賴於特定的概率分布，函式的形式與訓練樣本有關，其引數的維數不是固定的而會隨著訓練樣本數變化。例如KNN、Parzen window。

注意Gaussian process的先驗不是隨機變數y符合高斯分布，而是訓練樣本集和測試樣本的隨機變數值構成了乙個多維向量[y y*]'，符合多變數高斯分布。

半引數模型，模型的一部分依賴於先驗的概率分布假設，一部分不依賴。例如Gaussian mixture model，每乙個分量都是乙個引數模型，但是混合分布卻可以隨著訓練資料變化。

高斯過程說它是非引數模型，這點怎麼理解？

高斯過程（Gaussian Process）的取樣是如何實現的呢？

高斯過程回歸能不能新增T分布或者高斯混合分布的雜訊呢？

複利是什麼，為什麼愛因斯坦說它是宇宙最厲害的東西之一（複利應該屬於投資理財）？

其他用戶還看了：