為什麼最小二乘法要用最小誤差平方和來擬合(為什麼不用立方和,或者開方和)

時間 2021-05-08 06:45:49

1樓:

因為 space只有當 的時候才是Hilbert space.

證明參見:http://

2樓:Klaus Ianopatov

講道理如果你只把最小二乘法看成乙個optimization problem的話,你可以設定很多loss function來達到gradient descent optimization的效果。但是如果你設定squared error的話,很巧合,你的optimization能寫成乙個closed form。所以這個closed form是巧合而已,更多情況下是趨向於沒有closed form solution,只能iteratively perform gradient descent

3樓:Alucard

從代數和幾何的角度思考,最小二乘法的結果就是向量y在由x組成的超平面的投影,誤差就是垂線的距離。

自然距離最短擬合的越好。

立方和有正負值的問題,開方明顯不行。

4樓:Xi Yang

你用最小二乘處理的時候,誤差值相當於就是方差,相當於在認為原始分布是正太的,而這經常對。

二乘在技術上經常比較好求解,可能也是原因吧。。

5樓:厭戰

這個你得問高斯,他說的最小二乘有blue的性質。任何的估計方法取決於你想要什麼性質,你要blue當然就是最小二乘,你要穩健性就最小一乘,你還可以通過統計決策理論構造你自己的損失函式

6樓:

我覺得最小二乘使用的多可能還因為它具有一定的便利性。這個便利性是內積所帶來的。

預設我們需要擬合的是曲線。擬合並不一定需要內積,只要我們所用於擬合的曲線構成乙個「有限維的距離空間」,那麼一定存在最優擬合。換句話說,比如我們想要用 次多項式擬合閉區間上的一條曲線,只要我們良好地定義距離概念,那麼由於是 次多項式的有限基,因此一定存在乙個擬合的最好的多項式函式。

然而,就算我們知道了理論上最優擬合的存在性,這並不能幫助我們找出這個最優擬合。這時乙個極為便利的數學手段出現了,那就是內積。如果乙個線性空間 上定義有內積,那麼當我們取它的乙個有限維子集 作為用於擬合的曲線集時,我們可以計算出它的一組標準正交基

這時曲線擬合變成了一項平凡的操作——當我們想要用 擬合 內的元素 時,我們只需要計算 在 上的投影即可,這個投影就是最優擬合。具體地說,當 是 的標準正交基時, 在 上的投影就是 ,非常平凡。

函式空間上,一般考慮的內積是 ,這時傅利葉級數中的 就是 上的一組標準正交基,而 是 上的一組正交基。

在 上的三角函式擬合想必很多人都見過

反之,也可以用多項式函式在 上擬合曲線

三次冪函式擬合

五次冪函式擬合

總結一下,只要利用內積,就可以用平凡的方法計算出擬合曲線,而二乘正是內積的一種。絕對值無法匯出內積,三次方無法匯出內積,四次方同樣無法匯出內積,因此二乘具有無以倫比的計算簡便性

離散點上的二乘法可以看作在離散測度空間上的積分,本質沒有區別

舉乙個離散的例子,比方說我測得一組資料是

我們可以預期它是拋物線,因此我們在 範圍內擬合,這時我們首先定義 ,換句話說就是定義 上的均勻測度,並令

之後,找出這個內積空間內拋物線曲線族的標準正交基,經過計算發現這組標準正交基是 ,因為是近似計算所以我們也把標準正交基換成容易處理的小數形式

擬合曲線

幾何畫板對比

這樣擬合出的曲線就是滿足最小二乘的曲線,而它的計算方式一路順風順水,沒有難度。

7樓:Cnrangerace

佩服這種問題還能長篇大論的各位…

其實就一句話,誤差有正負之分,負誤差無法開方根,奇數次方無法消除負號,唯有絕對值或平方的和能夠真實反映累計擬合誤差。

8樓:

首先要知道ols是假設統計誤差服從正態下極大似然推出來的;你當然也可以用除了2以外的l-p norm作為loss,但是這時候你的假設也就變了。

9樓:YongZ

解這樣的問題優化問題一般都需要求導 or 梯度,再用梯度下降的方法解。構造平方和誤差作為目標函式,一階二階導數都很好求,算是乙個原因吧。

另外,平方和是一種範數,滿足範數的基本性質:非負、凸性、三角不等式等,這些都是很好的性質。

至於題主說到的那兩個,用立方和豈不是會抵消正負誤差?用開方如何處理更根號下為負的情況?

10樓:

因為誤差其實測量的是「距離「,

奇數次方的相加,會使正負抵消,造成「距離」很短,但其實誤差很大的假象;

而偶數次方相當於求距離的絕對值,避免了正負抵消的情況。

11樓:

首先這東西是可以證明,當我們需要判斷乙個擬合結果A和真實值B的誤差時,若是離散分布,那麼它的目標函式就是我們常說的交叉熵形式,如果是連續的話,符合拉普拉斯分布式,採用的是曼哈頓距離,即|y_hat-y|。如果符合高斯分布,即使用歐式距離,就是題主所說的(y_hat-y)^2。

其中背後的數學原理很多答主都說了,這裡我給乙個暴力的解釋吧。

首先,你的擬合結果y_hat,可能會比真實值大,也可能比真實值小,這樣(y_hat-y)的正負就無法保證,而得誤差是乙個均值,這就會導致在誤差求和過程中發生正負抵消得情況,導致數值不能衡量擬合結果,為了解決這個問題,我們可以採取|y_hat-y|,然而絕對值是乙個醜陋得東西,因為它在一些點處不可導,這個性質在一些場景裡可能會有不好的效果,所以我們讓他平方一下就好了……

回到題主的問題,首先開方和高階的奇次方都不能解決正負抵消的問題。而對於高階的偶次方,在平方就能解決的問題,實在沒必要弄到2n次方。

至於數值敏感的問題,也是乙個因素,機器學習領域為了解決這個問題,有很多花式的目標函式,這一點就隱去不表了。

12樓:靈劍

因為我統計學的不是很精,所以有的時候會混用統計和隨機過程的概念,大家以理解為主……

我們舉個簡單的例子,假如樣本由2/3的1,和1/3的0構成,我們現在要通過乙個固定值來代替這個樣本,讓估計值偏差絕對值的k次方最小化,也就是讓

最小簡單求個導數就可以得到 的估計值:

k=1時,導數始終不為0,此時 時有最小值

不難看出,k越大 越接近於1/2,k越小 越接近於1。而 時,恰好 的值也是原始樣本的期望值。而k等於其他值的時候都沒有這個特點,要麼偏大要麼偏小。

事實上,因為有

我們很早就知道,如果固定值 使得隨機變數 到它的均方誤差最小,則 是 的期望值。

這可以解釋我們為什麼這麼偏愛均方誤差,因為均方誤差往往與隨機變數的期望聯絡在一起,其它次方則沒有這種聯絡。至於具體最小二乘法的模型和原理,其他回答已經介紹得很好了。

進一步拓展來說,實際上最小二乘法和最大熵原理是有聯絡的,而我們在最小二乘法建模時使用高斯分布,也可以說是因為高斯分布是相同雜訊功率下熵最大的分布。所謂最大熵原理就是說,在建模的時候,引入盡可能少的資訊量,保持模型的熵盡量大。為了能說明模型為什麼不完全線性,我們引入了乙個額外的隨機變數

根據條件熵的公式,這個引入的隨機變數的熵越大,就相當於剩下部分的熵越小,因此我們反過來要讓這個隨機變數的熵盡量小,也就是要減少它的方差,因此我們採用最小化

的方式就可以達到目的。

13樓:saturnman

這個方法最早確實是猜出來的,而且其它次和絕對值都有人用。但是應該是高斯在《論天體運動》中給出來正態分佈函式和最小二乘法的理論依據。它是給出了引數估計的極大似然估計。

14樓:何旭軒

從統計學的角度來講,雜訊的建模是高斯分布 ,其最大似然的結果和均方誤差的優化結果目標一致,我覺得這個是均方誤差流行的很重要的乙個原因

15樓:簡正

簡而言之,從統計學的角度來看,這是使用高斯分布建模雜訊+最大似然估計的結果。如果用拉普拉斯分布建模雜訊,那麼目標函式就應當是絕對值誤差和。

知乎文字框原來不支援markdown語法?放鏈結好了。詳細答案看這裡。

最小二乘法為什麼使用平方誤差

16樓:maple

這個問題需要用統計學的觀點來解釋,最小二乘法在統計裡面是乙個引數估計問題,用平方的話,剛好是引數的極大似然估計,因此我們選用平方。詳見為什麼最小二乘法對誤差的估計要用平方?

計量分析中最小二乘法和二階最小二乘法有什麼區別呀?

今天心情好,是時候來個硬核的三本回答騙面次了 先上OLS,考慮高斯 馬爾科夫假設 定理 BLUE 其它非奇異的預設你懂了,後面不提滿秩非奇異就是因為我三本什麼都不會 考慮E X,res 0,考慮Y X res 得到beta估計量 X X 1X Y X X 1X Y X X 1X res 考慮右邊第二...

Fama Macbath 方法比最小二乘法好在哪?

童話李 有乙個經濟學的詞語叫路徑依賴。當初英國的火車軌道軸距是根據馬車的軸距確定的,具體這個軸距是不是最優的沒人知道。後來各地的鐵軌都已經按照這個標準鋪設好,究竟這個軸距是不是最優的就不重要了,反正也沒人能承擔的起把所有的鐵路重鋪一遍的成本。FM方法有類似的特點。其出現的時間點是在計算能力不足的歷史...

最小二乘法和梯度下降法有哪些區別?

東東bh 最小二乘問題 當 為線性函式時就是線性最小二乘問題,否則就是非線性最小二乘問題。線性最小二乘問題 其中 可以直接通過解析形式求得最優解,既 當自變數x的維度不是很高的時候,適合直接用解析形式求最優解,當x維度很高的時候求逆運算量過大,可以採用梯度下降法迭代求解。非線性最小二乘問題一般都採用...