為什麼線性回歸叫做回歸？

1樓：

這個問題也困擾我很久，我覺得身高那個均值回歸的例子沒有完全解答我和答主的疑惑，下面說說我個人的理解吧。

我們可以對比回歸模型和投影模型兩種基本的計量模型，他們的估計方法都是線性擬合，估計量的表示式也是等價的，為什麼乙個叫「回歸」？乙個叫「投影」呢？原因在於回歸模型在最小二乘的目標函式中是以條件期望作為因變數，而投影模型最小二乘的目標函式中是以真實值作為因變數，因此我們平時說的最小二乘估計量其實是投影模型的估計量。

但是！回歸模型的零條件均值假設可以保證推出投影模型的正交性假設，因此回歸模型的估計量表示式也就是最小二乘估計量。

從以上分析過程亦可以看出，回歸和投影的估計量都是最小二乘估計量，但他們的本質區別就在於假設條件，投影模型關心的是真實值，而回歸關心的是因變數的條件期望，為什麼只關心條件期望呢？因為零條件均值雜訊的假設保證了真實值只會圍繞著這個條件期望上下波動，最後均值回歸到條件期望，所以只要估計出條件期望或者說資料生成機制便認為得到了乙個穩定可信的結果。

所以，簡單來說，「回歸」這個名字的由來是因為回歸模型的優化目標就是條件均值，而真實值會均值回覆（回歸）到條件均值。

2樓：thothsun

回歸一詞的由來：

這個術語是英國生物學家兼統計學家高爾頓在2023年左右提出來的。人們大概都注意到，子代的身高與其父母的身高有關。高爾頓以父母的平均身高X作為自變數，其一成年兒子的身高Y為因變數。

他觀察了1074對父母及其一成年兒子的身高，將所得(X, Y)值標在直角座標系上，發現二者的關係近乎一條直線，總的趨勢是X增加時Y傾向於增加，這是意料中的結果.有意思的是,高爾頓對所得資料做了深入一層的考察，而發現了某種有趣的現象。

高爾頓算出這1074個X值的算術平均為68英吋(1英吋為2.54厘公尺)，而1074個Y值的算術平均為69英吋，子代身高平均增加了1英吋，這個趨勢現今人們也已注意到。以此為據，人們可能會這樣推想：

如果父母平均身高為a英吋，則這些父母的子代平均身高應為a+1英吋，即比父代多1英吋。但高爾頓觀察的結果與此不符，他發現：當父母平均身高為72英吋時，他們的子代身高平均只有71英吋,不僅達不到預計的72+1=73英吋，反而比父母平均身高小了。

反之,若父母平均身高為64英吋，則觀察資料顯示子代平均身高為67英吋，比預計的64+1=65英吋要多。

高爾頓對此的解釋是：大自然有一種約束機制，使人類身高分布保持某種穩定形態而不作兩極分化。這就是種使身高「回歸於中心「的作用。

例如，父母身高平均為72英吋，比他們這一代平均身高68英吋高出許多，「回歸於中心」的力量把他們子代的身高拉回來些：其平均身高只有71英吋，反比父母平均身高小，但仍超過子代全體平均69英吋。反之，當父母平均身高只有64英吋，遠低於他們這代的平均值68英吋時，「回歸於中心」的力量將其子代身高拉回去一些，其平均值達到67英吋，增長了3英吋，但仍低於子代全體平均值69英吋。

正是通過這個例子，高爾頓引人了「回歸」這個名詞。

3樓：畢閣棣

我覺得是history的原因吧，最早的研究input and output之間關係的時候，提出了regression的概念，從此regression的意思就被extend了。

4樓：布客飛龍

我是這麼理解的。

你可以把現實世界的資料看做「表象」，把你擬合出來的那個模型看做「本質」。由表象到本質的過程就是「回歸」。

5樓：佛朗基公尺爾

當然這裡是講解這兩個概念的差別，具體的內容其實你可以找線性回歸原理來理解一下，我也需要繼續學習。

本人愚見，有錯誤望指出。

6樓：你好·世界

我也很好奇這個問題，於是搜了一下。

我發現 Regression 這個詞本意裡有「衰退」的意思。

實際上是生物統計學家高爾頓研究父母身高和子女身高時發現「即使父母的身高都『極端』高，其子女不見得會比父母高，而是有「衰退」（regression）（也稱作「回歸）至平均身高的傾向」

具體說明一下：

高爾頓當時擬合了父母平均身高 x 和子女平均身高 y 的經驗方程：

y = 3.78+0.516 x

可以看到，父代身高每增加乙個單位, 其成年子女的平均身高只增加0.516個單位, 它反映了這種「衰退」效應（「回歸」到正常人平均身高）

雖然之後的x 與 y 變數之間並不總是具有「衰退」（回歸）關係，但是為了紀念高爾頓這位偉大的統計學家，「線性回歸」這一名稱就保留了下來。

百讚紀念

2023年9月18日

為什麼線性回歸叫做回歸？

如何學好線性回歸分析？

線性回歸方程中虛擬變數的回歸係數怎麼解釋？

中介效果檢驗時，SPSS做回歸顯著，但是AMOS路徑不顯著？為什麼吶？

其他用戶還看了：

為什麼線性回歸叫做 回歸 ？

如何學好線性回歸分析？

線性回歸方程中虛擬變數的回歸係數怎麼解釋？

中介效果檢驗時，SPSS做回歸顯著，但是AMOS路徑不顯著？為什麼吶？

其他用戶還看了：

為什麼線性回歸叫做回歸？