因果推斷(causal inference)是回歸(regression)問題的一種特例嗎?

時間 2021-05-07 01:25:22

1樓:

因果推斷是為了找到變數間的因果關係,回歸暫理解為統計推斷吧,是為了從小樣本推斷大樣本的性質。從統計推斷到因果推斷的研究正規化的轉變,在經濟學實證研究中,又稱為,「可信性革命」。

如果從實證角度看區別,

因果推斷的主要步驟是:識別+ 估計(使用統計推斷手段進行估計)。

識別指的是,設定諸多假設,將不可知的因果關係轉化為可以計算的統計估計量,估計則指的是代入資料將統計數學式估算出乙個具體的數值結果。

因果推斷最看重識別策略,比如匹配、工具變數、雙重差分等方法。

而估計一般用的是線性形式的點估計,也就是你說的「回歸」,建模估計估計量,得到估計值。如果使用非線性形式,則用機器學習去估計。

為什麼大部分因果推斷還是侷限於線性形式?因為識別策略在因果推斷中最重要,因果推斷的根本問題是無法觀測到潛在結果,也就是說,真實值是不知道的,而通過設定一系列假設,能讓未知的因果關係轉化為可以計算的統計關係,識別策略等一系列方法則是為了讓假設成立。

而到了估計的步驟,在小樣本、低協變數的情況下,線性關係是足以計算因果效應的。其次經濟學家更關注因果效應的顯著性,統計推斷的有效性,點估計、標準差、置信區間等。機器學習去估計係數,能得到非線性函式形式,卻失去了係數的經濟意義,以及係數的有效性。

所以目前,將機器學習與因果推斷互相結合,已經成為經濟學領域和計算機領域的熱點之一。

具體應用續更。

2樓:餘小七

回歸只是分析因果關係的一種統計學方法,不要被數學萬能論誤導。現實世界-->因果模型-->統計模型(如回歸)。對現實世界建模是否好要看因果模型,對因果模型擬合是否好要看統計模型

3樓:盧粽子

我猜題主想問causal relationship是不是corelation的一種特例。簡單回答是的。

假設Y=aX1+bX2+c是乙個多元回歸模型且a、b、c均是顯著的(p<0.05),不考慮model fit等因素。那麼結論是:

Y的變化(variation)與X1、X2的變化存在關聯性(association)。若想得到結論:X1、X2的變化導致了Y的變化(causual relationship),需要另行舉證:

Y的這個因變數的變化是由X1和X2的這兩個自變數的變化導致的,此處的因果關係非常重要。

舉例:X1是打傘的人數,X2是穿雨鞋的人數,Y是啞變數(如果下雨則Y=1,不下雨則Y=0)。回歸分析結果顯示abc都顯著(p<0.

05)且為正數。此處應有結論:下雨這件事,即Y,與X1,打傘的人數,X2,穿雨鞋的人數有顯著正相關關係。

但是不能就此下結論:「下雨這件事是由打傘和穿雨鞋的人增多導致的」,這個因果關係明顯不對。

4樓:松鼠

剛發現我的回答是最高贊回答引用2的一部分……那權當補充簡介了我不知道我想的那個事情和題主問的一不一樣……但是可以看一下The book of why, 裡面有一些我沒太完全跟上的公式,但是作者定義了乙個do運算元,似乎可以formalize這件事。

大概意思是,如果單純只有資料和predictive modeling是不可能得到因果關係的,必須要加一些外在的因果關係進去,其中真實驗方法是乙個特例。因果關係只可能從另一些因果關係推出來。

Confound variables的問題,作者認為之前大部分對confound的定義都不太完整,有些情況下控制一些變數會真的反應出X到Y的關係,但是另一些情況下控制某些變數會反而使XY之間的關係被掩蓋。比如A引起XY,X引起Y,此時為了判斷X對Y的影響要控制掉X;但是X通過中介B影響Y,此時控制B反而會導致XY沒有聯絡。還有一些更複雜的情況。

作者提出了一套規則使得可以借助因果關係假設和一些相關來推出別的因果。

5樓:經濟系半路撲街坨

如果能確保變數是外生的,那麼哪怕OLS都可以有causal interpretation。所以因果推斷的重點不是DID、RD、IV這些計量方法,是設計乙個好的識別策略,讓你感興趣的變數能夠真正做到隨機。

6樓:xyz

當然不是。從frequentist semiparametric theory 的角度來看,causal inference 的很多問題assume真實分布存在於無限維的空間裡,推導出有一定性質(比如doubly robustness,asymptotic efficiency)的estimand。然後一種常見做法是用regression 來估計estimand 裡的某些量來得出estimator — regression 在這裡是model assumption,完全可以用其他的模型來估計這些量,trees deep learning 等等都可以套用在其中。

為什麼課上教因果分析經常用線性回歸呢?我猜測是因為這樣容易解釋,能把因果估計直接具體化成乙個parameter,對學生而言好理解。而因果分析本身有幾個學派,marginal structural model,g estimation , instrumental variable model,等等,相互之間都有聯絡。

7樓:

因果推斷可以使用回歸,回歸可以解決一些因果推斷的問題,二者有一定的交集

但是回歸不是完美的方案。還有很多方法補充了回歸的不完美。

處理因果推斷的思路主要是通過改變各個個體的代表性、給資料分層或匹配等方法,使得不同決策之間的群體更加可比。事實上每一種試圖計算treatment effect的方法都有它的侷限性:

回歸(包括DID、IV):如果模型誤設、變數找錯(通常模型都是,誰又能命中真實呢?),W的係數就會有偏差,尤其是有匿名回答中提到的「unconfoundedness」現實中難以成立的情況。

propensity score re-matching:對於ps接近於0或1的個體容易產生大的估計方差。

因而就有了doubly robust這樣將回歸和ps相結合的方法,當回歸和ps滿足任意乙個設對的情況下都有不錯的估計。

但是如果都設錯了呢?

matching可以部分解決模型設定的問題,但它又常有不能完全匹配的情況、匹配樣本太少的情況,從而又引入了新的方差,而且用以匹配的距離也需要再加以定義,高維特徵下又會變得棘手。

大量的研究都是基於這些基礎的方法,根據資料某種不完美的型別,設計出方差或者偏差更低的估計方法。後續又延伸出了多個決策的推斷、找到適合估計的子群體等一系列研究問題。

Cornell有一門因果推斷的課我覺得還比較全面,還是CS開的,可以順著文獻脈絡梳理一下各個分支方法的優劣。

統計上有什麼方法可以推斷因果關係?

KTD 統計學上更寬泛更深刻,只說自己熟悉的計量吧,因為題主提到了Granger Causality。首先應該明確,計量經濟學講regression從一開始就是為了做因果推斷。很多經典教科書一開始都會介紹經濟學資料的乙個重要特性 只能 被動 觀察,不能像自然科學實驗那樣對樣本主動去做 隨機分配 且 ...

因果推斷會是下乙個AI熱潮嗎?

不會。首先,從目前的情況看來,基於資料的和基於算力的兩種發展思路,相關性而不是因果性成為短期發展的驅動力。因果推斷,基於因果性,而不是相關性,具有推理效率高,準確度高,可理解性強等優點,但是缺點也很明顯,與海量資料的資訊暫時處於隔斷狀態,難以利用現已快速發展的DNN等技術。有人說,知識圖譜的興起,在...

按照因果論向前推斷,必然存在乙個萬物的發源,是否可以佐證有 神 的存在?

無心道人無恥之徒 按照因果論向前推斷,必然存在乙個萬物的發源,是否可以佐證有 神 的存在?首先,每個人都有感覺,每個人通過自己的感覺,建立起了自己的觀念體系。由此,所謂的因果關係鏈條,只是你自己建立的,或者說每個人都有自己的對世界的看法。或者說,世界是怎樣的源於你的內心意識的活動。因此,這個源頭的指...