泊松回歸模型和對數線性模型的區別是什麼?

時間 2021-05-30 08:46:15

1樓:靜學社-學無止境

泊松回歸很顯然是y符合泊松分布或者假設y符合泊松分布(到底是不是真的泊松分布並不重要),對應「廣義線性模型」中的泊松分布模型。如果「鏈結函式」是g(u)=u(這種鏈結函式用的非常少),則泊松回歸並不屬於「對數線性模型」,只有g(u)=ln(u)時才屬於「對數線性模型」。

「對數線性模型」 包含了很多模型,其數學模型常見的等式是:ln(u)=a+X'B,a是乙個常量,X是自變數向量,B是回歸係數向量。注意這個等式的右邊是沒有誤差項的,為什麼不需要誤差項呢?

因為u是乙個確定值,不是隨機變數。u可以是某個分布(比如泊松分布,負二項分布之類)的期望,或者乙個其他的確定函式(比如生存分析中的風險率)。至於模型是否可以有誤差項,我也不是很清楚。

畢竟「對數線性模型」這個模型不是特指,是乙個泛指。

經典線性回歸模型是 y=a+X'B+w ,y是隨機變數,w是誤差項,是隨機變數。有時候為了解決異方差、y的分布是對數正態、y是右偏的或者y的取值太分散,會對y取對數,模型變成 ln(y)=a+X'B+w。這個模型到底算不算「對數線性模型」呢,應該也算吧。

但是個人感覺把它作為經典線性模型看待可能更好點,因為這個對數線性模型使用了經典線性模型的假定和求解方法。

對數線性模型使用最多的可能是列聯表分析,列聯表的每個格仔數目可以看成符合泊松分布,或者所有格仔數符合多項分布。列聯表某個格仔的期望是u=aAiBj,這個乘積取對數後就成了「對數線性模型」。

生存分析裡面的「cox回歸」 模型是:h(t|X)=h0(t)g(X),假設g(X)是指數函式,取對數後模型成了「對數線性模型」。

Logistic 模型算不算「對數線性模型」 呢?好像也可以算,不過它已經有了自己的專有名字,所以一般不叫它們是「對數線性模型」 。

社會學,生物統計學和醫學統計學裡面說「對數線性模型」通常指的是分析列聯表的「對數線性模型」,比如SPSS軟體裡面的「對數線性模型」模組。Stata 軟體視覺化介面裡面沒有「對數線性模型」這個模組(不過可以使用命令列做列聯表的對數線性模型分析),可能是stata 在計量經濟學用的比較多。

2樓:Frank

No matter whether the dependent variable y follows a Poisson distribution or not, as long as the conditional mean model is correct, the so-called Pseudo Poisson maximum likelihood (PPML) will delivery a consistent estimator.

Given the conditional mean model, nonlinear least squares (NLS) is also consistent. A natural question is: why do we prefer PPML to NLS?

My argument is that, PPML's optimization for the linear index is globally convex, while NLS is not. It implies that the numerical optimization of PPML will be easier and more robust than that of NLS.

3樓:星日馬

結論:兩者對因變數的分布假設和引數估計方法不一樣。

具體來講,泊松回歸模型常常應用於因變數是計數變數(count variable)的情形,比如專利資料、生育資料和人犯資料等。這類變數一般只能取有限範圍內的非負整數,可能還存在很多為零的資料。而零是不能直接被取對數的,這就給應用對數線性模型帶來了障礙。

於是,我們轉而估計以下這個非線性方程:

當然,如果不存在零資料,我們可以使用對數線性模型;或者在有零變數存在時,也可以直接使用線性回歸進行最小二乘估計。但這麼做的問題在於,估計結果可能會存在非常嚴重的異方差。

事實上,當因變數滿足正態分佈,且為連續變數,取值範圍較大時,使用最小二乘估計是最合適的。但這種計數資料往往很難具有正態特性。當然,當樣本足夠大的時候,對非正態分佈的因變數使用最小二乘估計,仍然有可能得到漸進一致的估計結果,但異方差的問題仍然沒有得到解決。

所以,我們考慮使用極大似然估計法,並假設因變數符合泊松分布。

即,當然,泊松分布也是乙個很強的假設,它要求因變數的期望等於方差。好在即便因變數不滿足泊松分布,只要樣本數量足夠大,並不妨礙我們得到漸進一致的估計值。而且,當我們不太確定是否滿足泊松分布時,我們還可以採用估計效果更好的準泊松分布模型。

估計出結果之後,我們可以進行過度分散(overdispersion)檢驗,即檢驗在下式中,的大小。

如果我們發現 1" eeimg="1"/>,說明存在過度分散,此時,我們需要對標準誤進行調整。當然,當方差不等於期望時,更合適的模型是負二項分布模型。只是這個模型在估計中常常出現不收斂的問題,給我們的應用帶來了挑戰。

傳統的線性回歸多因子模型用來選股夠用了嗎?

席勒彼得 去年聽說高盛家的因子模型已經有60多個因子了。我其實挺不解的,這麼多因子不會出現多重共線性問題嗎?如果沒有,那高盛等於是構建了乙個正交的60多維空間。是真是假我是迷惑的 ilucky lau 用來實盤顯然是遠遠不夠的。首先是因為因子的相關性是隨著時間變化的,我們不能期望牛市的因子可以同樣在...

隨機效應模型和隨機係數模型的區別是什麼?

在面板資料模型中,假設對於個體 模型設定為 其中 衡量的我們稱之為 個體效應 這種 個體效應 是沒有辦法觀察到的。所以,只能做一些假設。假如,個體效應 與 相關,那麼就是固定效應模型 fixed effects 就需要用固定效應模型的方法來估計。如果假設 個體效應 與 無關,那麼就是隨機效應 Ran...

判別式模型和生成模型有什麼本質上的區別?

marsggbo 不知道我理解的對不對。之所以有生成模型和判別模型這兩種方法,是因為通常我們有訓練資料x和對應的標籤Y,所以我們可以計算出P Y X 這就是判別模型的依據。然後如果我們還知道P X 的分布,我們就可以通過P X,Y P X P Y X 進一步求出生成模型. 小黃梗 在Supervis...