如何理解似然函式

時間 2021-05-06 21:03:58

1樓:SleepyBag

P(x|θ) 是引數 θ 下 x 出現的可能性,同時也是 x 出現時引數為 θ 的似然。

這個怎麼理解呢?很簡單。

P(x|θ) 越大,就說明引數如果為 θ,你的觀測資料 x 就越可能出現。那你既然已經觀測到資料 x 了,那麼越可能讓這個 x 出現的引數 θ,就越是乙個靠譜的模型引數。這個引數的靠譜程度,就是似然。

所以 P(x|θ) 是 θ 引數下 x 出現的概率,同時也是 x 出現時 θ 引數的靠譜程度,也就是 θ 的似然。

而貝葉斯公式告訴我們,靠譜程度,也就是似然,與概率是成正比的。

當然這裡的成正比並不是說你直接歸一化似然就得到了概率。因為靠譜程度可能有多個影響因素,這裡只是考慮了觀測資料 x 對 θ 的靠譜程度的影響。而 θ 本身也可能有自己的先驗概率 P(θ),或者有其他觀測 y 可能從另乙個視角提供了 θ 的靠譜程度 P(y|θ)。

但如果你已經收集到了 θ 的所有似然,你就可以把這些似然函式相乘,得到 θ 最終的靠譜程度 ,上面的例子裡是 P(x|θ)P(y|θ)P(θ)。這個函式直接歸一化,就得到了 θ 的概率。

2樓:卝卝

似然函式用來在事件x發生的條件下對引數進行估計,概念上講,它是一種函式而不是概率,其值等於:在引數取值為 時,事件x發生的概率值。

3樓:

(老師說, 要把知識輸出才會記得. 我這個回答是用來輸出的, 不是用來回答的, 求批卷)

若是考慮 這個等式的意義, 很明顯就是指: 樣本 出現的概率是;

若考慮 的含義, 很明顯就是求概率為時, 樣本為 的概率.

我們把這個叫似然, 寫作 ;

比如拋硬幣, 反面向上概率是50%,正面向上概率是50%, 求概率為50%的情況下, 正面向上的可能性, 即 , 即50%

如果連續拋兩次, 有正反, 反正,正正, 反反四種可能性, 求正面概率為50%的情況下, 正反的可能性. 即求, 此時概率為25%

若正面概率是不確定的呢? 我們就設正面概率為 , 求 的意思就是指正面向上概率為 的情況下, "正反"這一情況出現的可能性.

不知道理解得對不對

4樓:清雅白鹿記

極大似然是頻率學派的引數估計方法,設總體分布為 , 是從總體分布中抽出的樣本, 那麼樣本的聯合分布為:

當固定 時,看作是 的函式時,L是乙個概率密度函式。

當固定 時, 把 L 看作是 的函式,由於 有一定的值,但是未知,並非隨機變數(頻率學派觀點),不能叫做概率,而叫做似然(likelihood)。

使得likelihood最大的那個點記為:

並將其並作為 的估計值,在已有的樣本 條件下, 就叫做 的極大似然估計

青崖白鹿記:極大似然簡介

5樓:smellydragon

其他答主對於為什麼可以用概率函式作為似然函式的表示式,給出了一些直覺上的解釋。我這個回答主要說一下為什麼似然函式和概率分布函式在表示式上是相同的

面對給定的樣本 和所要估計的概率分布 ,我們首先要確定乙個目標,來刻畫我們的估計效果。

這個目標,就是使得估計引數 所刻畫的概率分布與真實引數 所刻畫的概率分布之間的距離最小。

而刻畫概率分布之間距離的方法有很多,其中相對熵(related entropy,或稱KL divergence)是乙個廣泛使用,且數學性質良好的測量方法。

相對熵的表示式

則我們的目標函式為 。接下來以離散情況為例,進行簡單推導。

則目標函式表達為:

注意到目標函式(1)中第一項是和決策變數 無關的「常數項」。而第二項根據近似規則: 進行變換。

則目標函式(1)近似等價為:

而目標函式(2)可以等價為:

目標函式(3)即為我們通常而言的似然函式 。

6樓:莘縣陽谷

對於引數統計結構(樣本的概率密度函式或概率質量函式取決於引數θ)而言,樣本的概率密度函式或概率質量函式取決於引數θ以及樣本取值x,在數學表達上這是乙個多元單值函式:f(x;θ).這個函式可以有兩個角度的考量:

(1)引數θ固定,關注樣本的隨機性;此時我們關注的是給定θ時x的變化對f的影響,就是我們所熟知的概率密度/質量;(2)樣本x固定,關注引數的變化;此時我們關注的是給定樣本x時θ的變化對f的影響,這正是經典統計推斷中引數估計與假設檢驗所要研究的問題。以這個角度,f即為L(θ;x),似然函式。

@Yeung Evan 提到的「似然函式和密度函式是完全不同的兩個數學物件:前者是關於的函式,後者是關於的函式。所以這裡的等號理解為函式值形式的相等,而不是兩個函式本身是同一函式(根據函式相等的定義,函式相等當且僅當定義域相等並且對應關係相等)。

」這一點對理解似然(likelihood)與概率(probability)的區別很重要!

7樓:david shi

網上寫的很多答案基本看不懂,建議直接看書

需要理解一些概念:

總體分布:概率密度函式或者概率函式,例如:正態分佈首先似然函式是用來估計總體分布中的引數的,什麼引數?例如:正態分佈的引數就是均值和方差

極大似然估計:求似然函式的最大值,這樣就能得到引數的值,具體通過求偏導數等於0,例如:正態分佈的引數通過極大似然估計求出來的均值就是樣本的均值,方差就是樣本的方差,這樣就印證了原來之前我們直接用均值和方差去估計引數是對的

8樓:WR Wang

我是這麼理解的:

P(x;θ)是關於x和θ的函式,x和θ都會對函式值產生影響(二元函式,比如z=x+y)。θ固定,x變時,函式就是變數X的概率密度函式(probability);x固定,θ變時,函式值就是θ的最大似然函式(likelihood)。

求斧正。

9樓:

直觀上理解就是:如果我們觀察到乙個現象(資料),那麼這個現象出現的概率就應該比那些沒有出現的現象(資料)出現的概率要高。也就是說,假設「如果我們觀察到乙個現象,那麼其出現的概率應該是最大的」 是合理的,而似然函式最大化是為了逼近這個假設。

形式化就是:在一定條件下,最大化對數似然目標函式等價於最大化 P(θ|X),而 P(θ|X) 就是我們的學習目標:給定訓練資料 X 的條件下,找到最可能出現的引數 θ 。

大致推理過程如下:

argmax_θ P(θ|X) = argmax_θ P(X|θ)P(θ)/P(X), 對於每個 θ,P(X) 都相等,且我們假設 P(θ) 服從均勻分布,因此有 argmax_θ P(θ|X) = argmax_θ P(X|θ)。加上對數只是為了求解方便(將乘積轉換為求和,去掉 exp 項等),但是並不改變最終結果。

10樓:

給定乙個概率分布的引數的值,就對應了這個概率分布的引數取這個值的時候,在這個概率分布中抽樣所得的資料恰好是我手裡這堆資料的概率(或者叫可能性,也就是likelihood)。這個對應關係(對映)就是似然函式。

11樓:洛陽的小蝦公尺

就是可能性,不是普遍意義的,就是這個數字代表可能性。pdf也就是這個意思。為啥要理解更多,重點是怎麼maximize(各種演算法)和有什麼好的性質(efficiency)!

12樓:Yeung Evan

1、似然與概率的區別

在英語語境裡,likelihood 和 probability 的日常使用是可以互換的,都表示對機會 (chance) 的同義替代。但在數學中,probability 這一指代是有嚴格的定義的,即符合柯爾莫果洛夫公理 (Kolmogorov axioms) 的一種數學物件(換句話說,不是所有的可以用0到1之間的數所表示的物件都能稱為概率),而 likelihood (function) 這一概念是由Fisher提出,他採用這個詞,也是為了凸顯他所要表述的數學物件既和 probability 有千絲萬縷的聯絡,但又不完全一樣的這一感覺。中文把它們乙個翻譯為概率乙個翻譯為似然也是獨具匠心。

We must return to the actual fact that one value of , of the frequency of which we know nothing, would yield the observed result three times as frequently as would another value of . If we need a word to characterize this relative property of different values of , I suggest that we may speak without confusion of the of one value of being thrice the likelihood of another, bearing always in mind that likelihood is not here used loosely as a synonym of probability, but simply to express the relative frequencies with which such values of the hypothetical quantity would in fact yield the observed sample.

除此之外,統計學中的另一常見概念"置信(區間)"(confidence interval)中的置信度(confidence level) 或者稱為置信係數 (confidence coefficient)也不是概率。換句話說,"構建關於總體均值的95%的置信區間"裡的"95%"不是概率意義下的0.95(即使它也是0到1之間的代表機會chance的乙個度量):

Neyman的原話是

更常見的 -值( -value)嚴格來說其本身是乙個(恰好位於0到1之間的)統計量(即樣本隨機變數的函式),所以 -值也不是概率。

一種方便區別是概率還是似然的方法是,根據定義,"誰誰誰的概率"中誰誰誰只能是概率空間中的事件,換句話說,我們只能說,事件(發生)的概率是多少多少(因為事件具有概率結構從而刻畫隨機性,所以才能談概率);而"誰誰誰的似然"中的誰誰誰只能是引數,比如說,引數等於 時的似然是多少。

2、似然與概率的聯絡

先看似然函式的定義,它是給定聯合樣本值下關於(未知)引數的函式:

這裡的小是指聯合樣本隨機變數取到的值,即;

這裡的是指未知引數,它屬於引數空間;

這裡的是乙個密度函式,特別地,它表示(給定)下關於聯合樣本值的聯合密度函式。

所以從定義上,似然函式和密度函式是完全不同的兩個數學物件:前者是關於的函式,後者是關於的函式。所以這裡的等號理解為函式值形式的相等,而不是兩個函式本身是同一函式(根據函式相等的定義,函式相等當且僅當定義域相等並且對應關係相等)。

說完兩者的區別,再說兩者的聯絡。

(1)如果是離散的隨機向量,那麼其概率密度函式可改寫為,即代表了在引數下隨機向量取到值的可能性;並且,如果我們發現

\mathbb_(\textbf = \textbf) = L(\theta_2 | \textbf)" eeimg="1"/>

那麼似然函式就反應出這樣乙個樸素推測:在引數下隨機向量取到值的可能性大於在引數下隨機向量取到值的可能性。換句話說,我們更有理由相信(相對於來說)

更有可能是真實值。這裡的可能性由概率來刻畫。

(2)如果是連續的隨機向量,那麼其密度函式本身(如果在連續的話)在處的概率為0,為了方便考慮一維情況:給定乙個充分小 0" eeimg="1"/>,那麼隨機變數取值在區間內的概率即為

並且兩個未知引數的情況下做比就能約掉,所以和離散情況下的理解一致,只是此時似然所表達的那種可能性概率無關。

綜上,概率(密度)表達給定下樣本隨機向量的可能性,而似然表達了給定樣本下引數(相對於另外的引數)為真實值的可能性。我們總是對隨機變數的取值談概率,而在非貝葉斯統計的角度下,引數是乙個實數而非隨機變數,所以我們一般不談乙個引數的概率

最後我們再回到這個表達。首先我們嚴格記號,豎線表示條件概率或者條件分布,分號表示把引數隔開。所以這個式子的嚴格書寫方式是因為在右端只當作引數理解。

邏輯回歸損失函式為什麼使用最大似然估計而不用最小二乘法?

遊衍莫忘 說點自己的理解,邏輯回歸中的最小二乘為什麼不一定是convex 假如有乙個資料集如圖所示,紅色代表1,藍色代表0,我們大概可以知道最優的解是 假如我們的損失函式是最小二乘,也就是 初始值是,上面被判定為1,下面被判定為0。我們從開始找損失函式最小,很容易找到 此時我們面臨乙個艱難的選擇,要...

如何通俗地理解概率論中的 極大似然估計法

人工智慧 極大似然估計提供了一種給定觀察資料來評估模型引數的方法,即 模型已定,引數未知 通過若干次試驗,觀察其結果,利用試驗結果得到某個引數值能夠使樣本出現的概率為最大,則稱為極大似然估計。舉例 拋硬幣是乙個二項分布的事件,我們假設拋擲硬幣正面朝上的概率是p,那麼反面朝上的概率就是1 p。於是我們...

統計學三大基於似然函式的假設檢驗方法及其應用並進行比較?

長水滔滔 你說的是wald檢驗,LR檢驗和score檢驗吧。無效假設為 一般 0。wald檢驗和score檢驗其實很類似,本質的公式都為 主要區別在於採用的標準誤不同。wald檢驗標準誤是 而score檢驗採用的標準誤是 僅此而已。一般來說,score檢驗結果較wald檢驗更可靠,在大樣本下,wal...