如何通俗地理解概率論中的 極大似然估計法

時間 2021-05-06 07:59:41

1樓:人工智慧

極大似然估計提供了一種給定觀察資料來評估模型引數的方法,即:「模型已定,引數未知」。通過若干次試驗,觀察其結果,利用試驗結果得到某個引數值能夠使樣本出現的概率為最大,則稱為極大似然估計。

舉例:拋硬幣是乙個二項分布的事件,我們假設拋擲硬幣正面朝上的概率是p,那麼反面朝上的概率就是1-p。於是我們可以帶入二項分布的公式,算出10次拋擲之後,5次是正面結果在當前p引數下出現的概率是多少。

二項分布:,n次試驗中正好得到k次成功的概率那麼,極大似然函式 ,

針對上式子求導數: ,p=0.5、p=0、p=1三者均為極值點,根據影象可知p=0.5是極大值點,所以p=0.5就是此似然函式的估計值。

2樓:暮秋君

從概率的角度來說,似然就是概率,但與我們常說的概率有點區別。

比如對於函式P(x|θ),從不同的觀測角度來看可以分為以下兩種情況:

如果θ已知且保持不變,x是變數,則P(x|θ)稱為概率函式,表示不同x出現的概率。

如果x已知且保持不變,θ是變數,則P(x|θ)稱為似然函式,表示不同θ下,x出現的概率。

極大似然估計把θ認為是固定值,只是暫時未知,通過求似然函式的最大值,最終求得θ。

從這裡可以看出,極大似然估計是從頻率學派的觀點出發,認為分布的引數是固定的,然後通過觀測資料算出引數而已。

以拋硬幣為例,假設我們有一枚硬幣,現在要估計其正面朝上的概率θ。為了對θ進行估計,我們進行了10次實驗,這組實驗記為X=x1,x2,…,x10其中正面朝上的次數為6次,反面朝上的次數為4次,結果為(1,0,1,1,0,0,0,1,1,1)。

那麼,似然函式可以寫成:

然後對其求對數,並求導,令導數為0,求得最佳值θ。

其實最大似然估計就說了一件事:存在即合理。

我們看到的就是最可能發生的,既然事情已經發生了,那麼發生這件事的概率必然是最大的。

兩次使用條件概率公式,即可推出貝葉斯公式。然後使用全概率公式可以推出離散形式的貝葉斯公式。

在這裡P(A)叫做A的先驗概率

P(B)叫做B的先驗概率

P(A|B)叫做後驗概率

P(B|A)叫做似然函式

P(A|B)叫做後驗概率很好理解,因為是通過算出來的,是最後才知道的嘛。

但是其他幾部分就沒那麼明顯了。先做個假設:B代表乙個事件的原因,A代表乙個事件的結果。

那麼後驗概率就是通過很多因素推導結論,有點像數學裡面的計算題,從各種條件出發,推導出最終的結論。

顯然,似然函式就是從結果推導原因。是不是似曾相識呢?極大似然估計不就是從結果尋找原因嗎?

存在即是合理,這裡「存在」就是發生的結果,為什麼合理呢,因為有「原因」,所以他就是合理的。也就是從結果推導原因。

P(B)是「原因」的分布,原因是已經知道的,所以一般情況下,我們不太關心P(B),看下離散形式的貝葉斯公式,P(B)就類似於歸一化操作。

而這裡的P(A)就很重要了,他是頻率學派和貝葉斯學派區別的關鍵。P(A)是「結果」的分布,結果是未知的,自然無法準確知道P(A)的分布,但是如果假設我們知道P(A)的分布,那後驗概率也能求出來。關鍵就在於怎麼假設,一般會基於一些先天的知識,或長期以來的經驗總結做假設。

比如你可以假設「結果」正態分佈,硬幣每次拋擲服從均勻分布,這都是先天的知識,所以叫做先驗概率。

先天的知識是什麼,你可以認為這是由上帝決定的,上帝造物,定下了萬物發展的規律,他就像乙隻無形的手,操控著這個世界。頻率學派忽視了上帝的存在,而貝葉斯學派則認為不能忽視,所以加入了先驗概率,有了貝葉斯公式。

最大似然估計,最大化的是似然函式。

最大後驗估計,最大化的是後驗概率。

利用貝葉斯公式,有如下等價式:

為什麼公式後半部分成立,前面已經說了,P(X)類似於歸一化項,可不考慮。

在拋硬幣的例子中,通常認為θ=0.5的可能性最大,因此我們用均值為0.5,方差為0.

1的高斯分布來描述θ的先驗分布,當然也可以使用其它的分布來描述θ的先驗分布。θ的先驗分布為:

在最大似然估計中,已知似然函式為

因此最大後驗概率函式利用貝葉斯公式可以得出:

從這裡可以看出,最大似然估計僅僅只考慮似然函式,而最大後驗估計,既考慮了似然函式,還考慮的拋硬幣事件的先驗概率分布。

貝葉斯笑到,年輕人,你考慮得太簡單。

3樓:郭昊

按照後驗概率的思維去理解,樣本已經出現的情況下,總體含參分布大概率應該是怎樣的。我知道上面那句話對大學新生比較彆扭,因為歸納推理和中學演繹推理之間存在很大差別,

這是乙個歸納推理過程,包含兩個命題,命題一:含參總體分布隨引數變化對應概率是怎樣的,即引數可以看為隨機變數,命題二:樣本出現的概率是怎樣的。

假設總體分布為正態分佈(其它分布也可以),統計歸納推理過程如下,如果當樣本值k=u的情況下,樣本值k出現的概率最大,那麼當樣本值k以1的概率出現後,u=k的概率最大。這和演繹假言推理不同。

4樓:ddon

這個問題最難的其實在「通俗」二字。

你和另外乙個人背對著,站在乙個空蕩蕩的密室裡。你的手腳被繩子捆了起來。

這時候,你感覺自己的頭被什麼東西敲了幾下。於是你斷定:是另外那個人打得你。

這個斷定的邏輯,就是「極大似然估計法」的真諦:

根據已經發生的結果,做出最符合模型(思維邏輯)的估計(判斷)。

5樓:小滑

你現在已經抽了n個樣本了,那麼現在情況是這樣的:

總體的各種各樣的奇葩分布都有可能讓你抽樣到這麼個結果。

那我們假設在無數個平行宇宙中,你都得到了這樣的抽樣結果,但他們的分布函式是不一樣的。

極大似然估計就是在這無數個平行宇宙中找到這樣乙個分布,這種分布出現的頻率最高。

在說簡單點就是:得到這樣的抽樣結果,他的分布最可能的情況就是極大似然估計的解

6樓:雨季

看了好多答案覺得還是寫得過於專業,給乙個沒學過的估計都看完了也還是不知道咋回事。其實從字面就大概能理解它的意思,極大就是最大的意思,似然就是可能性,極大似然估計,就是你拿到一組資料,當未知引數取什麼數時最有可能得到這組資料。

你可能還有點懵逼,給你舉個例子,假如給你乙個不均勻的硬幣,然後扔了十次,有k次正面向上,10-k次反面向上,設正面向上的概率是p,求p的最大似然估計。通俗的理解,就是p取什麼值,你扔出這樣結果的概率最大。我們不妨取乙個具體的數來考慮一下,比如說6正4反。

那根據二項分布,這個概率會正比於p^6×(1-p)^4(係數就是乙個組合數,手機不太方便輸入)。現在要求這個概率最大,直接求導不方便,一般都會考慮對數求導,最後求出來p=0.6 這就是最大似然估計。

說明一下,這裡求的是估計值,如果沒有具體的數,是變數代替的話,求出來的估計量。

7樓:劉昕宸

前一段時間寫GAN,提到了極大似然估計,就盡量通俗易懂地寫了一下。

具體鏈結貼在本回答末尾。

給定乙個資料分布

給定乙個由引數 定義的資料分布

我們希望求得引數使得 盡可能接近

可以理解成:

是某一具體的分布(比如簡單的高斯分布),而 是未知的(或者及其複雜,我們很難找到乙個方式表示它),我們希望通過極大似然估計的方法來確定 ,讓 能夠大體表達。

從 取樣m個樣本

計算取樣樣本的似然函式

計算使得似然函式 最大的引數 :

這裡再囉嗦一下極大似然估計為什麼要這麼做:

可以理解成是非常複雜的分布,不可能用某個數學表達精確表示,因此我們只能通過抽象,使用乙個具體的分布模型 近似

所以,求 的引數 的策略就變成了:

我們認為來自 的樣本 在 分布中出現的概率越高,也就是 越大, 和 就越接近。

因此,我們期待的 就是使得 最大的 .

即: 抽樣某中學高一年級的200名男生,統計身高資料為:

step 1. 取樣

我們將該校或者該地區所有高一男生的身高理解成某一分布 ,以上資料便是我們從這一分布中的取樣。

樣本資料表示為:

step 2. 建立極大似然函式

這個分布肯定是及其複雜的,會受到眾多因素影響,用數學表達精準表達這個分布完全不可能!

但我們可以通過乙個數學上已知並且明確的簡單分布來抽象近似這個 。

我們期望使用數學模型解決實際問題時,第一步就是化簡實際問題,去掉實際問題中很多瑣碎、影響不是很大的因素,然後使用明確的數學模型去抽象近似實際問題。

這種例子實在太多了,比如我們將太陽抽象成乙個完美的球體,在力學問題中將物體抽象成質點等。

根據直覺,我們認為身高分布可能非常近似高斯分布,不如我們就把身高分布抽象成高斯分布吧!

高斯分布:

因此,我們可以據此建立極大似然函式:

step 3. 求解引數

求解使得 盡可能大的引數

此時我們認為 和 是最接近的!

即: 具體求解方法:

因為這裡 是連乘,並且有 的存在,所以很自然地想到對數

即: 這下化簡就容易多啦!

不妨令我們的目標:

多元函式求最值的方法,我們選擇求偏導:

解得:我們發現 實際就是樣本均值, 實際就是樣本標準差。這也符合高斯分布的特點。

剩下的,將 具體數值代入計算可得:

我們得到了目標的 .

我們將樣本在不同區間出現的頻率(圖中散點)的概率密度函式(圖中曲線)繪製出來:

發現大致是契合的!這也進一步驗證了我們的模型!

現在我們做個有意思的實驗:

我們對乙個 的高斯分布取樣,理解成是 (我們假裝不知道它的具體表達形式)。

另外我們設定 就為 的高斯分布。

我們觀察取樣點的個數是會如何影響我們做極大似然估計的質量的。

圖中散點:樣本在不同區間出現的頻率

圖中曲線: 的高斯分布的概率密度函式

取樣點數:10

取樣點數:50

取樣點數:200

取樣點數:1000

取樣點數:10000

取樣點:100000

劉昕宸:通俗理解GAN(一):把GAN給你講得明明白白

8樓:funcFailer

最簡單的說法就是,我們有一堆備選的分布,對每個備選的分布求在這個分布下得到這些樣本的概率,然後取那個概率最大的分布作為我們的估計

9樓:Ryan

初等數理統計經常講,引數的估計量是讓似然函式最大的那個,即一次實驗出現的概率最大。仔細思考,這頂多算是個「不嚴格」的idea。考慮這種情況:

引數為1時似然值為100 和引數為2時似然值為99 ,既然只操作了一次,估計值選1或2又有多大的區別呢? 畢竟允許存在偶然誤差嘛。 所以,從這個例子看,極大似然法未必是個好的估計量。

直到我學了經驗過程,才重新領略到了MLE的奧秘。

如何證明概率論的乘法公式?

明哲 條件概率公式為 P A B P AB P B 其實,只要把下面三句話想明白就容易了。第一句 假設今天下雨 B 概率為50 在下雨條件下 B 小麗打傘 A 的概率為90 第二句 那麼,今天既下雨又打傘的概率是多少?答案為 50 90 也就是P B P A B 第三句 P AB P A B P B...

概率論古典概型中的放球問題怎麼理解 看不懂答案?

第乙個事件 指定的 r 個盒子中各有一球。一共有兩步 剩餘的 個盒子留空,一共有 1 種方法 個盒子裡每個盒子放 1 個球,相當於這 個球做乙個全排列,然後按順序放進這 個盒子裡,全排列的方式有 種。結合以上兩步,放法一共有 種。第二個事件 恰有 r 個盒子,每個盒子各有一球。和第乙個事件相比,區別...

掃雷中的線性代數及概率論原理

掃雷本質上就是n元一次 不定 方程組 這不就是矩陣嗎?遇到猜就能用概率論咯 當然掃雷用到的都是非常淺顯的知識,但如果非要把它扯得這麼高大上我覺得也未嘗不可 2 可以肯定和線性代數沒有半毛錢關係 不是所有排成行列的東西都能和矩陣扯上關係的。就算你把掃雷的遊戲狀態用矩陣表示出來,矩陣的各種性質各種運算對...