softmax演算法為什麼採用softmax function作為每乙個類別的概率?

時間 2021-05-06 13:31:20

1樓:

樓上諸位答主都高屋建瓴地回答了問題。我來補充乙個直觀的解釋。

目標:從回歸模型出發,建立乙個多分類的分類器。

子目標 1:把我們的要求稍微提高一點,要求模型輸出乙個概率分布,而不是僅僅乙個label。這樣將有利於訓練。

子目標 2:假設總共有類,那麼概率分布可以用個實數描述,它們非負,且和為1。而我們手頭有的工具是回歸模型,它的輸出是沒有任何限制的個實數。

現在我們要把它轉換成乙個概率分布。

步驟 1:首先把回歸模型的每個輸出加上乙個指數對映,現在它們的取值範圍就是正實數了。

步驟 2:接下來,把這個正實數作歸一化,我們就得到了乙個合法的概率分布。

步驟1和2就是softmax。原則上來說步驟1中不一定要選擇指數對映,但是採用指數對映有兩個好處:

1. 如果loss是cross entropy的話計算特別簡單,更重要的是梯度非常穩定,既不會太大也不會太小。

2. 如果softmax的輸出解釋為概率,那麼輸入就應該解釋為對數概率。概率運算中最常見的乘除法就轉換成了對數概率的加減法,而加減法正是一大堆回歸模型最擅長的運算。

2樓:Chown

softmax regression是乙個將目標變數分為K類的演算法,建模使用的分布是多項式分布;sigmoid針對的是分兩類的邏輯回歸,使用伯努利分布來建模。其中的是把引數估計表示為自然引數的形式,而且假設,所以就有上述的概率推導。建議看下Andrew Ng機器學習的講義1

3樓:desperado

本質上,linear,Logistic,Softmax 都是乙個東西推導出來的。

就是廣義線性模型。

這些分布之所以長成這個樣子,是因為我們對y進行了假設。

當y是正太分布-------->linear model當y是兩點分布-------->Logistic model當y是多項式分布-------->Softmax只要y的分布是指數分布族的(還有若干假設),都可以用一種通用的方法推導出h(x)。

所以你去了解一下廣義線性模型,他推導出來就是這個樣子的。

4樓:

如果題主有一本的話,可以看第113至115頁的內容,推導的很清楚.

softmax函式為什麼叫softmax呢?

採石工 softmax 函式更接近於 argmax 函式而不是 max 函式.soft 這個字首源於 softmax 函式是連續可微的.argmax 函式的結果可以表示為乙個 one hot 向量,它不是連續和可微的 注 argmax 的一般實現是返回最大值所在的索引,但這個索引可以轉化為 one ...

為什麼英雄聯盟S賽不採用雙敗賽制

無知丶 雙敗同樣是不合理的,勝者組冠軍如果在決賽輸了相當於根本就沒有雙敗就被淘汰。在刀二ti早期勝者組冠軍決賽自帶一勝場來使比賽公平,但是bo5中乙個勝場的影響又過大所以造成了更加不公平的現象發生。相對而言s賽的單淘汰模式並不是不公平的,反而每個隊伍在淘汰賽的機會都是均等的,並且有足夠的場次來展現自...

為什麼採用正常高,而不採用正高?

豪子在原野 似大地水準面 正常高 和大地水準面 正高 在高海拔地區有什麼不一樣的地方?大地水準面的形狀反映的是地球內部物質結構 密度和分布。1873年,利斯廷提出用大地水準面代表地球形狀,面對的直接問題便是,即便不考慮地球內部的密度不均,假想乙個靜止的海平面為重力水準面,可陸地上尤其高海拔地區由於複...