softmax演算法為什麼採用softmax function作為每乙個類別的概率？

1樓：

樓上諸位答主都高屋建瓴地回答了問題。我來補充乙個直觀的解釋。

目標：從回歸模型出發，建立乙個多分類的分類器。

子目標 1:把我們的要求稍微提高一點，要求模型輸出乙個概率分布，而不是僅僅乙個label。這樣將有利於訓練。

子目標 2:假設總共有類，那麼概率分布可以用個實數描述，它們非負，且和為1。而我們手頭有的工具是回歸模型，它的輸出是沒有任何限制的個實數。

現在我們要把它轉換成乙個概率分布。

步驟 1:首先把回歸模型的每個輸出加上乙個指數對映，現在它們的取值範圍就是正實數了。

步驟 2:接下來，把這個正實數作歸一化，我們就得到了乙個合法的概率分布。

步驟1和2就是softmax。原則上來說步驟1中不一定要選擇指數對映，但是採用指數對映有兩個好處：

1. 如果loss是cross entropy的話計算特別簡單，更重要的是梯度非常穩定，既不會太大也不會太小。

2. 如果softmax的輸出解釋為概率，那麼輸入就應該解釋為對數概率。概率運算中最常見的乘除法就轉換成了對數概率的加減法，而加減法正是一大堆回歸模型最擅長的運算。

2樓：Chown

softmax regression是乙個將目標變數分為K類的演算法，建模使用的分布是多項式分布;sigmoid針對的是分兩類的邏輯回歸，使用伯努利分布來建模。其中的是把引數估計表示為自然引數的形式，而且假設,所以就有上述的概率推導。建議看下Andrew Ng機器學習的講義1

3樓：desperado

本質上，linear，Logistic，Softmax 都是乙個東西推導出來的。

就是廣義線性模型。

這些分布之所以長成這個樣子，是因為我們對y進行了假設。

當y是正太分布-------->linear model當y是兩點分布-------->Logistic model當y是多項式分布-------->Softmax只要y的分布是指數分布族的（還有若干假設），都可以用一種通用的方法推導出h(x)。

所以你去了解一下廣義線性模型，他推導出來就是這個樣子的。

4樓：

如果題主有一本的話,可以看第113至115頁的內容,推導的很清楚.