1樓:
樓上諸位答主都高屋建瓴地回答了問題。我來補充乙個直觀的解釋。
目標:從回歸模型出發,建立乙個多分類的分類器。
子目標 1:把我們的要求稍微提高一點,要求模型輸出乙個概率分布,而不是僅僅乙個label。這樣將有利於訓練。
子目標 2:假設總共有類,那麼概率分布可以用個實數描述,它們非負,且和為1。而我們手頭有的工具是回歸模型,它的輸出是沒有任何限制的個實數。
現在我們要把它轉換成乙個概率分布。
步驟 1:首先把回歸模型的每個輸出加上乙個指數對映,現在它們的取值範圍就是正實數了。
步驟 2:接下來,把這個正實數作歸一化,我們就得到了乙個合法的概率分布。
步驟1和2就是softmax。原則上來說步驟1中不一定要選擇指數對映,但是採用指數對映有兩個好處:
1. 如果loss是cross entropy的話計算特別簡單,更重要的是梯度非常穩定,既不會太大也不會太小。
2. 如果softmax的輸出解釋為概率,那麼輸入就應該解釋為對數概率。概率運算中最常見的乘除法就轉換成了對數概率的加減法,而加減法正是一大堆回歸模型最擅長的運算。
2樓:Chown
softmax regression是乙個將目標變數分為K類的演算法,建模使用的分布是多項式分布;sigmoid針對的是分兩類的邏輯回歸,使用伯努利分布來建模。其中的是把引數估計表示為自然引數的形式,而且假設,所以就有上述的概率推導。建議看下Andrew Ng機器學習的講義1
3樓:desperado
本質上,linear,Logistic,Softmax 都是乙個東西推導出來的。
就是廣義線性模型。
這些分布之所以長成這個樣子,是因為我們對y進行了假設。
當y是正太分布-------->linear model當y是兩點分布-------->Logistic model當y是多項式分布-------->Softmax只要y的分布是指數分布族的(還有若干假設),都可以用一種通用的方法推導出h(x)。
所以你去了解一下廣義線性模型,他推導出來就是這個樣子的。
4樓:
如果題主有一本的話,可以看第113至115頁的內容,推導的很清楚.
softmax函式為什麼叫softmax呢?
採石工 softmax 函式更接近於 argmax 函式而不是 max 函式.soft 這個字首源於 softmax 函式是連續可微的.argmax 函式的結果可以表示為乙個 one hot 向量,它不是連續和可微的 注 argmax 的一般實現是返回最大值所在的索引,但這個索引可以轉化為 one ...
為什麼英雄聯盟S賽不採用雙敗賽制
無知丶 雙敗同樣是不合理的,勝者組冠軍如果在決賽輸了相當於根本就沒有雙敗就被淘汰。在刀二ti早期勝者組冠軍決賽自帶一勝場來使比賽公平,但是bo5中乙個勝場的影響又過大所以造成了更加不公平的現象發生。相對而言s賽的單淘汰模式並不是不公平的,反而每個隊伍在淘汰賽的機會都是均等的,並且有足夠的場次來展現自...
為什麼採用正常高,而不採用正高?
豪子在原野 似大地水準面 正常高 和大地水準面 正高 在高海拔地區有什麼不一樣的地方?大地水準面的形狀反映的是地球內部物質結構 密度和分布。1873年,利斯廷提出用大地水準面代表地球形狀,面對的直接問題便是,即便不考慮地球內部的密度不均,假想乙個靜止的海平面為重力水準面,可陸地上尤其高海拔地區由於複...