為什麼優化損失函式的上界可以優化損失函式？

1樓：DomainAdaptation

題主所說的應該是非凸的0-1損失函式和相應的替代損失函式吧。

在非代價敏感的分類的問題中，我們最容易想到就是用0-1損失函式來度量錯分樣本的損失。但由於0-1損失非凸，不好優化，於是人們採用了一系列的替代損失函式(surragate loss function)來替代0-1損失。常見的替代損失函式有logistic loss，hinge loss，exponential loss，square loss等等。

這些替代損失函式有3個特性：

1，凸函式 ---> 保證優化問題的區域性最優解也是全域性最優解；

2，0-1損失的上界 ---> 保證降低替代損失經驗風險的過程中，0-1損失的經驗風險也可以得到降低；

3，在原點處可導且該點的導數值小於0 --> 這實際上是替代損失函式一致性的充要條件。

下面著重說第3點，我想可能是題主最關心的問題。所謂替代損失函式的一致性(consistency)，是指最小化該替代損失函式的期望風險，能夠匯出貝葉斯最優分類器。而貝葉斯最優分類器正是最小化0-1損失的期望風險所匯出的分類器。

又由於大數定律架接了經驗風險和期望風險的關係，所以對替代損失函式進行優化，就相當於對0-1損失進行優化。

為什麼優化損失函式的上界可以優化損失函式？

邏輯回歸損失函式為什麼使用最大似然估計而不用最小二乘法？

Python 裡為什麼函式可以返回乙個函式內部定義的函式？

程式設計的函式和數學的函式為什麼都叫函式？

其他用戶還看了：