如何理解最優化搜尋中的Wolfe準則？

1樓：

Wolfe conditions

i) ii)

with .

講講Wolfe準則是怎麼設計出來的，就很容易理解了。Wolfe 準則主要用於線搜尋line search，由兩個條件組成，i) Armijo condition和ii) curvature condition。

Armijo condition是充分下降條件，也是最早的提出來了。對於乙個基於線搜尋的演算法，這個條件保證目標函式值序列單調下降，如果目標函式有界，那麼序列收斂，然而，只用這個條件，無法保證迭代點序列收斂以及區域性最優條件。因為對於充分小的步長，Armijo condition都是滿足的。

給定下降方向產生規則，構造這樣乙個概念演算法: 對每次迭次的下降方向都走小步長，並使步長序列快速趨於0。這就導致演算法快速終止，目標函式值序列雖然收斂，但是沒有任何區域性最優保證。

從這個概念演算法可以推斷，只要大步長對於Armijo condition是可以接受的，那麼當前迭代點就必然不是區域性最優點。所以需要乙個條件來得到大步長演算法，保證迭代點序列也是收斂的。curvature condition的作用就是拒絕掉滿足Armijo condition的那些小步長的，當然還有種說法是使斜率也充分下降。

乙個疑問就是，充分下降和大步長這兩個要求不會衝突嗎？Wolfe的貢獻是，他證明對於一大類函式和，兩個條件可以同時滿足，也就是Wolfe步長必然存在。

由於保證迭代點序列收斂的關鍵是大步長。在演算法實現時，Wolfe線搜尋挺麻煩，所以經常採用Backtracking Armijo line search來避免小步長問題。

如何理解最優化搜尋中的Wolfe準則？

AutoML中的超引數優化，除了隨機搜尋，網格搜尋，貝葉斯優化和強化學習四種方案，還有沒有其他的流派？

如何理解佇列優化的Bellman Ford SPFA 演算法的檢測負環的條件？

如何理解帕累託最優是公平與效率的理想王國？

其他用戶還看了：