深度學習裡,如何判斷模型陷入區域性最優?

時間 2021-05-30 00:48:42

1樓:鄧康康

一階導為零的點稱為穩定點,可以分為以下三類:區域性最小,區域性最大,鞍點。

這些點根據二階資訊去區分。

當Hessian矩陣特徵值全部大於零,這時稱之為區域性最小(也包含了全域性最小)。

當Hessian矩陣特徵值全部大於等於零,並且存在0特徵值,這時可能為區域性最小,也可能是鞍點。

當Hessian矩陣最小特徵值小於零,則為嚴格鞍點(包含了區域性最大)。

目前我們能逃離的鞍點只有嚴格鞍點。逃離鞍點的方法目前我知道的有兩類:

利用嚴格鞍點它負特徵值對應的方向,採用矩陣向量乘積的形式找到下降方向。

利用擾動梯度方法逃離鞍點,在梯度的模小於某個數的時候,在梯度上加個擾動量。

那麼問題來了,不是嚴格鞍點怎麼辦?於是他們證明了很多問題只有嚴格鞍點。

那麼問題又來了,即使我們逃離了鞍點,那也只是區域性最小啊?

研究者又證明了事實上很多問題沒有spurious local minima. 也就是說所有的區域性最小都是全域性最小。比如下面這些問題。

感興趣的可以看以下兩位的主頁:

rong ge

Rong Ge, Duke University

Zeyuan Allen-Zhu

Zeyuan Allen-Zhu's Home Page

Neon2: Finding Local Minima via First-Order Oracles

How to escape saddle points efficiently

No spurious local minima in nonconvex low rank problems: A unified geometric analysis

2樓:linex

多跑幾次吧。。。初始值不同最後大概率不會陷入乙個區域性最優。但是梯度下降本身就不是用於求解全域性最優的優化演算法。。。所以最終也只是求得乙個可容忍的區域性最優解。

如何用C 部署深度學習模型?

JuLec 在伺服器上部署,可以採用TensorRT加速 在CPU或FPGA上部署可以採用OpenVINO加速 或者也可以採用框架對應的C 庫,比如pytorch提供的libtorch庫 針對這些方案的部署方式可以參考我的文章。這些方式都可以採用C 實現,而且難度不大,效果又極好。對於C 的知識量而...

概率圖模型與深度學習能夠如何結合?

David 9 這篇文章我想能幫到你 Stanford教授Daphne Koller 概率圖模型 終極入門第三講馬爾可夫網路 Markov Networks PGM不新,Judea Pearl 八幾年就開始了 深度學習也不新,就是神經網路換了個名字,CNN是Fukushima的Neocognitio...

如何看待將開源的深度學習網路模型拿去申請專利

Ivlianvs 1,這是沒授權的,只是專利申請,不是專利。2,當然可能拿到授權,不是審查員漏過去了,就是正常授權。因為專利的保護範圍取決於權利要求,就算申請時獨權已經被現有技術公開,也可以修改後以更小的範圍授權。3,就算因為審查員沒有發現對比檔案,以很大的範圍授權了,那也無非是專利權人多花點專利維...