深度學習裡，如何判斷模型陷入區域性最優？

1樓：鄧康康

一階導為零的點稱為穩定點，可以分為以下三類：區域性最小，區域性最大，鞍點。

這些點根據二階資訊去區分。

當Hessian矩陣特徵值全部大於零，這時稱之為區域性最小（也包含了全域性最小）。

當Hessian矩陣特徵值全部大於等於零，並且存在0特徵值，這時可能為區域性最小，也可能是鞍點。

當Hessian矩陣最小特徵值小於零，則為嚴格鞍點（包含了區域性最大）。

目前我們能逃離的鞍點只有嚴格鞍點。逃離鞍點的方法目前我知道的有兩類：

利用嚴格鞍點它負特徵值對應的方向，採用矩陣向量乘積的形式找到下降方向。

利用擾動梯度方法逃離鞍點，在梯度的模小於某個數的時候，在梯度上加個擾動量。

那麼問題來了，不是嚴格鞍點怎麼辦？於是他們證明了很多問題只有嚴格鞍點。

那麼問題又來了，即使我們逃離了鞍點，那也只是區域性最小啊？

研究者又證明了事實上很多問題沒有spurious local minima. 也就是說所有的區域性最小都是全域性最小。比如下面這些問題。

感興趣的可以看以下兩位的主頁：

rong ge

Rong Ge, Duke University

Zeyuan Allen-Zhu

Zeyuan Allen-Zhu's Home Page

Neon2: Finding Local Minima via First-Order Oracles

How to escape saddle points efficiently

No spurious local minima in nonconvex low rank problems: A unified geometric analysis

2樓：linex

多跑幾次吧。。。初始值不同最後大概率不會陷入乙個區域性最優。但是梯度下降本身就不是用於求解全域性最優的優化演算法。。。所以最終也只是求得乙個可容忍的區域性最優解。

如何用C 部署深度學習模型？

JuLec 在伺服器上部署，可以採用TensorRT加速在CPU或FPGA上部署可以採用OpenVINO加速或者也可以採用框架對應的C 庫，比如pytorch提供的libtorch庫針對這些方案的部署方式可以參考我的文章。這些方式都可以採用C 實現，而且難度不大，效果又極好。對於C 的知識量而...

概率圖模型與深度學習能夠如何結合？

David 9 這篇文章我想能幫到你 Stanford教授Daphne Koller 概率圖模型終極入門第三講馬爾可夫網路 Markov Networks PGM不新，Judea Pearl 八幾年就開始了深度學習也不新，就是神經網路換了個名字，CNN是Fukushima的Neocognitio...

如何看待將開源的深度學習網路模型拿去申請專利

Ivlianvs 1，這是沒授權的，只是專利申請，不是專利。2，當然可能拿到授權，不是審查員漏過去了，就是正常授權。因為專利的保護範圍取決於權利要求，就算申請時獨權已經被現有技術公開，也可以修改後以更小的範圍授權。3，就算因為審查員沒有發現對比檔案，以很大的範圍授權了，那也無非是專利權人多花點專利維...

深度學習裡，如何判斷模型陷入區域性最優？

如何用C 部署深度學習模型？

概率圖模型與深度學習能夠如何結合？

如何看待將開源的深度學習網路模型拿去申請專利

其他用戶還看了：