神經網路是使用什麼如何處理帶L1正則化的損失函式的？

1樓：David 9

L0正則是更激進的正則：

定向Dropout和L0正則，for.ai與Hinton老爺子的神經網路蒸餾、剪枝與量化新研究，稀疏化神經網路，控制引數間互資訊

2樓：2prime

似乎沒有人意識到用L1正則項在深度學習是保證不了稀疏的對於神經網路這裡是relu

我現在要在第二層用l1正則項

注意到relu有這樣的性質

所以我只需要讓網路變成就可以讓l1范的正則項變小。。但是沒有任何的sparsity

這也是為啥更多的work用的是l0去做剪枝那為啥現在很多work比如 @Naiyan Wanghttps://

arxiv.org/abs/1707.01213 work了呢，我覺得可能原因有兩個

用了weight decay防止上面的事情的發生【還有bn】優化演算法的隱式正則，你用proximal gradient有乙個shrinkage運算元，想不sparse有點難

如果想做這個方面的理論(How to optimize a sparse neural network)/設計演算法/正則項可以私聊合作呀

3樓：Xenophon Tony

首先你說，Lasso不是用coordinate descent或LARS實現的麼？小孩子才看演算法，成年人都看收斂率，本質上來說你可以用任何優化演算法來優化Lasso，包括基於梯度的方法。

基於梯度的方法有很多，最常見的便是gradient descent，當問題不再處處可導時，可以採用gradient descent的拓展演算法subgradient descent。但一般來說，subgradient descent常常令人頭疼，其實它並不是乙個保證descent的演算法，只不過是作為gd的超集，沿用了descent的這個叫法。事實上subgradient descent的收斂率也非常差，除非迫不得已，不會用它來優化Lasso這種非平滑的函式，也很難令Lasso得到稀疏解。

有意思的是，Tensorflow裡面實現的甚至不是subgradient descent演算法，而是忽略所有不可導的地方，也就是說但凡你遇到了這樣乙個不可導的壞點，它可以永遠卡在那裡，因為沒有梯度也不會更新。這其實也合理，當網路中有大量引數的時候，相較正牌subgradient descent而言，這是保證效率也不失精準性的一種妥協。但是記住，這是相較subgradient descent而言，基於梯度的方法難道沒有更好更合理的了麼？

有的，那也就是優化Lasso的大殺器proximal gradient descent（Lasso優化中大名鼎鼎的ISTA），拋開理論的部分不談，對於Lasso而言，proximal方法相當把原問題拆解成了兩個子問題，首先更新平滑部分的引數（L1以外的部分），拿著更新好的結果，跑一遍proximal operator（soft threshold函式）讓它也盡量更接近滿足L1的條件，處理過後的才是新的引數。ISTA是Lasso的隨機優化中非常經典的乙個演算法（當然從收斂效率上來說，coordinate descent要高很多，然而即便是CD他的每一步其實做的也是proximal update，又扯遠了…）

那最有意思的地方來了，神經網路中，有沒有這種神乎其神的proximal方法，可以在普通的gradient descent基礎上，提高演算法的收斂率呢？有的，比如說這一篇Data-Driven Sparse Structure Selection for Deep Neural Networks，就是一篇利用Accelerated Proximal Gradient方法來產生網路的稀疏結構從而對網路進行剪枝的有趣工作～()

4樓：曹澤

推薦我校的cse546

用subgradient可推導出對應的gradient

5樓：

絕對值函式僅僅是 0 這個點不可導，和 ReLU 類似，可以用次梯度下降（subgradient descent）。也就是說，在非零的位置，就用正常的梯度；在 0 這個位置使用次梯度（對 ReLU 來說，x=0 處的次梯度可以是 [0, 1] 之間的任何乙個值；對絕對值函式來說，x=0 處的次梯度可以是 [-1, 1] 之間的任何乙個值）。

深度學習訓練中是否有必要使用L1獲得稀疏解?

神經網路是使用什麼如何處理帶L1正則化的損失函式的？

使用卷積神經網路處理影象時，使用資料增強和不使用（最終影象數量一樣），理論上哪個效果會更好？

什麼是卷積神經網路？

圖神經網路如何在自然語言處理中應用？

其他用戶還看了：