神經網路是使用什麼如何處理帶L1正則化的損失函式的?

時間 2021-05-30 10:20:27

1樓:David 9

L0正則是更激進的正則:

定向Dropout和L0正則,for.ai與Hinton老爺子的神經網路蒸餾、剪枝與量化新研究,稀疏化神經網路,控制引數間互資訊

2樓:2prime

似乎沒有人意識到用L1正則項在深度學習是保證不了稀疏的對於神經網路 這裡 是relu

我現在要在第二層 用l1正則項

注意到relu有這樣的性質

所以我只需要讓網路變成就可以讓l1范的正則項變小。。但是沒有任何的sparsity

這也是為啥更多的work用的是l0去做剪枝那為啥現在很多work比如 @Naiyan Wanghttps://

arxiv.org/abs/1707.01213 work了呢,我覺得可能原因有兩個

用了weight decay防止上面的事情的發生 【還有bn】優化演算法的隱式正則,你用proximal gradient有乙個shrinkage運算元,想不sparse有點難

如果想做這個方面的理論(How to optimize a sparse neural network)/設計演算法/正則項可以私聊合作呀

3樓:Xenophon Tony

首先你說,Lasso不是用coordinate descent或LARS實現的麼?小孩子才看演算法,成年人都看收斂率,本質上來說你可以用任何優化演算法來優化Lasso,包括基於梯度的方法。

基於梯度的方法有很多,最常見的便是gradient descent,當問題不再處處可導時,可以採用gradient descent的拓展演算法subgradient descent。但一般來說,subgradient descent常常令人頭疼,其實它並不是乙個保證descent的演算法,只不過是作為gd的超集,沿用了descent的這個叫法。事實上subgradient descent的收斂率也非常差,除非迫不得已,不會用它來優化Lasso這種非平滑的函式,也很難令Lasso得到稀疏解。

有意思的是,Tensorflow裡面實現的甚至不是subgradient descent演算法,而是忽略所有不可導的地方,也就是說但凡你遇到了這樣乙個不可導的壞點,它可以永遠卡在那裡,因為沒有梯度也不會更新。這其實也合理,當網路中有大量引數的時候,相較正牌subgradient descent而言,這是保證效率也不失精準性的一種妥協。但是記住,這是相較subgradient descent而言,基於梯度的方法難道沒有更好更合理的了麼?

有的,那也就是優化Lasso的大殺器proximal gradient descent(Lasso優化中大名鼎鼎的ISTA),拋開理論的部分不談,對於Lasso而言,proximal方法相當把原問題拆解成了兩個子問題,首先更新平滑部分的引數(L1以外的部分),拿著更新好的結果,跑一遍proximal operator(soft threshold函式)讓它也盡量更接近滿足L1的條件,處理過後的才是新的引數。ISTA是Lasso的隨機優化中非常經典的乙個演算法(當然從收斂效率上來說,coordinate descent要高很多,然而即便是CD他的每一步其實做的也是proximal update,又扯遠了…)

那最有意思的地方來了,神經網路中,有沒有這種神乎其神的proximal方法,可以在普通的gradient descent基礎上,提高演算法的收斂率呢?有的,比如說這一篇Data-Driven Sparse Structure Selection for Deep Neural Networks,就是一篇利用Accelerated Proximal Gradient方法來產生網路的稀疏結構從而對網路進行剪枝的有趣工作~()

4樓:曹澤

推薦我校的cse546

用subgradient可推導出對應的gradient

5樓:

絕對值函式僅僅是 0 這個點不可導,和 ReLU 類似,可以用次梯度下降(subgradient descent)。也就是說,在非零的位置,就用正常的梯度;在 0 這個位置使用次梯度(對 ReLU 來說,x=0 處的次梯度可以是 [0, 1] 之間的任何乙個值;對絕對值函式來說,x=0 處的次梯度可以是 [-1, 1] 之間的任何乙個值)。

深度學習訓練中是否有必要使用L1獲得稀疏解?

使用卷積神經網路處理影象時,使用資料增強和不使用(最終影象數量一樣),理論上哪個效果會更好?

Alex Sun 其他回答的答主都自己跑過實驗嗎?笑死我了 Data Augmentation在絕大多數情況下帶來的在test set上的提公升是顯著的。一般來說,在classification,detection,segmentation等task上。樓主可以嘗試運用 Mirror Flip,Ra...

什麼是卷積神經網路?

弗拉基公尺爾 神經網路可以理解為多元線性回歸。卷積神經網路可以理解為矩陣形式的多元線性回歸。不知道這樣理解對不對。那就這樣說應該不會有錯 卷積是乙個提取特徵的函式. 憤怒的葡萄 不請自來 首先artificial NNs的目的就是他們能夠被用作乙個任意函式逼近的方式,CNN也是一樣。CNN就是在原有...

圖神經網路如何在自然語言處理中應用?

233 按我的理解 自然語言中現在最熱的Transformer,就可以當作是一種圖神經網路 Transformer tutorial Cheng Li 其實很關注這個問題。雖然自己不是做NLP的但是最近正好在看cs224思考GCN和NLP的關係CNN只能處理結構化塊狀資料的輸入和輸出 LSTM的優點...