1樓:David 9
L0正則是更激進的正則:
定向Dropout和L0正則,for.ai與Hinton老爺子的神經網路蒸餾、剪枝與量化新研究,稀疏化神經網路,控制引數間互資訊
2樓:2prime
似乎沒有人意識到用L1正則項在深度學習是保證不了稀疏的對於神經網路 這裡 是relu
我現在要在第二層 用l1正則項
注意到relu有這樣的性質
所以我只需要讓網路變成就可以讓l1范的正則項變小。。但是沒有任何的sparsity
這也是為啥更多的work用的是l0去做剪枝那為啥現在很多work比如 @Naiyan Wanghttps://
arxiv.org/abs/1707.01213 work了呢,我覺得可能原因有兩個
用了weight decay防止上面的事情的發生 【還有bn】優化演算法的隱式正則,你用proximal gradient有乙個shrinkage運算元,想不sparse有點難
如果想做這個方面的理論(How to optimize a sparse neural network)/設計演算法/正則項可以私聊合作呀
3樓:Xenophon Tony
首先你說,Lasso不是用coordinate descent或LARS實現的麼?小孩子才看演算法,成年人都看收斂率,本質上來說你可以用任何優化演算法來優化Lasso,包括基於梯度的方法。
基於梯度的方法有很多,最常見的便是gradient descent,當問題不再處處可導時,可以採用gradient descent的拓展演算法subgradient descent。但一般來說,subgradient descent常常令人頭疼,其實它並不是乙個保證descent的演算法,只不過是作為gd的超集,沿用了descent的這個叫法。事實上subgradient descent的收斂率也非常差,除非迫不得已,不會用它來優化Lasso這種非平滑的函式,也很難令Lasso得到稀疏解。
有意思的是,Tensorflow裡面實現的甚至不是subgradient descent演算法,而是忽略所有不可導的地方,也就是說但凡你遇到了這樣乙個不可導的壞點,它可以永遠卡在那裡,因為沒有梯度也不會更新。這其實也合理,當網路中有大量引數的時候,相較正牌subgradient descent而言,這是保證效率也不失精準性的一種妥協。但是記住,這是相較subgradient descent而言,基於梯度的方法難道沒有更好更合理的了麼?
有的,那也就是優化Lasso的大殺器proximal gradient descent(Lasso優化中大名鼎鼎的ISTA),拋開理論的部分不談,對於Lasso而言,proximal方法相當把原問題拆解成了兩個子問題,首先更新平滑部分的引數(L1以外的部分),拿著更新好的結果,跑一遍proximal operator(soft threshold函式)讓它也盡量更接近滿足L1的條件,處理過後的才是新的引數。ISTA是Lasso的隨機優化中非常經典的乙個演算法(當然從收斂效率上來說,coordinate descent要高很多,然而即便是CD他的每一步其實做的也是proximal update,又扯遠了…)
那最有意思的地方來了,神經網路中,有沒有這種神乎其神的proximal方法,可以在普通的gradient descent基礎上,提高演算法的收斂率呢?有的,比如說這一篇Data-Driven Sparse Structure Selection for Deep Neural Networks,就是一篇利用Accelerated Proximal Gradient方法來產生網路的稀疏結構從而對網路進行剪枝的有趣工作~()
4樓:曹澤
推薦我校的cse546
用subgradient可推導出對應的gradient
5樓:
絕對值函式僅僅是 0 這個點不可導,和 ReLU 類似,可以用次梯度下降(subgradient descent)。也就是說,在非零的位置,就用正常的梯度;在 0 這個位置使用次梯度(對 ReLU 來說,x=0 處的次梯度可以是 [0, 1] 之間的任何乙個值;對絕對值函式來說,x=0 處的次梯度可以是 [-1, 1] 之間的任何乙個值)。
深度學習訓練中是否有必要使用L1獲得稀疏解?
使用卷積神經網路處理影象時,使用資料增強和不使用(最終影象數量一樣),理論上哪個效果會更好?
Alex Sun 其他回答的答主都自己跑過實驗嗎?笑死我了 Data Augmentation在絕大多數情況下帶來的在test set上的提公升是顯著的。一般來說,在classification,detection,segmentation等task上。樓主可以嘗試運用 Mirror Flip,Ra...
什麼是卷積神經網路?
弗拉基公尺爾 神經網路可以理解為多元線性回歸。卷積神經網路可以理解為矩陣形式的多元線性回歸。不知道這樣理解對不對。那就這樣說應該不會有錯 卷積是乙個提取特徵的函式. 憤怒的葡萄 不請自來 首先artificial NNs的目的就是他們能夠被用作乙個任意函式逼近的方式,CNN也是一樣。CNN就是在原有...
圖神經網路如何在自然語言處理中應用?
233 按我的理解 自然語言中現在最熱的Transformer,就可以當作是一種圖神經網路 Transformer tutorial Cheng Li 其實很關注這個問題。雖然自己不是做NLP的但是最近正好在看cs224思考GCN和NLP的關係CNN只能處理結構化塊狀資料的輸入和輸出 LSTM的優點...