機器學習中常常提到的正則化到底是什麼意思？

1樓：張趔趄

縮小引數空間

防止過擬合

加先驗知識

使得求解變得可行（比如樣本較少時候OLS的逆矩陣求解）

現在用圖形來解釋一下為什麼正則化（regularization）可以potentially解決這些問題。

縮小引數空間：

這個非常好理解，如圖二，通過加入regularizer，把引數空間重新約束到乙個更小的範圍來求解。如圖零所示，Ridge regression的L2 norm，相當於就是把引數約束到了以圓點為中心，某個和lambda相關的引數為半徑的圓周上。

圖0防止過擬合：

如圖一所示，如果求解問題有這樣的乙個引數搜尋空間, 同時又有乙個global或者local optimizer，那麼求解這個問題就可以得到在當前solution space的最優解。但是由於模型選擇的問題，比如乙個應該2次回歸的問題用了3次方程來fit，這個時候引數對資料的雜訊過於敏感，所以不想要在這麼大的搜尋空間進行搜尋，想要把搜尋空間約束到更適合該問題的地方，於是加了乙個regularizer來約束，如圖二所示。如果這個regularizer加的合適，那麼在新的約束下的搜尋空間進行搜尋，便有可能得到更好的解。

加先驗知識：

這乙個的原理防止過擬合類似，就是說人們對這個問題的domain knowledge有一定的了解，人為的把引數搜尋空間通過先驗知識約束到了一定的範圍內，在這個範圍內求解的結果能更好的滿足要求。那有人就回問了，何不直接更改原來的loss function? 其實機器學習中有各種各樣的loss function，mean-square loss, hinge loss等，對於部分資料，無論什麼樣的loss都沒有辦法直接約束，比如

資料中有些feature就是沒用的，但是想通過機器學習來統計出到底是哪些feature沒用，那麼這個時候加乙個L1 norm就是加了乙個先驗知識。

w這個求解feature裡，你明白w是乙個matrix，而且是low rank的，行列直接的feature是有一定相關性，可以互相被線性組合出來，那麼這個時候加乙個nuclear norm，就是乙個好的先驗。

圖 1圖 2

使得求解變得可行：

同樣以ridge regression來解釋，如果樣本數量比feature數量少的時候，OLS的逆矩陣無法求解，這個時候可以用gradient based方法進行求解，但是能滿足方程的solution有很多，到底取哪乙個無法定論。這個時候可以加乙個L2 norm進行解空間約束，

如果L2 Norm的lambda取得比較小，就會遇到圖3的情況，依然無法得到唯一解，但是的確是縮小了引數空間，對應到公式裡就是矩陣加上乙個lambda係數的單位矩陣之後依然無法求逆矩陣。

如果L2 Norm的lambda取得足夠大，就回遇到圖4的情況，得到唯一解。

對於其他問題也是一樣的。

圖 3圖 4

2樓：Ginger

很多回答都是抓住過擬合不放，但是知道為什麼正則化會減輕過擬合嗎？過擬合到底是什麼？

過擬合的本質是模型引數矩陣W是乙個病態矩陣，即矩陣W的特徵值很大，在特徵方向上自由度大，輸入的任何微小改變，都會引起輸出的較大改變。這樣的模型引數是不穩定的，因為你不能保證輸入資料都是無雜訊的，如果你的模型因為雜訊而輸出千差萬別，那這個模型有什麼用呢？

再詳細說一下，如果模型引數A是有逆矩陣的，也就是非奇異矩陣，那麼定義k(A)為條件數，

這個量反映了輸入變化引起輸出的變動。條件數就是A的norm和A逆的norm乘積。

所以正則是什麼，正則是限制在輸入訓練資料之後，防止解引數W劇烈震動，如果劇烈變化很大，那麼你最後SGD的模型就是個病態模型。怎麼防止震動，就是SRM思想，去控制壓制引數，不讓其自由發展。

3樓：可愛放映機

製造機械人和智慧型機器的專業一般都是機械設計製造及其自動化專業，也有電子資訊工程及其相關專業，前者主要負責設計，後者主要負責智慧型化的程式設計和製作等等，學歷一般都是本科生，也有研究生，本科生比較多一些；關於機械人的製造過程非常複雜，會牽涉到很多知識，比如自動控制原理、DSP、EDA、資料結構、c語言等等；只要好好學習，並且對這方面比較感興趣，總有一天也會達到這一高度的。

機械設計製造及其自動化是研究各種工業機械裝備及機電產品從設計、製造、執行控制到生產過程的企業管理的綜合技術學科。培養具備機械設計製造基礎知識與應用能力，能在工業生產第一線從事機械製造領域內的設計製造、科技開發、應用研究、執行管理和經營銷售等方面工作的高階工程技術人才。

以機械設計與製造為基礎，融入電腦科學、資訊科技、自動控制技術的交叉學科，主要任務是運用先進設計製造技術的理論與方法，解決現代工程領域中的複雜技術問題，以實現產品智慧型化的設計與製造。

4樓：占星家

深度學習的模型往往有很多引數，容易出現過擬合。任何避免在擬合過程中發生過擬合的方法都是正則化。對於正則化並沒有乙個統一的標準或者方法。

常用的方法有目標函式加penality term， early stop 或者是dropout 等等。題主遇到的情況是目標函式加penality term。

5樓：

就是「所有的模型都是錯的，我們找乙個錯的不那麼離譜的」

機器學習將乙個Learning問題轉化為乙個優化問題，並假定解決了優化問題就解決了learning問題。這些都是有疑問的，依賴於樣本本身。如果你真的確定解決這個優化問題就能完整解決learning問題，那就不該有樣本以外的regularization。

實際上則是，我們對自己建立的機器學習模型根本就沒把握，甚至可以明確說，它肯定是錯的，不能真正的擬合資料，那麼只能找乙個錯的不那麼離譜的，正則化就起到這個作用。

「我們希望找到乙個函式，這個函式在訓練樣本上的誤差盡可能小，同時這個函式盡可能簡單」

6樓：風暴的力量

關於"為什麼要做regularization？"regularization是什麼？""怎麼做regularization？"大家的回答已經很到位了。

補充一點motivation：為什麼想到L2這種形式？

有空具體聊，簡單說是由最小二乘、高斯分布與貝葉斯線性回歸自然而然推出來的。

7樓：許鐵-巡洋艦科技

在機器學習中，正則化很容易理解，不管是L1還是L2，都是針對模型中引數過大的問題引入懲罰項。而在深度學習中，要優化的變成了乙個個矩陣，引數變得多出了幾個數量級，過擬合的可能性也相應的提高了。而要懲罰的是神經網路中每個神經元的權重大小，從而避免網路中的神經元走極端抄近路。

最直接的正則化是在損失函式中加入懲罰項，比如L2正則化，又稱權重衰減（weight decay）關注的是權重平方和的平方根，是要網路中的權重接近0但不等於0，而在L1正則中，要關注的是權重的絕對值，權重可能被壓縮成0。在深度學習中，L1會趨向於產生少量的特徵，而其他的特徵都是0，而L2會選擇更多的特徵，這些特徵都會接近於0。神經網路需要每一層的神經元盡可能的提取出有意義的特徵，而這些特徵不能是無源之水，因此L2正則用的多一些。

8樓：

自己也搜到這個問題，正好答一下

一句話，

正則化是指我們修改學習演算法，使其降低泛化誤差而非訓練誤差。

引自: 5.2.2節

exacity/deeplearningbook-chinese說白了就是和你搞個文字遊戲，搞得高大上一點，修改學習函式好聽，還是正則化好聽？

9樓：千佛山彭于晏

正則化方法是為了防止由於訓練資料不夠或者over training的時候導致的過擬合問題。在代價函式中加入額外的正則化項，目的是為了讓網路學習更小的權值，正則化使得引數稀疏，簡化模型。常用的正則化方法有L2正則，也叫權重衰減，有時候也叫嶺回歸(ridge regression); L1正則化(LASSO); Data Augmentation; Early Stopping; Dropout等

10樓：facetothefate

正則項的道理非常簡單，雖然你真正選的時候完全是玄學。

簡單的說，根據奧卡姆剃刀原則，越正確而且越簡單的模型越符合實際情況。正則項的引用就是淘汰那些複雜的模型，留下那些簡單的。簡單來說，就是懲罰那些用了很多特徵的，留下那些用了少量特徵的。

進一步的講，如果沒有正則項，根據奧卡姆剃刀原則，你用了越多的特徵，就越容易過擬合，因為實際上有些特徵跟你的分類實際上是完全無關的。

所以在計算損失函式的時候，加上乙個玄學函式，讓特徵越多的模型損失越大，就是基本思想。

11樓：張星星

我想從另乙個角度回答。

「天下沒有免費的午餐」定理說明沒有哪一種擬合是最優的，但是我們有一套先驗知識來判斷哪些更優，這些先驗知識包含簡單性，平滑性...

正則化的結果如其他同學所說會懲罰影響小的引數來簡化模型防止過擬合，實際上是滿足簡單性與平滑性先驗知識的，我們認為它產生的結果更合理，往往確實如此。

另外，簡單性通常意味著更好的泛化效能

12樓：泡泡粉毛毛

萌新試答這個國內面試機器學習崗位極其喜歡考的乙個問題。

正則化（Regularization）這個詞詞源應該是從PDE裡的正則性來的（Regularity）。我們知道對於乙個方程，解的存在唯一性和我們選擇的空間的性質是有關的。解空間的正則性不一樣，解的存在唯一性也是不一樣的。

『例如我們考慮熱傳導方程，的時候解是不唯一的。但是如果我們把解限制在速降函式集當中，就可以唯一了。這個時候，函式衰減的比較快就是我們為了對這個方程解進行約束所加的一些限制。

有些時候方程可能不足以直接給出很好的估計，我們可能會考慮先作弱解在某個弱的空間裡面，再考慮這個弱解有沒有可能通過正則性條件提公升到乙個強的空間裡面去，從而獲得更好的性質。這個時候，強的空間的條件（限制）就是正則性條件。有些時候我們f上有不錯的條件，這個時候解出來的u也相應地會不錯。

再考慮乙個優化裡面的問題。例如在Gradient descent 在凸和強凸兩種（這兩種其實某種意義上也是正則性條件，因為如果沒有假設的情況下GD只能保證收斂到stationary points）情況收斂速度分別是O(1/k)和線性收斂，導致收斂速度的不一樣就是因為目標函式的正則性的不一致。（f是Lipschitz？

凸？強凸？各個特徵值的分布？

這些都是可能的正則性）。

再考慮正則在統計學裡面的意義。我們都知道線性回歸可以理解為資料點誤差假設為同方差的高斯分布下做最大似然估計得到的結果。而如果我們給回歸的係數加上高斯或者拉普拉斯先驗就會變成Ridge或者Lasso。

這是乙個貝葉斯統計上很正確的理解，但是我們也可以拋棄先驗後驗這一套nonsense，純粹地從數值的角度來解釋這個問題：的性質不一定很好（解多重共線性？樣本數比引數少？

這樣會導致條件數非常難看），解不一定唯一，這個時候，乙個正的alpha可以把問題變成強凸，從而使問題求解變簡單。

最後再看到深度學習當中的意義：卷積神經網路work很大乙個原因是因為影象的低秩性和稀疏性以及邊界的正則性（圖形是正方形？同乙個東西出現很多次？

）很多流行的trick例如dropout，pruning利用的是學出來的kernel之間可以互相替代這麼的一種低秩的性質。這個時候正則能夠使每層網路的凸性變好一丟丟，同時也可以使得引數的個數減少。

機器學習中常常提到的正則化到底是什麼意思？

關於機器學習中L2範數作為正則化損失的疑問？有關強凸strong convexity

概覽深度學習中的五大正則化方法和七大優化策略

機器學習中的hypothesis到底是什麼意思？

其他用戶還看了：

機器學習中常常提到的正則化到底是什麼意思？

關於機器學習中L2範數作為正則化損失的疑問？ 有關強凸strong convexity

概覽深度學習中的五大正則化方法和七大優化策略

機器學習中的hypothesis到底是什麼意思？

其他用戶還看了：

關於機器學習中L2範數作為正則化損失的疑問？有關強凸strong convexity