特徵工程中的歸一化有什麼作用？

1樓：

個人覺得 @憶臻的等高線圖存在乙個小問題：

如果是房間數，是面積，那上圖的橢圓應該是旋轉90度。並且梯度的方向也需要修改。

準確的圖應該如下（Andrew Ng： Gradient Descent in Practice I - Feature Scaling ）：

這裡是面積，並且注意梯度的方向是很平穩的「之」字形。

由於取值比較大，所以在方向上的梯度值比較大；所以梯度方向很「平」。

2樓：清木

Rule of thumb I follow here is any algorithm that computesdistanceor assumesnormality, scale your features!!!

補充乙個「歸一化」與否對PCA的影響圖示，可以直觀理解歸一化的作用。

3樓：hellodata

對於線性模型，特徵值差別很大時，比如說LR，我有兩個特徵，乙個是(0,1)的，乙個是(0,10000)的，運用梯度下降的時候，損失等高線是橢圓形，需要進行多次迭代才能到達最優點。

但是如果進行了歸一化，那麼等高線就是圓形的，促使SGD往原點迭代，從而導致需要的迭代次數較少。

所以說是因為梯度下降的演算法需要進行歸一化，歸一化後加快了梯度下降求解最優解的速度

4樓：

我認為歸一化就是讓資料處於同一起跑線上。

1、將資料對映到[0,1]或者[-1,1]。

2、也存在顏色遷移，讓影象看起來差不多。比如，stain normalization（染色歸一化），用於組織病理學影象分析。這就像人臉影象對齊和多模態醫學影象配準了。

5樓：趙易明

講個其他人不太注意的具體點的例子吧，在語音特徵提取時，比如提取的是MFCC特徵，對各個維度進行均值歸一化會起到通道補償的作用。

具體來說，語音通過麥克風通道時候，採集到的訊號是頻域裡就是

能量上取對數後

其實大部分常規的聲學通道是相對平穩的，這個平穩指的是相對於語音頻號的，比如說語音在20毫秒左右可以認為是短時平穩的，而聲學通道在這段時間內可以認為是幾乎不變化的，因此

其中代表聲道中相對穩定的部分，而代表聲道發聲時的變化部分。因此去均值歸一化操作可以去除通道資訊，而保留下代表語音的特徵。否則，即便是訓練好的識別系統，在更換 mic 後很有可能識別效果非常差。

6樓：lisaLee

標準化方法的選擇需要根據度量的數值特徵，Log函式適用於數值存在明顯量級上差異的度量，如橫跨了百、千、萬的度量就可以選擇Log函式，如果數值上沒有這麼大的差異，建議還是使用Min-Max或者Z標準化

7樓：Ran

看到的一篇帖子，

講了歸一化常用方法和歸一化的作用

8樓：

乙個非常簡單的道理，這東西如果不知道做不做，原則上就選那種看起來好的。比如不知道歸一化會不會有好處，如果試錯的時間比較少，那麼就做。就這麼簡單。

因為很多時候無效，很多時候有效。純經驗之談。

9樓：

不同的模型對特徵的分布假設是不一樣的。比如SVM 用高斯核的時候，所有維度共用乙個方差，這不就假設特徵分布是圓的麼，輸入橢圓的就坑了人家，所以簡單的歸一化都還不夠好，來杯白化才有勁。比如用樹的時候就是各個維度各算各的切分點，沒所謂。

10樓：王贇 Maigo

這是要我放出我所有關於歸一化的答案啊：

在進行資料分析的時候，什麼情況下需要對資料進行標準化處理？ - 王贇 Maigo 的回答

機器學習資料歸一化的的方法有哪些？適合於什麼樣的資料？ - 王贇 Maigo 的回答

為什麼feature scaling會使gradient descent的收斂更好? - 王贇 Maigo 的回答

資料特徵的歸一化，是對整個矩陣還是對每一維特徵？ - 王贇 Maigo 的回答

11樓：餃子的傳說

雖然同樣作出了歸一化，但歸一化的目的卻各不相同。對於不同的模型，不同的業務，歸一化就會有不同的意義。

我本人總結如下：

一.無量綱化：

例如房子數量和收入，因為從業務層知道，這兩者的重要性一樣，所以把它們全部歸一化。這是從業務層面上作的處理。

二.避免數值問題：

太大的數會引發數值問題。

三.一些模型求解的需要。

例如梯度下降法。 @死跑龍套的所說的，就是一種情況-----不歸一化，容易產生陝谷，而學習率較大時，就會如死跑龍套的截的圖一樣，以之字形下降。學習率較小，則會產生直角形路線，不管怎麼樣，都不會是好路線。

四：特殊情況，特殊分析，不同的模型，歸一化有不同的原因。例如關於BP神經網路的，可以看這張文章：

神經網路為什麼要歸一化 http://

。這裡就不再展開了。

12樓：羅YQ

這幾天訓練分類器，從經驗上說，讓不同維度之間的特徵在數值上有一定比較性，能大大提高分類器的準確性。 @柴旭峰給的例子就非常形象，感謝！也就是 @武牧

@李蕾說的量綱吧。

13樓：武牧

首先就是量綱的問題，不同的資料在不同列資料的數量級相差過大的話，計算起來大數的變化會掩蓋掉小數的變化。

其次是收斂速度的問題，歸一化之後收斂速度好。

還有就是SVM引數尋優的過程。

一般使用SVM的時候，c，g引數要在一定範圍內尋優。如果你的輸入過大的話，那麼最好的c，g取值很有可能超出你的尋優範圍。

而歸一化之後，資料範圍被你限制了，一般是[-1,1]或者[0,1]，c，g尋優範圍的話也基本上能覆蓋上c，g的最優取值了。

14樓：Dongfei Yu

15樓：郭寬

三年半後補充修正： @憶臻的答案是正確的，縱橫座標應該是theta_房間,theta_面積而不是房間、面積，三年多前回答的該問題畫圖倉促只標記了變數，實屬錯誤，慚愧慚愧，圖就不重畫了，大家注意就好了

原答案:

沒有經過歸一化，尋找最優解的過程：

經過歸一化，把各個特徵的尺度控制在相同的範圍內：

16樓：

暫時只回答歸一化的效果。

假設有兩個變數，都是均勻分布，X1範圍是100000到200000，X2的範圍是1到2。

現在請在一張A4紙上畫個座標，點出這些點。

很顯然，你會點出很多處於同一直線上的點，我們稱這條直線為L。也就是說，如果現在我們要做乙個classification的話，X2幾乎可以被忽略。X2很無辜的被乾掉了，僅僅因為所謂量綱的問題。

即便X2不被乾掉，我們現在繼續求解，來做 gradient descent。很顯然，如果某一步我們求得的下降方向不在直線L上，幾乎可以肯定肯定這步不會下降。這就會導致不收斂，或者收斂但很慢。

再來，我們做一遍歸一化，全部化為[0,1]區間上。

現在再在紙上畫個座標，點出這些點。

好了，他們現在均勻的分布在乙個圓的範圍內。X2不會被忽略了，收斂的問題也解決了。

這麼說好像很不直觀，等回家了配個圖。

17樓：

歸一化首先在維數非常多的時候，可以防止某一維或某幾維對資料影響過大，其次可以程式可以執行更快。方法很多，min-max,z-score,p範數等，具體怎麼使用，要根據資料集的特徵來選擇。

18樓：Quan

資料歸一化，很重要。比如在用SVM分類時，資料尺度不統一對分類準確率影響很大。歸一化一般將資料規整到乙個小範圍之間，如[0,1]或[-1,1],具體的方法一範求和或二範求模歸一化等。

19樓：艾華豐

歸一化化定義：我是這樣認為的，歸一化化就是要把你需要處理的資料經過處理後（通過某種演算法）限制在你需要的一定範圍內。首先歸一化是為了後面資料處理的方便，其次是保正程式執行時收斂加快。

方法有如下：

1、線性函式轉換，表示式如下：

y=(x-MinValue)/(MaxValue-MinValue)

說明：x、y分別為轉換前、後的值，MaxValue、MinValue分別為樣本的最大值和最小值。

2、對數函式轉換，表示式如下：

y=log10(x)

說明：以10為底的對數函式轉換。

3、反餘切函式轉換，表示式如下：

y=atan(x)*2/PI

4、式(1)將輸入值換算為[-1,1]區間的值，在輸出層用式(2)換算回初始值，其中和分別表示訓練樣本集中負荷的最大值和最小值。

在統計學中，歸一化的具體作用是歸納統一樣本的統計分布性。歸一化在0-1之間是統計的概率分布，歸一化在-1--+1之間是統計的座標分布。

20樓：梁濤

為 @劉典的答案補充乙個例子：進行Log分析時，會將原本絕對化的時間序列歸一化到某個基準時刻，形成相對時間序列，方便排查。

特徵工程中的歸一化有什麼作用？

kmeans之前的資料標準歸一化有什麼區別？

Word2Vec中的詞向量是歸一化的嗎？

單醣是一種什麼樣的物質？有什麼特徵和作用？有哪些應用？

其他用戶還看了：

特徵工程中的 歸一化 有什麼作用？

kmeans之前的資料標準 歸一化有什麼區別？

Word2Vec中的詞向量是歸一化的嗎？

單醣 是一種什麼樣的物質？有什麼特徵和作用？有哪些應用？

其他用戶還看了：

特徵工程中的歸一化有什麼作用？

kmeans之前的資料標準歸一化有什麼區別？

單醣是一種什麼樣的物質？有什麼特徵和作用？有哪些應用？