特徵工程中的 歸一化 有什麼作用?

時間 2021-05-06 21:33:42

1樓:

個人覺得 @憶臻 的等高線圖存在乙個小問題:

如果 是房間數, 是面積,那上圖的橢圓應該是旋轉90度。並且梯度的方向也需要修改。

準確的圖應該如下(Andrew Ng: Gradient Descent in Practice I - Feature Scaling ):

這裡 是面積,並且注意梯度的方向是很平穩的「之」字形。

由於 取值比較大,所以在 方向上的梯度值比較大;所以梯度方向很「平」。

2樓:清木

Rule of thumb I follow here is any algorithm that computesdistanceor assumesnormality, scale your features!!!

補充乙個「歸一化」與否對PCA的影響圖示,可以直觀理解歸一化的作用。

3樓:hellodata

對於線性模型,特徵值差別很大時,比如說LR,我有兩個特徵,乙個是(0,1)的,乙個是(0,10000)的,運用梯度下降的時候,損失等高線是橢圓形,需要進行多次迭代才能到達最優點。

但是如果進行了歸一化,那麼等高線就是圓形的,促使SGD往原點迭代,從而導致需要的迭代次數較少。

所以說是因為梯度下降的演算法需要進行歸一化,歸一化後加快了梯度下降求解最優解的速度

4樓:

我認為歸一化就是讓資料處於同一起跑線上。

1、將資料對映到[0,1]或者[-1,1]。

2、也存在顏色遷移,讓影象看起來差不多。比如,stain normalization(染色歸一化),用於組織病理學影象分析。這就像人臉影象對齊和多模態醫學影象配準了。

5樓:趙易明

講個其他人不太注意的具體點的例子吧,在語音特徵提取時,比如提取的是MFCC特徵,對各個維度進行均值歸一化會起到通道補償的作用。

具體來說,語音 通過麥克風通道 時候,採集到的訊號是頻域裡就是

能量上取對數後

其實大部分常規的聲學通道是相對平穩的,這個平穩指的是相對於語音頻號的,比如說語音在20毫秒左右可以認為是短時平穩的,而聲學通道在這段時間內可以認為是幾乎不變化的,因此

其中 代表聲道中相對穩定的部分,而 代表聲道發聲時的變化部分。因此去均值歸一化操作可以去除通道資訊,而保留下代表語音的特徵。否則,即便是訓練好的識別系統,在更換 mic 後很有可能識別效果非常差。

6樓:lisaLee

標準化方法的選擇需要根據度量的數值特徵,Log函式適用於數值存在明顯量級上差異的度量,如橫跨了百、千、萬的度量就可以選擇Log函式,如果數值上沒有這麼大的差異,建議還是使用Min-Max或者Z標準化

7樓:Ran

看到的一篇帖子,

講了歸一化常用方法和歸一化的作用

8樓:

乙個非常簡單的道理, 這東西如果不知道做不做, 原則上就選那種看起來好的。 比如不知道歸一化會不會有好處, 如果試錯的時間比較少, 那麼就做。 就這麼簡單。

因為很多時候無效,很多時候有效。 純經驗之談。

9樓:

不同的模型對特徵的分布假設是不一樣的。比如SVM 用高斯核的時候,所有維度共用乙個方差,這不就假設特徵分布是圓的麼,輸入橢圓的就坑了人家,所以簡單的歸一化都還不夠好,來杯白化才有勁。比如用樹的時候就是各個維度各算各的切分點,沒所謂。

10樓:王贇 Maigo

這是要我放出我所有關於歸一化的答案啊:

在進行資料分析的時候,什麼情況下需要對資料進行標準化處理? - 王贇 Maigo 的回答

機器學習資料歸一化的的方法有哪些?適合於什麼樣的資料? - 王贇 Maigo 的回答

為什麼feature scaling會使gradient descent的收斂更好? - 王贇 Maigo 的回答

資料特徵的歸一化,是對整個矩陣還是對每一維特徵? - 王贇 Maigo 的回答

11樓:餃子的傳說

雖然同樣作出了歸一化,但歸一化的目的卻各不相同。對於不同的模型,不同的業務,歸一化就會有不同的意義。

我本人總結如下:

一.無量綱化:

例如房子數量和收入,因為從業務層知道,這兩者的重要性一樣,所以把它們全部歸一化。 這是從業務層面上作的處理。

二.避免數值問題:

太大的數會引發數值問題。

三.一些模型求解的需要。

例如梯度下降法。 @死跑龍套的 所說的,就是一種情況-----不歸一化,容易產生陝谷,而學習率較大時,就會如死跑龍套的截的圖一樣,以之字形下降。學習率較小,則會產生直角形路線,不管怎麼樣,都不會是好路線。

四:特殊情況,特殊分析,不同的模型,歸一化有不同的原因。例如關於BP神經網路的,可以看這張文章:

神經網路為什麼要歸一化 http://

。這裡就不再展開了。

12樓:羅YQ

這幾天訓練分類器,從經驗上說,讓不同維度之間的特徵在數值上有一定比較性,能大大提高分類器的準確性。 @柴旭峰給的例子就非常形象,感謝!也就是 @武牧

@李蕾說的量綱吧。

13樓:武牧

首先就是量綱的問題,不同的資料在不同列資料的數量級相差過大的話,計算起來大數的變化會掩蓋掉小數的變化。

其次是收斂速度的問題,歸一化之後收斂速度好。

還有就是SVM引數尋優的過程。

一般使用SVM的時候,c,g引數要在一定範圍內尋優。如果你的輸入過大的話,那麼最好的c,g取值很有可能超出你的尋優範圍。

而歸一化之後,資料範圍被你限制了,一般是[-1,1]或者[0,1],c,g尋優範圍的話也基本上能覆蓋上c,g的最優取值了。

14樓:Dongfei Yu

15樓:郭寬

三年半後補充修正: @憶臻 的答案是正確的,縱橫座標應該是theta_房間,theta_面積而不是房間面積,三年多前回答的該問題畫圖倉促只標記了變數,實屬錯誤,慚愧慚愧,圖就不重畫了,大家注意就好了

原答案:

沒有經過歸一化,尋找最優解的過程:

經過歸一化,把各個特徵的尺度控制在相同的範圍內:

16樓:

暫時只回答歸一化的效果。

假設有兩個變數,都是均勻分布,X1範圍是100000到200000,X2的範圍是1到2。

現在請在一張A4紙上畫個座標,點出這些點。

很顯然,你會點出很多處於同一直線上的點,我們稱這條直線為L。也就是說,如果現在我們要做乙個classification的話,X2幾乎可以被忽略。X2很無辜的被乾掉了,僅僅因為所謂量綱的問題。

即便X2不被乾掉,我們現在繼續求解,來做 gradient descent。 很顯然,如果某一步我們求得的下降方向不在直線L上,幾乎可以肯定肯定這步不會下降。這就會導致不收斂,或者收斂但很慢。

再來,我們做一遍歸一化,全部化為[0,1]區間上。

現在再在紙上畫個座標,點出這些點。

好了,他們現在均勻的分布在乙個圓的範圍內。X2不會被忽略了,收斂的問題也解決了。

這麼說好像很不直觀,等回家了配個圖。

17樓:

歸一化首先在維數非常多的時候,可以防止某一維或某幾維對資料影響過大,其次可以程式可以執行更快。方法很多,min-max,z-score,p範數等,具體怎麼使用,要根據資料集的特徵來選擇。

18樓:Quan

資料歸一化,很重要。比如在用SVM分類時,資料尺度不統一對分類準確率影響很大。歸一化一般將資料規整到乙個小範圍之間,如[0,1]或[-1,1],具體的方法一範求和或二範求模歸一化等。

19樓:艾華豐

歸一化化定義:我是這樣認為的,歸一化化就是要把你需要處理的資料經過處理後(通過某種演算法)限制在你需要的一定範圍內。首先歸一化是為了後面資料處理的方便,其次是保正程式執行時收斂加快。

方法有如下:

1、線性函式轉換,表示式如下:

y=(x-MinValue)/(MaxValue-MinValue)

說明:x、y分別為轉換前、後的值,MaxValue、MinValue分別為樣本的最大值和最小值。

2、對數函式轉換,表示式如下:

y=log10(x)

說明:以10為底的對數函式轉換。

3、反餘切函式轉換,表示式如下:

y=atan(x)*2/PI

4、式(1)將輸入值換算為[-1,1]區間的值,在輸出層用式(2)換算回初始值,其中和分別表示訓練樣本集中負荷的最大值和最小值。

在統計學中,歸一化的具體作用是歸納統一樣本的統計分布性。歸一化在0-1之間是統計的概率分布,歸一化在-1--+1之間是統計的座標分布。

20樓:梁濤

為 @劉典的答案補充乙個例子:進行Log分析時,會將原本絕對化的時間序列歸一化到某個基準時刻,形成相對時間序列,方便排查。

kmeans之前的資料標準 歸一化有什麼區別?

jinzhao 首先要了解概念之間的差異,做kmeans之前需要標準化!中心化 去量綱影響 z 讓資料分布更加合理 標準化 在中心化基礎上進行z變換,所以,去量綱,讓分布更加合理。所以,要基於需求來處理資料。1 資料的中心化 所謂資料的中心化是指資料集中的各項資料減去資料集的均值。例如有資料集1,2...

Word2Vec中的詞向量是歸一化的嗎?

至少在gensim版的Word2vec裡,在原始碼中計算相似度時需要先對詞向量進行歸一化。def similarity self,d1,d234 Compute cosine similarity between two docvecs from the training setTODO Accep...

單醣 是一種什麼樣的物質?有什麼特徵和作用?有哪些應用?

木木薩 首先,我們來看看什麼叫 糖 糖,肯定是甜的。糖又分為多醣和單醣。醣類是人體主要供能物質,人體消耗的所有能量都來自糖 但沒有消耗的部分就會轉化成脂肪。注意,脂肪和糖之間的轉化,還沒商業化的藥劑可以中止或抑制!這其中,單醣是直接被消耗的,多醣都要被水解為單醣才能被利用。這就好像燒煤肯定要燒散煤,...