1樓:jinzhao
首先要了解概念之間的差異,做kmeans之前需要標準化!
中心化:去量綱影響
z:讓資料分布更加合理
標準化:在中心化基礎上進行z變換,所以,去量綱,讓分布更加合理。
所以,要基於需求來處理資料。
1、資料的中心化
所謂資料的中心化是指資料集中的各項資料減去資料集的均值。
例如有資料集1, 2, 3, 6, 3,其均值為3
那麼中心化之後的資料集為1-3,2-3,3-3,6-3,3-3,即:-2,-1,0,3,0
2、資料的標準化
所謂資料的標準化是指中心化之後的資料在除以資料集的標準差,即資料集中的各項資料減去資料集的均值再除以資料集的標準差。
例如有資料集1, 2, 3, 6, 3,其均值為3,其標準差為1.87
那麼標準化之後的資料集為(1-3)/1.87,(2-3)/1.87,(3-3)/1.
87,(6-3)/1.87,(3-3)/1.87,即:
-1.069,-0.535,0,1.
604,0
資料中心化和標準化的意義是一樣的,為了消除量綱對資料結構的影響。
在R語言中可以使用scale方法來對資料進行中心化和標準化:
data <- c(1, 2, 3, 6, 3)
> scale(data, center=T,scale=F)
[,1] [1,] -2 [2,] -1 [3,] 0 [4,] 3 [5,] 0
attr(,"scaled:center")
[1] 3
> scale(data, center=T,scale=T)
[1,] -1.06904 [2,] -0.53452 [3,] 0.00000 [4,] 1.60357 [5,] 0.00000
attr(,"scaled:center")
[1] 3
attr(,"scaled:scale")
[1] 1.8708
關注個人主頁,更多知識
知乎使用者
如何在EXCL中把相同資料,歸在一起?
進步使我快樂 可以用EXCEL公式textjoin 函式與if 函式實現如下圖1.在E1單元格輸入公式 TEXTJOIN 1,IF A1 A15 D1,B1 B15,按Ctrl Shift Enter三鍵合一,對一組資料進行運算提示 三個鍵同時按下公式會自動出現中括號括住,不是手動輸入中括號 下拉填...
k means是不是乙個很沒用的演算法?
SmoothNLP 很有用,但是無監督的演算法與有監督不同,仁者見仁,智者見智.有監督可以通過粗暴的Cross Validation來驗證效果.無監督的聚類就很難了 同時,Kmean的應用需要一些Assumption的滿足,這一性質,侷限了Kmean很多時候能跑出結果,但是結果不好,但這並不代表著是...
如何把乙個之前看的很重的朋友從心裡給她歸屬到普通朋友?
小嘟嘟 擺脫依賴,拿得起放得下。把生活的重心放在自己身上。努力學習,努力工作,努力進步。你應該重新認識和對待乙個新朋友,那就是你自己。世界是自己的與他人毫無關係。驀然回首,不過如此。呵呵。 passer by 這個朋友傷了你的心吧。我之前高中時有乙個特別好的朋友,大學沒有在乙個城市,漸漸就斷了聯絡,...