kmeans之前的資料標準 歸一化有什麼區別?

時間 2021-06-23 22:57:21

1樓:jinzhao

首先要了解概念之間的差異,做kmeans之前需要標準化!

中心化:去量綱影響

z:讓資料分布更加合理

標準化:在中心化基礎上進行z變換,所以,去量綱,讓分布更加合理。

所以,要基於需求來處理資料。

1、資料的中心化

所謂資料的中心化是指資料集中的各項資料減去資料集的均值。

例如有資料集1, 2, 3, 6, 3,其均值為3

那麼中心化之後的資料集為1-3,2-3,3-3,6-3,3-3,即:-2,-1,0,3,0

2、資料的標準化

所謂資料的標準化是指中心化之後的資料在除以資料集的標準差,即資料集中的各項資料減去資料集的均值再除以資料集的標準差。

例如有資料集1, 2, 3, 6, 3,其均值為3,其標準差為1.87

那麼標準化之後的資料集為(1-3)/1.87,(2-3)/1.87,(3-3)/1.

87,(6-3)/1.87,(3-3)/1.87,即:

-1.069,-0.535,0,1.

604,0

資料中心化和標準化的意義是一樣的,為了消除量綱對資料結構的影響。

在R語言中可以使用scale方法來對資料進行中心化和標準化:

data <- c(1, 2, 3, 6, 3)

> scale(data, center=T,scale=F)

[,1] [1,] -2 [2,] -1 [3,] 0 [4,] 3 [5,] 0

attr(,"scaled:center")

[1] 3

> scale(data, center=T,scale=T)

[1,] -1.06904 [2,] -0.53452 [3,] 0.00000 [4,] 1.60357 [5,] 0.00000

attr(,"scaled:center")

[1] 3

attr(,"scaled:scale")

[1] 1.8708

關注個人主頁,更多知識

知乎使用者

如何在EXCL中把相同資料,歸在一起?

進步使我快樂 可以用EXCEL公式textjoin 函式與if 函式實現如下圖1.在E1單元格輸入公式 TEXTJOIN 1,IF A1 A15 D1,B1 B15,按Ctrl Shift Enter三鍵合一,對一組資料進行運算提示 三個鍵同時按下公式會自動出現中括號括住,不是手動輸入中括號 下拉填...

k means是不是乙個很沒用的演算法?

SmoothNLP 很有用,但是無監督的演算法與有監督不同,仁者見仁,智者見智.有監督可以通過粗暴的Cross Validation來驗證效果.無監督的聚類就很難了 同時,Kmean的應用需要一些Assumption的滿足,這一性質,侷限了Kmean很多時候能跑出結果,但是結果不好,但這並不代表著是...

如何把乙個之前看的很重的朋友從心裡給她歸屬到普通朋友?

小嘟嘟 擺脫依賴,拿得起放得下。把生活的重心放在自己身上。努力學習,努力工作,努力進步。你應該重新認識和對待乙個新朋友,那就是你自己。世界是自己的與他人毫無關係。驀然回首,不過如此。呵呵。 passer by 這個朋友傷了你的心吧。我之前高中時有乙個特別好的朋友,大學沒有在乙個城市,漸漸就斷了聯絡,...