皮爾遜係數為什麼要中心化?中心化之後有什麼好處?

時間 2022-01-15 00:34:55

1樓:華天清

我試著從工程的角度回答一下,不正面回答,只是想借助這個問題串一串相關知識。從而感受一下這些理論問題都來自於工程。

開發推薦引擎是我的工作的一部分,余弦相似度和皮爾遜係數都用,認為在大部分資料特徵下是一樣的,反正推薦引擎只是想得到乙個相對比較從而排序。

在學習線性代數的時候,我們被反覆告知:理論上可以怎麼計算;手算的時候應該怎麼計算;計算機算的時候應該怎麼計算。分不清楚不行。

單從計算機來說,計算機從多個方面引入巨大誤差,並且積累的十分可怕:

第一:進製的差別,現實中的十進位制和計算機的二進位制之間的誤差是無法彌補的

第二:在計算機中小數使用浮點數和雙精度,當兩個數的位數相差巨大的時候,小的完全被掩蓋

第三:計算機位數有限造成的擷取誤差

學習向量內積的時候,會學到余弦相似度,當學到最小二乘法和線性回歸的時候,就會學到mean-deviation form,就是皮爾遜係數那樣減去乙個平均值,當學到內積空間的時候,就會覺得這也平常,度量本來就是可以設計各種各樣的度量函式,減去乙個平均值,在工程上有那麼大的好處,為什麼不做呢。

所以,我想說,接這個問題串一串相關知識,很好!

2樓:TniL

這種問題沒必要過度解讀,cosine相似度和Pearson係數就是形式上有關聯(觀測資料標準化以後二者相等),但是出發點是完全不同的。

Pearson係數在定義上就是兩個隨機變數的協方差,用二者的標準差歸一化消除量綱影響。如果要問為什麼Pearson係數需要中心化,實際上就是問為什麼協方差的定義中要減去期望,為什麼標準差的定義中要減去期望。

題主可以把這兩個問題複製給身邊統計背景的朋友,看看他們會不會打死你。

3樓:晨晨晨118

今天我也碰到了,這一問題,經過一番思考,有了一點結論。

比如說有兩個向量x和y,他們之間的余弦相關係數為x'*y/norm(x)/norm(y)

生成兩個隨機變數x=randn(1,10000)和y=randn(1,10000)。計算余弦相關係數和皮爾遜相關係數均為-0.0087

生成新的兩個隨機變數x=randn(1,10000)+1和y=randn(1,10000)+2那他們計算余弦相關係數和皮爾遜相關係數分別為0.6284和0.0093。

因為我們更關注變化的相互關係,皮爾遜係數對相關係數進行了中心化可以有效避免因為同偏差帶來的影響。

去中心化和中心化的具體概念求科普?

周遊列國 中心化就是有個老大,遇到事兒老大說了算。老大說了算有個問題,萬一老大掛了呢,豈不就亂套了,所以中心化一般會有乙個老大,再配上幾個老二,老大掛了,從老二中選出新老大。去中心化就是沒有老大,遇到事兒,大家說了算,最終達成共識。 馬蹄達達 中心化就是你的零花錢只能來自你媽媽,去中心化就是你的零花...

怎麼看待中心化和去中心化的關係?

去中心化和中心化是兩種不同的資訊處理方式,適應環境不同,各有獨自的應用場景,之間沒有替代關係,不能說誰更先進。只不過去中心化出現的比較晚,但這只是新,不代表先進。 鍵盤俠 絕對的去中心化,等於絕對的中心化。它的核心是降低信任成本。人與人連線的成本降低後,利潤有多大?對不起,你想不到,我也想不到。總之...

什麼是中心化和去中心化?是否存在乙個準確定義?對某款網際網路產品的使用者來說,使用者網路結構的中心化 去中心化有什麼重大意義?

周宇翔 中心化 教會模式 人們向教會繳納善款,款項資金由教會支配。去中心化 互助會模式 每個人都可以訴說自己與傾聽他人,繳納的會費用於互助會建設和獎勵互助會中的成員。 沉底的蠍子 在網際網路中無論人有多自由你都無法實現去中心化,最多你去的只是虛擬世界的中心,但是物理層面的中心還是牢牢存在著的。只要網...