能不能用白話解析一下為什麼LSA利用SVD後可以得到隱藏的語義關係?

時間 2021-06-01 12:31:06

1樓:張大帥

可以從資訊壓縮這個角度來理解:

詞構成了文章,大坨的文章放在一起,反映了很多資訊,比如有『籃球』這個語意概念,那麼描述籃球的文章就會經常出現nba、3分、後衛等等詞。

這個詞在這個文章裡出現了這些次,同時那些詞在那些文章裡出現了那些次,這些詞和那些次共同出現了多少次,這個文章和那個文章有好多詞是相同的……

這一大坨資訊,其實可以壓縮起來,去冗存精。假設有10萬個詞,我可以壓縮成100個語意,每個詞到這個語意通過乙個變換關係去計算。同樣,無論多少篇文章,都在講這100個語意的組合,可以壓縮成這100個語意的表示。

那麼如何壓縮呢?

這就輪到svd登場了,svd之前的矩陣,行是詞,列是文章,值就是出現多少次,這個矩陣完全描述了我上面說的資訊。這個矩陣非常挫,因為他用每個詞都表示乙個語意,有多少詞就有多少語意。

然後,就要壓縮這個資訊了。假如我能用乙個小矩陣,基本表達大矩陣的主要資訊,資訊還不會損失很多,這不就壓縮了嗎。怎麼做呢?

矩陣雖大,卻不是所有元素都有用的。我們做svd分解,保留奇異值大的那些,就是保留了矩陣最主要的資訊。相應的,就保留了最主要的語意。

保留多少個奇異值,就可以看做是壓縮成多少個語意。

其實所有的機器學習模型和演算法都可以理解為對資訊的壓縮,把大量的樣本壓縮成一組引數。壓縮之後的資訊可以看做是對資料的抽象、提煉,就像我們人從種種自然現象和實驗中總結出公式定理一樣。

在LSI這裡,svd分解就是使用的壓縮手段。

2樓:

就是講幾個詞經常一起出現,就認為他們是相似的。表現在矩陣上面就是兩個詞的有些線性相關,所以在做矩陣分解的時候,若以奇異值向量作為基,他們的座標就會比較靠近

能不能用簡單通俗的方式解釋一下耳機的解析力,素質,動態,瞬態等等這些東西?

賣核彈的小女孩 解析力顧名思義就是這個耳機能不能把所有的聲音都表現出來,這裡說一下低頻多的耳機解析一般不會太好,除非那種上w的耳機。素質跟解析力差不多。動態就是聲音的輕重緩急程度,一定時間內聲音大小的變換程度,這個指標非常容易聽的出來,並且聽動態好的耳機會非常非常爽,甚至還會後背起雞皮疙瘩,瞬態就你...

了解翡翠的能不能幫忙解釋一下為什麼會出現這種現象?

翡翠從業者 如果是天然的東西不存在會有什麼很顯眼的變化 應該是題主的心理作用 還有一種可能就是上面的蠟掉的多,給人感覺光澤變弱 對於天然翡翠來說,其化學性質相對穩定,如果沒有受到強腐蝕性物質的侵蝕或者遭受碰撞 汙染等,其內部結構一般不會發生改變。單是拿顏色來說,在平時注意保養的同時,人體分泌的汗液 ...

能不能用客觀的態度評價一下NFHIFI腦放君及其眾籌的耳機產品或者所謂的「腦放事件」?

嗯哼 拿到了藍閃。做工比任何品牌的耳機差到無語,背殼容易掉落耳機沾合倆不對稱掉漆插頭用幾次就鬆動溢膠還有幾毛錢成本的塞子就三對好像金屬網脫落水筆痕跡 小廠的產品唉魅族的那個耳機雖然召回了,但音質品控都是不錯的 已登出 我認為他初心想做個好耳機出來,但自身忽視了耳機研發的技術門檻,從他B站直播的內容來...