如何看待one hot稀疏表達和embedding稠密表達?

時間 2021-05-06 07:35:51

1樓:二姑娘

簡單地說 embedding 從維度和語義上都要優於one-hot.

One-hot 這種向量的稀疏表達,它的功能也就真的只限於表達, representation。 就是乙個字或者單詞輸入到乙個model的一種形式。一般來說你的vocabulary 有多大, 乙個向量就有多長。

在任何演算法裡都是非常沒有效率的,且緯度高了的時候就有高緯度的各種問題 (curse of dimensionality)。one-hot 這種表達也不能抓住語義上的相似, 比如 big 和huge 在文字裡是意義非常相近的單詞, 但是one-hot中他們是正交的, 要借助於其他的輸入Features(比如tf-idf什麼的) 來獲得語義。

embedding 就不一樣了, 他是單詞或字的一種latent representation。它的每乙個維度在他的空間內都是有意義的。 這樣 big 和huge 這兩個向量的distance 就非常相近了。

而且,embedding的維度一般都相對很小(100-300)。

其他方式的稠密表達比如hash出來的或者編碼出來的, 就看編碼過程是怎樣的。一般來說語義上是沒有優勢的,只是在維度上小了很多。

2樓:天雨粟

上面幾個回答對Word2Vec已經解釋地很清楚了。

Word2Vec的稠密向量化表示能夠捕捉到單詞語義上的含義,在高維空間下是可以進行向量之間的運算並且能夠相對準確的衡量出詞與詞之間的相似性。這跟Word2Vec本身的訓練有關係,無論是Skip-Gram還是CBOW,其本質都是基於word與context的關係進行模型訓練。

題主所提到的二進位制稠密表示,假設1024個單詞的話,最稠密化的10維表示,它是沒辦法對單詞語義之間的相似性進行衡量的。舉個例子,假如10維向量,其中向量只有乙個分量為1的向量有10個單詞,對吧,比如(1,0,0,0,0,0,0,0,0,0,0),(0,1,0,0,0,0,0,0,0,0,0),(0,0,1,0,0,0,0,0,0,0,0)等,那麼這10個單詞之間兩兩的余弦相似度是不是一毛一樣,這個時候怎麼衡量這10個單詞的語義關係?這時候就體現出Word2Vec高維表徵的優勢,能夠盡最大可能地保留單詞本身的含義。

總的來看,Word2Vec這種Representation learning的方式適用於需要語義特徵的情景,幾乎現在NLP的熱門領域都會用到,無論是詞與詞的相似度計算,還是Machine Translation,還是自動問答系統,在訓練Seq2Seq這種模型時候都會在OHE的基礎上加一層Embedding,這些模型都需要在網路內部做語義學習。而二進位制的稠密表達更適合資訊的編碼壓縮吧,不過這麼說是不是Huffman樹更適合這種場景呢?

3樓:小小將

對於深度學習模型來說,其實one hot編碼和embedding編碼差別不是太大了吧,如果one hot編碼可能前面幾層起到embedding的作用。當然如果使用word2vec等預訓練詞向量送入模型可能效果會好一些。個人看法。

4樓:

embedding的向量本身是有語義上的意義的,比如這樣:

當然通常不太會有這麼明顯的可解釋性,但是embedding向量的余弦相似度,確實是可以表示兩個詞在語義上的相似性的——如果是one-hot顯然就做不到了(因為彼此是正交的)。

然後embedding的詞向量一般是通過神經網路在語料庫上訓練的。比較常見的有CBOW模型:

以及Skip-gram模型:

PaddlePaddle - Book

一般來說,一些簡單的分類任務,使用SVM之類的模型即可完成的那些,也可以使用one-hot模型,基於雜湊表儲存的詞向量也不一定會佔據很大的空間。不過如果需要衡量詞與詞之間在語義上的相似性,那就需要使用embedding的詞向量了。

如何表達愛和如何感受別人的愛?

淫字論事不論心,論心千古無完人。孝字論心不論事,論事萬年無孝子。去做就完事了,別人能看見,接不接受也是別人的事情。感受別人的愛也是一樣的,你看到他 她 為你付出了多少,你就能感受到他 她 愛你多少。最後一條著重要,一定要真誠,這樣你才能開啟心扉去愛別人,也能感受到別人進入你的心裡。一定要小心,不要被...

如何提高分析和表達能力?

心理諮詢師武自存 提供分析能力方面我不懂,但提高表達能力方面我有些小學習收穫想跟你分享 表達的要點我個人感覺是清晰,簡潔,那麼想要清晰的表達自己,就得在表達之前能清晰的覺察清楚自己的感受,需求,觀點,期待和渴望,然後表達的時候考慮到自己,對方和情景,這樣就能簡潔,清晰,有力的表達自己了,當然平時要多...

如何擺脫諷刺和挖苦的表達習慣?

羅顥譯 內心深處什麼在作祟呢?確實,搞清楚這一點就好辦了。無法,也不應該直接給出答案,建議乙個思考線索。這個線索就是我們行為背後的驅力 情緒。細細體會那樣對人時所表達的情緒,如果這種情緒不是當前的人和事引起的,那麼,是從那裡積累或者轉移來的?是某些人讓你很想這樣對待而不能 不敢?還是整個的生活狀況讓...