t sne資料視覺化演算法的作用是啥?為了降維還是認識資料?

時間 2021-05-11 23:26:23

1樓:

用於視覺化,以直觀地了解資料的結構,比如資料大致聚成幾團,哪些資料聚成一團,哪些團比較近,等等。

在無監督情況下資料沒有標籤,不能算指標靠視覺化來看。

當資料各特徵間存在高度的線性相關,這時你可能首先會想到使用對資料進行降維處理,但是是一種線性演算法,它不能解釋特徵之間的複雜多項式關係,而(t-distributed stochastic neighbor embedding)是一種用於挖掘高維資料的非線性降維演算法,它能夠將多維資料對映到二維或三維空間中,因此非常適用於高維資料的視覺化操作

2樓:

t-sne可以視覺化演算法的分類效果

對於卷積網路來說,你可以取出倒數幾層的特徵值,使用T-SNE將這些特徵值,降到2維或者3維度,就可以看到你上面的這個圖

3樓:微調

拿我比較了解的無監督學習來說,t-SNE的乙個用處是:通過視覺直觀驗證演算法有效性,或者說是演算法評估。因為在這種情況下資料沒有標籤,無法很好的驗證結果。

比如下面兩幅圖中,作者都使用了t-SNE來把高維資料壓縮到2維空間上來證明演算法的有效性。值得一提的是,t-SNE是少數可以同時考慮資料全域性區域性關係的演算法,在很多聚類問題上的效果都不錯。

Micenková, B., McWilliams, B. and Assent, I.

2015. Learning Representations for Outlier Detection on a Budget. arXiv Prepr.

而將tSNE直接用於降維,並後接分類器比較少見,我認為原因有:

當我們意識到需要降維時,一般是發現了特徵間的高度線性相關,而t-SNE主打的是非線性降維。如果我們發現了線性相關,可能用PCA處理就可以了。即使發現了「非線性相關性」,我們也不會嘗試用t-SNE降維再搭配乙個線性分類模型,而會直接選擇非線性的分類模型去處理。

複雜的非線性關係不適合強行降維再做分類,而應該用非線性模型直接處理。如果是高度稀疏的矩陣,也有適合的分類器直接用,也沒必要降維。

其次t-SNE的t指的是Student-tdistribution,而一般t-SNE最多就是用於2維或者3維上視覺化。我們知道一般的降維不僅僅是降維到2或者3個特徵,而可能是從100降到20個特徵之類的,在這種情況下可能要用更大的自由度(degree of freedom),效果還未知。

其次是t-SNE的運算開銷比較大 非線性,經過了優化的話可以達到 。同時t-SNE的代價函式非凸,可能得到區域性最優。

t-SNE的核心思想就是保證在低維上資料的分布與原始特徵空間的分布相似性高。而相似性度量是依賴於KL散度以及計算歐式距離並概率化。換句話說,它依然受到維度災難的影響,如果在低維空間上本身不存在區分度或者高維空間中歐式距離差別很小的話,效果也不好。

什麼是維度災難可以參考:微調:怎樣理解 Curse of Dimensionality(維數災難)?

t-SNE的調參比較複雜,尤其是perplexity這個引數的影響還是比較明顯的,所以依賴於t-SNE來進行維度壓縮並不容易有穩定結果。調參可以看:How to Use t-SNE Effectively

總體而言,t-SNE應該比較適合視覺化,了解和驗證資料或者模型。至於降維的話,還有很多侷限性有待解決。遇到複雜資料,選用非線性的分類器可能效果更好。

4樓:幸福就好

這張圖應該是用t-SNE做的手寫體,降維分類,t-SNE是一種降維演算法,它能從任意維度(n)降到任意維度(如果t-SNE用來對無監督資料進行降維,降維後結果為其聚類,可以通過二維結果分析高維空間資料,對無監督學習常用的評價指標有DB指標、Dunn指標,輪廓係數。

個人看法,望能提供些許幫助,如有錯誤,十分抱歉,也懇請指出,我會虛心學習。

5樓:徐志強

t-sne是流行學習的一種,屬於非線性降維的一種,主要是保證高維空間中相似的資料點在低維空間中盡量挨得近。是從sne演化而來,sne中用高斯分布衡量高維和地位空間資料點之間的相似性,t-sne主要是為了解決sne中的「擁擠問題」,用t分布定義低維空間低維空間中點的相似性。但是t-sne不能算是一種通用的降維方法吧,時間複雜度也挺高的。

知識圖譜視覺化比正常資料視覺化有什麼優勢

DatasPM 圖挖掘,圖演算法的結合,可以更好的做出決策,談不上優勢,知識圖譜視覺化特別適合關係資料的挖掘與分析,其他的視覺化圖形無法表達關係。 郝海清 我嘗試把這個問題分解下,如果問題中 知識圖譜視覺化 指的是我們看到的視覺化網路圖的話,那要弄清這個問題可能先需要回答這兩個問題 1 知識圖譜與視...

資料視覺化的研究方向都有哪些?

想清楚了,視覺化對找工作幾乎沒有幫助。做的東西廣而不精,而且其實難度很大,涉及到很多二維平面的計算幾何。講起來也沒有優勢,並不像傳統理工科那種能帶來數值指標上的提公升。找工作的時候也很費勁,對口的真的不多。典型的費力不討好,勸退。 郭不耐 從學術角度可以分地理資訊視覺化 空間網路視覺化 圖分析視覺化...

如何選擇合適的資料視覺化軟體?

乙隻物聯網鯨魚 可以嘗試使用圖撲軟體 Hightopo 基於 HTML5 標準技術的 Web 前端 2D 和 3D 圖形介面開發框架,擁有自主研發的視覺化軟體,泛用於工業物聯網場景的 B S 模式,支援 2D 3D 圖形組態。兼備了國外視覺化輕量跨平台操作的優秀特點,可與企業自有系統無縫整合,輕鬆將...