什麼是稀疏特徵 Sparse Features

時間 2021-05-06 10:05:44

1樓:

首先什麼是稀疏特徵?在這之前先看看稀疏表示

從乙個簡單的例子說起,相信大多數人學過線性代數或者矩陣論之類的課程吧,再線性代數中,最初始的時候就會學到關於如何判斷一大堆向量線性的相關或者不相關性,進而確定一組線性無關組。這裡比如說空間中乙個向量X是乙個三維座標點吧,用(x,y,z)表示。假設現在有一堆點X1(1,0,0);X2(0,1,0);X3(0,0,1);X4(4,3,5);X5(2,1,4)……等等吧,那麼我們是不是可以找到這一大堆向量的最大線性無關組其實就可以用X1,X2,X3來表示,其他的任何向量Xi都可以用這三個向量來線性表示,當然用X1,X2,X3來表示任何乙個向量來表示是最簡單情況,你乙個向量同樣可以用X1,X2,X3,X4,X5來表示,不過這個多兩個待確定係數而已。

好了現在假設我們已知有X1~X10這十個向量,那麼同空間中有乙個向量我們就可以用X1~X10這十個向量線性表示,就有10個待確定係數。但是我們事先是知道乙個向量只需要用X1,X2,X3來表示即可了,那麼我們可以讓上面需要確定的10個引數中的後7個引數約束為0即可,那麼其實這個過程就是一種稀疏表示思想。

可以看出稀疏表示就是找到空間中的一組基,用這組基可以擴充套件到空間中的任何向量。

稀疏表示的好處在於降低表示複雜度,更直白的原因其實就是減少係數引數,通過稀疏表示,可以充分發揮資料所含有的資訊,去掉冗餘的資料資訊,達到最大化利用資料,這一點是非常重要的。

被稀疏表示的特徵即是稀疏特徵。

參考:深度學習系列(四):什麼是稀疏編碼 - CSDN部落格

2樓:周培

請問,對於分類問題,對提取的影象特徵採用稀疏編碼的方法,首先得到稀疏字典,然後得到稀疏係數矩陣,那麼接下來,如何使用這些稀疏稀疏矩陣進行分類呢??

3樓:

我來舉個具體的例子吧 ! 我們將每個樣本表示成乙個10000維的向量 ,

下面是某個樣本的向量表示:

0 123:0.122519644924 2097:0.0707110935549

0代表類別標籤 , 123和2097就是feature index , 後面的數就是特徵表達

也就是說這個向量在123和2097維上有資料其餘都是0 假如每個維度上都有值 , 本來是在10000個維度上來表達這個樣本, 而現在只有兩個維度上有效地表達了這個樣本, 你說, 特徵是不是超級稀疏啊

4樓:

feature index is much larger than the actual number of non zero features.

特徵稀疏是指特徵值過多還是過少?

特徵稀疏常指的是特徵裡0值或者空值較多,常用定義填充率5 以下 資料量較大時 但是特徵稀疏和模型效果好壞其實沒有絕對線性的關係。所以一般不從模型效果的角度來劃分特徵是否稀疏,而是引入填充率之類的概念。當然,如果你資料規模較小,空值又比較多的時候,模型效果多半會差一些。但是當你資料規模變大,到了十萬百...

為何稀疏特徵不適合使用樹演算法?

沒有完全看懂題意,只能按照思路闡述一下。其實onehot編碼對樹模型對意義不是很大,更多的時候是和邏輯回歸等線性模型配合。從樹模型的原理上來理解,你做了onehot,假設獲取了乙個分類器叫做A1 0 A1 1,和原來的A value1 A value2,value3,並沒有本質性的區別。優勢 1.把...

稀疏表達的意義在於?為什麼稀疏表達得到廣泛的應用?

其實,稀疏表達的根本意義在於,稀疏性,或者說低複雜度,是物理世界的普遍特徵。愛因斯坦曾經提出過著名的疑問,為什麼我們的世界是可理解的?原因其實就在於我們的物理世界本質是低複雜度的,可以被有效的建模表述。學過量子力學的人都知道,一般的量子系統狀態是高複雜度的,而實際上我們考慮的只是量子系統的狀態空間的...