特徵稀疏是指特徵值過多還是過少?

時間 2022-01-02 19:29:22

1樓:南宮焱

特徵稀疏常指的是特徵裡0值或者空值較多,常用定義填充率5%以下(資料量較大時)。

但是特徵稀疏和模型效果好壞其實沒有絕對線性的關係。所以一般不從模型效果的角度來劃分特徵是否稀疏,而是引入填充率之類的概念。

當然,如果你資料規模較小,空值又比較多的時候,模型效果多半會差一些。但是當你資料規模變大,到了十萬百萬的量級,再做乙個onehot之類的編碼時,基本上每個特徵都是稀疏的了。

如果你的模型不能很好的處理稀疏特徵,可以考慮embedding之類的方案,把每個樣本變成乙個低維稠密的向量,提公升你模型的效果。

2樓:

稀疏一般有兩個含義。

乙個是資料的表達方式,稠密的表達方式和稀疏表達方式,相同的乙份資料,用兩種不同的表達方式所需要的儲存空間,處理方式都有所不同;

另外乙個含義是特徵的覆蓋率,例如1w個使用者,某個x的覆蓋率只有1%,那就可以說是很稀疏的特徵了。

你的表述裡面,1和特徵稀疏沒有關係,是特徵區分度的問題;2的表述裡面,全零很多,不代表本身資料是缺失的,也和稀疏沒啥關係。

3樓:GuoXun

特徵稀疏是指特徵下的有效值少,空值多。特徵0很多情況下,有沒有效果,看你的場景。如果是搜推廣場景的話,資料規模大,周期長的話,處理一下還是有效果的。

為什麼要研究矩陣的特徵值和特徵向量?

特徵分解是矩陣代數裡面非常重要的一種分解方法。當然脫離應用就有點說不明白。大學裡很多教書的也只是照本宣科,所以導致大家都會算特徵值,特徵向量。但是還是不太明白這些到底是個啥?後來接觸機器學習演算法才算有一些了解。特徵分解應該說是一種簡化線性演算法。比如Ax lambda x,A是矩陣,矩陣在任意應用...

如何用幾何方法算特徵值和特徵向量?

Alucart 我對幾何方法的理解是 不依靠特徵多項式進行計算的方法。稍微改一下題裡的符號 用 代表所有元素都是1的矩陣,也就是題中的那個 則原題中的矩陣可視作 首先,注意到 的秩為1,則由零度 秩定理,那麼任取非零向量 都有 因此,2是乙個特徵值,且特徵子空間 進一步地,可證明如果 那麼 故 也就...

什麼是稀疏特徵 Sparse Features

首先什麼是稀疏特徵?在這之前先看看稀疏表示。從乙個簡單的例子說起,相信大多數人學過線性代數或者矩陣論之類的課程吧,再線性代數中,最初始的時候就會學到關於如何判斷一大堆向量線性的相關或者不相關性,進而確定一組線性無關組。這裡比如說空間中乙個向量X是乙個三維座標點吧,用 x,y,z 表示。假設現在有一堆...