推薦系統或者ctr預估中,如何區分或者如何定義高頻低頻特徵 有通用的閾值區分嗎?

時間 2021-06-05 04:16:22

1樓:失落的薩特

問題中的頻率的定義是什麼。

比如在樣本中出現的次數?特徵非空非零值的覆蓋度?還是對於正負樣本的區分度?

比如實際情況會考慮的,乙個是特徵的覆蓋度,即非空非零的樣本比例,如果覆蓋度太低那麼這個特徵對於大部分樣本的學習沒有任何幫助;乙個是這個特徵的區分度,即這個特徵能不能把待排序的樣本區分開來。比如使用者的年齡性別購買力,對於給某個使用者展示的待排序商品來說,這些特徵都是一樣的,對於正負樣本的區分度上就可能弱於一些商品側的特徵 (使用者側特徵在網路中會和其他特徵做非線性加權和,所以對打分的嚴格的影響是不好估計的,這裡只是指經驗上的區分度)。

2樓:冰茶配美心

區分高頻或者低頻特徵的目的是什麼呢?

如果只是想做特徵工程直接分箱就行了

如果想挑特徵,直接用GBDT等整合樹列印一下特徵重要性就行了

3樓:南宮焱

這個其實主要是從業務理解出發的。沒有乙個通用的閾值。你其實可以算一下每個特徵的chi-square value,這個其實可以看到的是特徵的重要性以及在正負樣本裡面的偏差。

我個人認為從資料上定義高頻和低頻可能會和業務上有一些差距,畢竟不管什麼模型最後都是要用在業務上的。

4樓:人形Machine

這個區分不知道你的目的是啥,這個需要一些玄學的東西。比如從產品業務邏輯出發,根據使用者行為週期劃分,週期內的高頻,跨週期的低頻。

如何用通俗的語言解釋CTR和推薦系統中常用的Feature Hashing技術以及其對應的優缺點?

最近恰好看到這個,也看到了些比較好的回答,整理搬運一下吧。推薦系統中含有大量大量categorical,無法直接用LR模型。再次,ctr領域或者說高維大資料領域,資料集或多或少的存在稀疏問題。主流ML庫都會實現一套稀疏矩陣,應對該問題。feature hashing又稱feature trick,類...

推薦系統中如何做 User Embedding?

朱果汁 社交網路領域會用到很多對user進行embedding的方法,需要使用者與使用者之間的關聯資訊 比如共同參與活動或者是互相關注 生成使用者的網路以後來進行embedding。 Louis 1.根據pretrain的item的embed,weighted pooling user的embed ...

如何正確看待內部推薦或者走後門?兩者有何區別?公平麼?

北極 內推或者俗稱的走後門向來是被奉為價效比最高的求職方法,走後門也是常常被眾人不齒的方法,該如何看待這些方法的公平性和合理性?題主還是乙個學生吧?先糾正幾個觀點 首先,內推也是要經過面試筆試的。其次,內推也不是一定會成功的。並且內推也不是隨便什麼人都能推薦,推薦人在提交簡歷的時候肯定會用腦子想想合...