推薦系統或者ctr預估中，如何區分或者如何定義高頻低頻特徵有通用的閾值區分嗎？

1樓：失落的薩特

問題中的頻率的定義是什麼。

比如在樣本中出現的次數？特徵非空非零值的覆蓋度？還是對於正負樣本的區分度？

比如實際情況會考慮的，乙個是特徵的覆蓋度，即非空非零的樣本比例，如果覆蓋度太低那麼這個特徵對於大部分樣本的學習沒有任何幫助；乙個是這個特徵的區分度，即這個特徵能不能把待排序的樣本區分開來。比如使用者的年齡性別購買力，對於給某個使用者展示的待排序商品來說，這些特徵都是一樣的，對於正負樣本的區分度上就可能弱於一些商品側的特徵 (使用者側特徵在網路中會和其他特徵做非線性加權和，所以對打分的嚴格的影響是不好估計的，這裡只是指經驗上的區分度）。

2樓：冰茶配美心

區分高頻或者低頻特徵的目的是什麼呢？

如果只是想做特徵工程直接分箱就行了

如果想挑特徵，直接用GBDT等整合樹列印一下特徵重要性就行了

3樓：南宮焱

這個其實主要是從業務理解出發的。沒有乙個通用的閾值。你其實可以算一下每個特徵的chi-square value，這個其實可以看到的是特徵的重要性以及在正負樣本裡面的偏差。

我個人認為從資料上定義高頻和低頻可能會和業務上有一些差距，畢竟不管什麼模型最後都是要用在業務上的。

4樓：人形Machine

這個區分不知道你的目的是啥，這個需要一些玄學的東西。比如從產品業務邏輯出發，根據使用者行為週期劃分，週期內的高頻，跨週期的低頻。

推薦系統或者ctr預估中，如何區分或者如何定義高頻低頻特徵有通用的閾值區分嗎？

如何用通俗的語言解釋CTR和推薦系統中常用的Feature Hashing技術以及其對應的優缺點？

推薦系統中如何做 User Embedding？

如何正確看待內部推薦或者走後門？兩者有何區別？公平麼？

其他用戶還看了：

推薦系統或者ctr預估中，如何區分或者如何定義高頻低頻特徵 有通用的閾值區分嗎？

如何用通俗的語言解釋CTR和推薦系統中常用的Feature Hashing技術以及其對應的優缺點？

推薦系統中如何做 User Embedding？

如何正確看待內部推薦或者走後門？兩者有何區別？公平麼？

其他用戶還看了：

推薦系統或者ctr預估中，如何區分或者如何定義高頻低頻特徵有通用的閾值區分嗎？