CTR預估模型有怎樣的發展規律?

時間 2021-05-06 09:56:32

1樓:天雨粟

從上往下,代表了整個CTR預估的發展趨勢:

LR的主要限制在於需要大量手動特徵工程來間接提高模型表達,此時出現了兩個發展方向:以FM為代表的端到端的隱向量學習方式,通過embedding來學習二階交叉特徵

以GBDT+LR為代表的兩階段模型,第一階段利用樹模型優勢自動化提取高階特徵交叉,第二階段交由LR進行最終的學習

以FM為結點,出現了兩個方向:以FFM與AFM為代表的淺層模型改進。這兩個模型本質上還是學習低階交叉特徵,只是在FM基礎上為不同的交叉特徵賦予的不同重要度

深度學習時代到來,依附於DNN高階交叉特徵能力的Embedding+MLP結構開始流行

以Embedding+MLP為結點:Embedding層的改造+DNN進行高階隱式學習,出現了以PNN、NFM為代表的product layer、bi-interaction layer等淺層改進,這一類模型都是對embedding層進行改造來提高模型在淺層表達,減輕後續DNN的學習負擔

以W&D和DeepFM為代表的雙路模型結構,將各個子模組演算法的優勢進行互補,例如DeepFM結合了FM的低階交叉資訊和DNN的高階交叉資訊學習能力

顯式高階特徵交叉網路的提出,這一階段以更複雜的網路方式來進行顯式交叉特徵的學習,例如DCN的CrossNet、xDeepFM的CIN、AutoInt的Multi-head Self-attention結構。

從整個巨集觀趨勢來看,每一階段新演算法的提出都是在不斷去提公升模型的表達能力,從二階交叉,到高階隱式交叉,再到如今的高階顯示交叉,模型對於原始資訊的學習方式越來越複雜的同時,也越來越準確。

這些模型之間有共性也有區別:

當然在CTR發展過程中,還有諸如阿里MLR(混合邏輯回歸)、DIN、DIEN等優秀的模型,文中並沒有具體去描述。例如DIN也是屬於embedding+MLP的模型,但通過了引入attention讓模型自己去學習local interest activation,本質上也是在增加模型的表達能力。

天雨粟:CTR預估模型發展過程與關係圖譜

2樓:yoccoy

本質上就是對特徵的表達越來越精細

傳統的機器模型,接收的一般是普通的連續特徵,但是實際問題中很多特徵都是Categorical的。針對Categorical的特徵,傳統的解決方式是one-hot,但是這種表達過於粗暴,難以刻畫特徵取值間的關係。總之很長一段時間,主流做法就是LR,然後不斷的人工構造交叉特徵

之後出現了Embedding這個大殺器,可以很好的對Categorical特徵建模,然後大家發現,不僅普通的Categorical特徵可以用Embedding處理,甚至id類特徵,包括使用者ID,商品ID都可以用Embedding處理。而且 Embedding 和 DNN 可以很好的結合在一起,自此工業界的主流迅速從LR切換成了DNN

至於DNN之後出現的各種fancy模型,本質上還是對特徵的建模越來越精細,如何時序特徵? 如何刻畫關係特徵? 等等

3樓:Louis

越來越暴力,越來越自動化,算力換人力先驗

樣本、原始特徵越來越多,模型越來越複雜,特徵表達、模型結構搜尋越來越自動化

隨著DL理論突破、認知公升維,不知道將收斂向何處

怎樣從歷史相似性中找到歷史的發展規律?

噠噠噠kok 將自己代入歷史中,分析歷史的發展規律,看清楚每一次歷史上的經濟變化,社會結構變化.歷史上每一次朝代的更替,都表現了乙個社會現象。每乙個思想上的潮流,都將改變一大群人的思想觀念。每一次科技的變化,都將推動乙個行業,乙個社會的發展。 風言風語 看史書不要糾結於一時一地的得失,要貫通古今,要...

有什麼關於社會發展規律的解釋嗎?

SunnyJEE 生產力發展是社會發展的 必然 生產力發展是社會進步的標誌 生產力發展到飽和巔峰,科技文明的進步到了一定程度,道德文明將出現衰落,行成莫名其妙的對抗力量,那時社會發展越快道德缺失越明顯。社會生產力發展到超飽和狀態,生類文明將出現逆向生長,最終行成社會形態初始化。個人之見,且看且過。 ...

能推薦幾本揭示人類歷史發展規律的好書嗎?

祁明偉 同求這樣一本書,從經濟,歷史,金融,軍事,政治,文化,信仰,地理.全面分析人類的發展史.因為乙個時代包括每乙個方面,只有從全方面看乙個時代才能看清楚,就比如看戰爭就一定要看它的經濟,因為戰爭的背後除了信仰的因素,更多是因為經濟的因素 徐小鳶 斯塔夫裡阿諾斯 全球通史 道格拉斯 諾斯 西方世界...