ctr預估演算法對於序列特徵embedding可否做拼接，輸入MLP 與pooling相比，優劣在哪？

1樓：

僅針對原題回答：為什麼大多都用各種加權的pooling，而不做concat操作？

主要就是因為快。

舉個例子：特徵的embeddingSize是32，現在所有Field的個數是35，其中5個Field是序列形式的特徵（對於序列長度的上限取30）。此時你有兩種處理方式：

a.用mean/sum pooling，那麼embedding層的參數量是32 * 35 = 1120

b.用concat，那麼embedding層的參數量是32*(35-5) + 30*5 = 2460

embedding層的參數量直接漲了120%左右，實際ctr/cvr的模型，參數量最大的很有可能是embedding -> MLP的這一層，所以concat一下會直接拖慢線上inference的速度。

2樓：

按時間順序拼接送入mlp，不是不可以。和pool相比，優點是可以更好的考慮時間順序，缺點是序列比較長的話，mlp的引數會比較多，對資料量的要求比較高，否則很容易過擬合，而pool就好很多。

3樓：徐森海

做拼接首先就是序列長度需要找個方式控制，其實就是mlp的輸入會太大。還有乙個問題就是mlp無法是無法控制序列順序變化帶來的影響。

4樓：

問題快涼了，提供乙個角度。

行為序列做拼接，相比做pooling，DNN的輸入向量維度會增大多倍，DNN的引數數量也會增加若干倍，計算複雜度也會增加。

5樓：爽如此

我的看法是，這種做法基本不可能比pooling更好。

1,長度問題。要做拼接然後進mlp那肯定要保證長度一致，無非是截長補短的做法，截長會丟資訊，補短會導致被補的部分可能學不充分。比如說乙個使用者行為序列，可能平均長度是20，中位數是15，如果長度固定為20，那超過20的很多有效資訊會被丟掉，而15到20之間因為大量的都是預設值，也無法學好；

2,位置問題。這個問題更加致命，因為直接拼接相當於是加了乙個正無窮強的位置資訊，例如乙個使用者的行為序列是a,b,c，另乙個序列是c,b,a。這倆是非常相似的，但是因為embedding輸入mlp的位置是固定的，那對模型來說這倆就是完全不一樣的了。

6樓：王海岩

本質原因在於每個使用者的歷史序列長度是不同的，如果拼接的話只能首先固定歷史序列長度，對於歷史序列較短的樣本添0補全，效果不會好