連續特徵的離散化 在什麼情況下將連續的特徵離散化之後可以獲得更好的效果?

時間 2021-05-11 16:09:21

1樓:易爾山

特徵離散化為的就是生成離散特徵,引入非線性,從而與簡單的模型結合,創造很好的模型效果。

特徵離散的方法有三種,等頻分箱,等寬分箱以及優化分箱。

特徵離散化

2樓:邱錫鵬

主要目的是獲得指數級的表示能力。假如乙個n維的連續向量,即使採用最簡單的每乙個維2值化,也會得到2^n種特徵組合。

這種表示方法對LR這種線性分類器是十分關鍵的。在超高維的特徵空間中,很多問題就變為線性可分問題,而從可以極大地提高分類器的能力。

但對於像神經網路的深度非線性模型則意義不大。因為神經網路中的每個神經元都可以看作是乙個近似的離散特徵生成器,輸出為兩種狀態:興奮和抑制。

本身就可以進行表示學習,所以就不再需要特徵工程了。

神經元取樣的非線性啟用函式,比如logistic sigmoid函式,可以看作是近似的特徵離散化操作。

3樓:xingyi

LR需要這麼做是因為,模型本身是線性引數模型,引數模型對特徵都有個分布的假設,而特徵有些分布是奇形怪狀,這也是有時候為什麼你要在特徵上加個log/sqrt。線性換轉線性是一方面,更多原因是因為引數模型,想想為什麼TREE可以不用這麼是因為這個模型是非參的, DNN顯然是引數模型,做離散化效果會變優。

4樓:彭彭

雜訊很大的環境中,離散化可以降低特徵中包含的雜訊,提公升特徵的表達能力。但是如何離散化是乙個非常重要的步驟。不同的離散化方法會帶來非常大的效能差異

「了」和「著」在什麼情況下可以互相替換,什麼情況下不可以?

poem 著 了是動詞的體 aspect 而非時 tense 著是持續體 進行體 了是完成體。而在看起來像是著 了可替換的句例裡,都涉及到了存在體。比如古代漢語裡有 設有 這樣的表示式 現代漢語裡仍可這樣說 其中的 有 就是存在體。於是,在這些句例裡,著兼為 持續體,存在體 了兼為 完成體,存在體 ...

什麼是連續梁?在高鐵施工中什麼情況下採用連續梁?

奔跑的蝸牛 連續梁橋 lianxuliangqiao continuousbeambridge兩跨或兩跨以上連續的梁橋,屬於超靜定體系。連續梁在恆活載作用下,產生的支點負彎矩對跨中正彎矩有解除安裝的作用,使內力狀態比較均勻合理,因而樑高可以減小,由此可以增大橋下淨空,節省材料,且剛度大,整體性好,超...

選擇公理在什麼情況下使用?

明心靈竹 突然感覺選擇函式有點類似於集諦。司馬義 大佬曾經講過有分的本質是什麼?只有證四聖諦者才能有機會見證到緣起法。剛證四聖諦時,初證初果者,因為如實正知苦 苦諦,不曾被察覺的無明愚痴剎那被察覺到,對整個緣起造成了變異。也因為認識到真正的苦,也發現苦一直被不如理地聚集,這就是苦集諦。覺知到苦的聚集...