機器學習特徵工程中了解特徵分布有什麼意義?

時間 2021-10-22 01:00:01

1樓:王bill

了解特徵的分布是很有意義的。

1.如果特徵只有乙個值,或者特徵的值在預估目標上沒有區分度,加上這個特徵就是個無效特徵,萬一使用的過程中再出現乙個異常值預估結果就會出問題。

2.了解並監控特徵分布可以檢驗資料的正確性。如果乙個特徵的分布不符合常識,那麼很可能是訓練資料有問題。

garbage in garbage out,做多了模型就有深刻的認識。調半天超參,不如把資料弄好收益來的大,很多預估問題都是資料出了問題。

3.同樣的,不光了解特徵分布,還要了解資料分布,看看預估值在什麼範圍內,符合什麼樣的分布。如果正負樣本分佈不均衡,那麼就要進行取樣。

如果預估目標在多個分布中,就不能用簡單的rmse作為loss,要選取適合的。

綜上,了解資料的分布非常有必要,特徵的分布是其中的乙個部分。了解完分布不一定能做出效果,但是可以避免出現錯誤,得到solid的結論。建模的過程要不斷check資料的正確性,非常重要!

2樓:

假設你的特徵是用某個深度學習框架提取出來的,有了特徵分布你就可以直觀的了解到這個框架的特徵提取能力如何。乙個評價標準就是類內特徵間距小,類間特徵間距大。比如異常樣本特徵的分布與正常值之間的距離,一般來說這兩者之間的距離越大說明學習到的特徵更具有判別性。

在 Adaboost haar 特徵的機器學習中,怎樣降低參與訓練的 haar 特徵數量?

劉留 1.把全域性搜尋替換為遺傳演算法的搜尋 2.評估的時候先隨機選100個樣本,得到評分,去掉50 得分最低的特徵,提高樣本數量,直到覆蓋所有 這兩個方法都可以從這篇文章中找到對應的描述 High performance rotation invariant multiview face dete...

機器學習如何在小樣本高維特徵問題下獲得良好表現?

active learning,可以在query少量樣本 uncertain,informative,diverse 的情況下,獲得巨大的效能提公升。 摸不著頭腦 看到前面有人做的醫療影像的,我也是做的相關方面的,結合自己的經驗來拋磚引玉一下吧。我認為可以嘗試結合先驗知識建立先驗模型,諸如概率密度模...

機器學習中有沒有可以分析特徵重要性的python工具?

衛龍大麵筋 少年,你在說pca麼。其實一些無監督演算法都可以做這個工作,就是要清楚,你要哪個cluster。監督演算法,可以配合ranking使用,實測有效。 美氣 1 通過方差篩選 sklearn中的VarianceThreshold類可以用來做方差選擇 2 卡方檢驗 sklearn中的chi2類...