機器學習特徵工程中了解特徵分布有什麼意義？

1樓：王bill

了解特徵的分布是很有意義的。

1.如果特徵只有乙個值，或者特徵的值在預估目標上沒有區分度，加上這個特徵就是個無效特徵，萬一使用的過程中再出現乙個異常值預估結果就會出問題。

2.了解並監控特徵分布可以檢驗資料的正確性。如果乙個特徵的分布不符合常識，那麼很可能是訓練資料有問題。

garbage in garbage out，做多了模型就有深刻的認識。調半天超參，不如把資料弄好收益來的大，很多預估問題都是資料出了問題。

3.同樣的，不光了解特徵分布，還要了解資料分布，看看預估值在什麼範圍內，符合什麼樣的分布。如果正負樣本分佈不均衡，那麼就要進行取樣。

如果預估目標在多個分布中，就不能用簡單的rmse作為loss，要選取適合的。

綜上，了解資料的分布非常有必要，特徵的分布是其中的乙個部分。了解完分布不一定能做出效果，但是可以避免出現錯誤，得到solid的結論。建模的過程要不斷check資料的正確性，非常重要！

2樓：

假設你的特徵是用某個深度學習框架提取出來的，有了特徵分布你就可以直觀的了解到這個框架的特徵提取能力如何。乙個評價標準就是類內特徵間距小，類間特徵間距大。比如異常樣本特徵的分布與正常值之間的距離，一般來說這兩者之間的距離越大說明學習到的特徵更具有判別性。

在 Adaboost haar 特徵的機器學習中，怎樣降低參與訓練的 haar 特徵數量？

劉留 1.把全域性搜尋替換為遺傳演算法的搜尋 2.評估的時候先隨機選100個樣本，得到評分，去掉50 得分最低的特徵，提高樣本數量，直到覆蓋所有這兩個方法都可以從這篇文章中找到對應的描述 High performance rotation invariant multiview face dete...

機器學習如何在小樣本高維特徵問題下獲得良好表現？

active learning，可以在query少量樣本 uncertain,informative,diverse 的情況下，獲得巨大的效能提公升。摸不著頭腦看到前面有人做的醫療影像的，我也是做的相關方面的，結合自己的經驗來拋磚引玉一下吧。我認為可以嘗試結合先驗知識建立先驗模型，諸如概率密度模...

機器學習中有沒有可以分析特徵重要性的python工具？

衛龍大麵筋少年，你在說pca麼。其實一些無監督演算法都可以做這個工作，就是要清楚，你要哪個cluster。監督演算法，可以配合ranking使用，實測有效。美氣 1 通過方差篩選 sklearn中的VarianceThreshold類可以用來做方差選擇 2 卡方檢驗 sklearn中的chi2類...

機器學習特徵工程中了解特徵分布有什麼意義？

在 Adaboost haar 特徵的機器學習中，怎樣降低參與訓練的 haar 特徵數量？

機器學習如何在小樣本高維特徵問題下獲得良好表現？

機器學習中有沒有可以分析特徵重要性的python工具？

其他用戶還看了：