在使用深度學習方法進行分類時，使用非線性方法對訓練資料進行預處理，是否會破壞原始特徵導致無法識別？

1樓：Ethanycx

從理論上來說，無論是線性變換還是非線性變換，其實都可以在網路訓練的過程中由某幾層網路來實現（非線性的啟用函式賦予了網路非線性的描述能力），因此只要資料的量和多元性滿足訓練的需求，並不需要對原始資料手動進行變換。

但有些情況下，針對不同的任務，對原始資料進行合理的、經過驗證的非線性變換，相當於在模型中加入了資料外的先驗知識。在變換過程中資料中的一些特徵必然會損失，是否會對模型產生不良影響就在於，丟失的這些特徵是不是完成所給任務所必需的。

第二個問題，我先假設你的人體動作識別是基於影象的。網路能否在幾何形變、遮擋等干擾下進行識別，是由網路結構以及訓練資料的複雜度等一系列因素決定的。理論上如果網路足夠複雜，是可以做到像人的認知一樣魯棒的。

不過實際上，如果訓練資料中並未含有不同的動作方向、以及被遮擋的資料的，在進行識別時，這些問題必然會對網路的識別效果產生影響。不過最近提出的一些方法，比如Deformable CNN, Spatial Transformer Networks甚至Capsule等等，在結構中便賦予了網路適應幾何形變的問題。

另外， @周天元所指應該屬於Data Augmentation範疇，即通過對影象進行Cropping、Rotation、Noise等操作，增大訓練資料的複雜性，以提高模型的泛化能力。但你可能對Dropout的理解是有一些誤區的，Dropout操作是作為網路訓練時的一種正則懲罰（Regularization），在網路某些層中，通過隨機抑制一定比例神經元的輸出，來避免個別神經元的權重過高，從而避免過擬合等問題。

2樓：

你看這個答案

用深度學習進行語音識別為什麼還要算mfcc？ - 四方之水的回答 - 知乎

在使用深度學習方法進行分類時，使用非線性方法對訓練資料進行預處理，是否會破壞原始特徵導致無法識別？

在深度學習中，DNN分類器和MLP分類器有區別嗎？

有沒有好的深度學習方法來描述資訊損失？

在大學，怎樣的學習方法效率最高？

其他用戶還看了：