假設原始資料正負樣本1000 1。是直接訓練還是先做不平衡處理（比如取樣）？

1樓：Qeexo

不平衡資料集是機器學習中需要解決的常見問題之一。常見的機器學習模型，在處理不平衡資料集時，如果單純使用精確度來評估模型，往往會對最終結果產生誤導。因而，在訓練集極度不平衡的情況下，比如原始樣本正負樣本數量比為10000：

1，我們往往可以採用如下幾種方法來處理：

1. 盡量使用多個指標評估模型

在處理分類問題時，單純使用模型精確度會對結果產生誤導。因而可以使用混淆矩陣（confusion matrix）、精度（precision）、召回率（recall）和F1來評估模型。

2. 重取樣（Re-sampling）

重取樣是從訓練集入手，生成均衡的資料集。常見的方法有過取樣（oversampling）和欠取樣（undersampling）。

過取樣就是增加比重較小的負樣本的數量，往往分為兩種。一種是不生成合成資料的，比如對負樣本進行隨機的重複取樣，直到負樣本的數量與正樣本的數量相匹配。另一種是生成合成資料的，類似於資料增強技術，通過取樣負樣本的鄰居來生成新的負樣本資料（如SMOTE演算法）。

過取樣的缺點在於會重複負樣本，使得部分資料過於被強調而導致過擬合（overfitting）。

欠取樣就是減少比重較大的正樣本的數量，往往是隨機的對正樣本進行取樣，使得正樣本的數量與負樣本的數量相匹配。欠取樣的缺點在於會丟棄大量正樣本，使得模型易於欠擬合（underfitting）。

3. 調整損失函式

機器學習模型的優化是通過最小化損失函式來實現的。因而在處理不平衡資料集的時候，可以調整損失函式使得模型對少量樣本更為敏感，從而使得最終的模型可以更好地識別出少量樣本。通用做法是對少量樣本的錯判增加乙個懲罰項，類似於正則化。

或者在損失函式中，提高少量樣本損失項的權重，這個權重可以通過計算訓練集中多量樣本和少量樣本的比重來得到。比如正負樣本的比重為1000:1，那麼正樣本損失項的權重為1/1001而負樣本損失的權重為1000/1001。

4. 一類分類演算法（one class classification）

如果負樣本的數量極為稀少或者難於獲得，那麼可以考慮一類分類演算法。一類分類演算法常常用於異常檢測（anomaly detection），即只在單類別的訓練集上（比如正樣本）進行訓練，使得模型能夠學習正樣本的分布，從而自然而然地檢測出與正樣本分佈不同的負樣本。一類分類常見的演算法有：

一類支援向量機（one class SVM）

隔離森林（isolation forest）

區域性異常因子檢測演算法（local outlier factor）

基於神經網路的自動編碼器（autoencoder）

奇手(Qeexo)公司最近推出了基於嵌入式系統的Qeexo AutoML平台，可以一鍵式訓練採集的感測器資料並將訓練的機器學習模型部署到邊緣裝置中。在感測器資料的處理中，AutoML整合了不同的演算法以考慮訓練集的不平衡性。詳情請見：

Qeexo AutoML | Qeexo AutoML

1. 維基百科：https://

2樓：星星之火

好壞比例首先應該符合業務現狀。1000：1確實為好壞比例失衡了，不滿足建模前的資料要求，因此，建議應該先做比例失衡處理，再做後面模型訓練。