機器學習中有哪些緩解spurious correlation的方法？

1樓：

我覺得現有的probability框架下無法緩解，你所謂的spurious是自己主觀認為的，在probability裡都是相關性，沒有任何區別，要緩解你就需要explicitly告訴model那種是spurious的，比如引入causal model

2樓：OwlLite

當今機器學習（特別地，深度學習）被用來做推理，試圖尋找事物的「因果性」，但是網路結構和資料注入並不是設計用來解決因果性問題的，而更像是找到「相關性」。因為資料不可能窮盡所有場景，實際中必然存在錯誤的相關性，也就是spurious correlation[1](跟overfitting具有很大的相似性)，帶來模型的generalization問題。

一般認為新增不同場景的更多資料能緩解spurious correlation問題，因為資料的場景資訊(contextual information)是時變資訊，有利於模型學習並回歸掉這些變化量，尋找更穩定的「不變數」——只要能排除掉所有的非蘇格蘭人，就能找到「真正的蘇格蘭人」。越多的場景資訊的加入意味著模型能學到越穩定的「不變性」。但這種做法存在兩個問題：

1）場景資料新增的邊際性：越多新增場景資料效果提公升越少，而資料成本越高；2）模型也因此可能學到更穩定的spurious correlation，這種spurious correlation更隱蔽，更難以發現，也因此更危險——比如adversarial attack經常可能有效[2]。這說明在當前演算法架構下，無論新增多少資料，總是可能有薄弱環節。

相反地，在場景資料新增到一定量後，利用不同場景資料提供的domain knowledge進行訓練，匹配實際部署應用場景，反而可能縮小spurious correlation的造成模型失效的可能性。當然，這並不是說spurious correlation問題可以因此解決。學習能力強、引數多的模型，它總是可能習得有限訓練資料中那些非因果的spurious correlation[3].

3樓：

tbh，這東西現在最empirical work的方法還是結合domain knowledge。比如說把一些linguistic knowledge放在一些nlp task裡。沒有銀彈。

機器學習中有哪些緩解spurious correlation的方法？

當前（2023年）機器學習中有哪些研究方向特別的坑？

機器學習中有哪些方法可以提高穩定性？

《超級機械人大戰》系列中有哪些嚴格來說非機械人的作品參戰過？

其他用戶還看了：