機器學習中有哪些緩解spurious correlation的方法?

時間 2021-05-05 17:04:38

1樓:

我覺得現有的probability框架下無法緩解,你所謂的spurious是自己主觀認為的,在probability裡都是相關性,沒有任何區別,要緩解你就需要explicitly告訴model那種是spurious的,比如引入causal model

2樓:OwlLite

當今機器學習(特別地,深度學習)被用來做推理,試圖尋找事物的「因果性」,但是網路結構和資料注入並不是設計用來解決因果性問題的,而更像是找到「相關性」。因為資料不可能窮盡所有場景,實際中必然存在錯誤的相關性,也就是spurious correlation[1](跟overfitting具有很大的相似性),帶來模型的generalization問題。

一般認為新增不同場景的更多資料能緩解spurious correlation問題,因為資料的場景資訊(contextual information)是時變資訊,有利於模型學習並回歸掉這些變化量,尋找更穩定的「不變數」——只要能排除掉所有的非蘇格蘭人,就能找到「真正的蘇格蘭人」。越多的場景資訊的加入意味著模型能學到越穩定的「不變性」。但這種做法存在兩個問題:

1)場景資料新增的邊際性:越多新增場景資料效果提公升越少,而資料成本越高;2)模型也因此可能學到更穩定的spurious correlation, 這種spurious correlation更隱蔽,更難以發現,也因此更危險——比如adversarial attack經常可能有效[2]。這說明在當前演算法架構下,無論新增多少資料,總是可能有薄弱環節。

相反地,在場景資料新增到一定量後,利用不同場景資料提供的domain knowledge進行訓練,匹配實際部署應用場景,反而可能縮小spurious correlation的造成模型失效的可能性。當然,這並不是說spurious correlation問題可以因此解決。學習能力強、引數多的模型,它總是可能習得有限訓練資料中那些非因果的spurious correlation[3].

3樓:

tbh,這東西現在最empirical work的方法還是結合domain knowledge。比如說把一些linguistic knowledge放在一些nlp task裡。沒有銀彈。

當前(2023年)機器學習中有哪些研究方向特別的坑?

eagletcjy 大坑是純無監督學習。深度學習的很多方法 autoEncoder及變種,GCN等 都不如簡單的S3VM好。當然,如果能想辦法把無監督變成弱監督問題 比方說遷移一下其他模型知識 還是有希望的。次坑是結構化資料上的有監督深度學習。樓上做CV NLP的比較多,做結構化資料的人比較少。其實...

機器學習中有哪些方法可以提高穩定性?

簡單說幾個吧 1 增加資料,在我看來這是最有效的方法。但是現實中並不一定可行。2 選擇更robust的模型,比如random forest等。3 增加regularization,很可能模型複雜度過高,捕捉到了過多的噪音。4 對資料處理,比如PCA降噪,data augmentation增加魯棒性。...

《超級機械人大戰》系列中有哪些嚴格來說非機械人的作品參戰過?

大宇宙的總意識 戰艦系 2199,藍寶石之謎,哈洛克船長 日常系 keroro軍曹,蠟筆小新,偶像大師,偶像大師灰姑娘女孩,偶像活動,小魔女學園,駭客娃娃,sun娘,機械人少女z,世嘉主機少女 hebot 召喚系 舞hime 單兵系 機甲獵兵 宇宙牛仔 銀河天使隊 變身英雄 宇宙刑事加班 趙泠 基本...