資料探勘中常見的異常檢測演算法有哪些？

1樓：大龍貓

發現了今年的一篇深度學習在異常檢測上的綜述，感覺還不錯：

Deep Learning for Anomaly Detection: A Survey

2樓：yycc

分享乙個比較冷門而且比較玄幻的演算法，至今我仍沒能理解該團隊的想法：

演算法名稱：HTM（Hierarchical Temporal Memory，分層時序記憶）

相關開源：[numenta/nupic](numenta/nupic)

針對問題：處理以時序為基礎的資料，檢測期波動出現的異常演算法效果：如下圖

PS：為什麼這個演算法很玄幻，就是numenta這個團隊提出這種皮質分層時序記憶演算法，相關的開源和文件都很詳細，甚至在forum裡也放了他們發表的文章，但是通讀下來就總有一種感覺，這究竟是什麼。。不過我已經是2年前了解的這個，現在應該會好一點。

3樓：陳同學在路上

陳同學在路上：時序資料異常檢測

arXiv 2019.01上放出來的這篇文章，講的非常詳細。

4樓：Joe Lee

目前在嘗試使用異常檢測演算法做移動網際網路廣告中作弊流量檢測，使用了Isolation Forest、LOF、LoOP三個演算法。

Isolation Forest的優點是演算法原理簡單易懂、訓速度快。由於它是根據特徵值來劃分的，在我們的業務資料上的表現還OK，不過異常得分高的instance都是在某個特徵維度上（或者某幾個特徵維度上）表現很異常（或者說值很接近）。

LOF演算法計算量大、訓練速度慢，而且最終的LOF值沒有歸一化；在我們的業務資料上表現不好。

LoOP演算法計算量大，訓練速度慢；但是它是在LOF和LOCI的基礎上改進的，並且最終的LoOP值做了歸一化。在我們的業務資料上的表現較好，異常得分高的instance都至少在某乙個維度上表現異常。

5樓：花半樓

sigkdd 上有一篇異常檢測綜述，不妨看一下。

異常檢測的異常主要分為三種：

1. 點異常

2. 上下文異常

3. 序列異常

真正業務中遇到的主要為上下文異常問題，常見的模型按照基本邏輯的不同分為如下幾類（你的分類很不明確）：

1. 分類模型，監督學習問題

2. 距離模型，包括近鄰、聚類等演算法，適合半監督或無監督問題3. 統計模型，這些模型可以給出置信區間，比如arma、gpr這種引數和非參模型

4. 熵模型

5. 譜模型，pca之類演算法

每一種模型都有明確的針對異常模式的假設，比如聚類演算法，就需要根據異常本身是散布的、聚集的來選擇具體的演算法。

手機作答，沒法細說。

6樓：

說下，我專欄中列出的一些吧

Ksigma：數值異常檢測中常用的方法，簡單易用Box Plot：資料如果不滿足正態假設的話，可以用Box plotIsolation forest：

典型的無監督演算法，不需要任何標註，只需要資料即可。

SOS異常檢測：類似KNN的思路，但效率成問題LOF：同樣是可能有效率問題

基於聚類的方法：聚類結果中的大類認為正常，小類認為異常

資料探勘中常見的 異常檢測 演算法有哪些？