資料探勘中常見的 異常檢測 演算法有哪些?

時間 2021-05-10 23:49:57

1樓:大龍貓

發現了今年的一篇深度學習在異常檢測上的綜述,感覺還不錯:

Deep Learning for Anomaly Detection: A Survey

2樓:yycc

分享乙個比較冷門而且比較玄幻的演算法,至今我仍沒能理解該團隊的想法:

演算法名稱:HTM(Hierarchical Temporal Memory,分層時序記憶)

相關開源:[numenta/nupic](numenta/nupic)

針對問題:處理以時序為基礎的資料,檢測期波動出現的異常演算法效果:如下圖

PS:為什麼這個演算法很玄幻,就是numenta這個團隊提出這種皮質分層時序記憶演算法,相關的開源和文件都很詳細,甚至在forum裡也放了他們發表的文章,但是通讀下來就總有一種感覺,這究竟是什麼。。不過我已經是2年前了解的這個,現在應該會好一點。

3樓:陳同學在路上

陳同學在路上:時序資料異常檢測

arXiv 2019.01上放出來的這篇文章,講的非常詳細。

4樓:Joe Lee

目前在嘗試使用異常檢測演算法做移動網際網路廣告中作弊流量檢測,使用了Isolation Forest、LOF、LoOP三個演算法。

Isolation Forest的優點是演算法原理簡單易懂、訓速度快。由於它是根據特徵值來劃分的,在我們的業務資料上的表現還OK,不過異常得分高的instance都是在某個特徵維度上(或者某幾個特徵維度上)表現很異常(或者說值很接近)。

LOF演算法計算量大、訓練速度慢,而且最終的LOF值沒有歸一化;在我們的業務資料上表現不好。

LoOP演算法計算量大,訓練速度慢;但是它是在LOF和LOCI的基礎上改進的,並且最終的LoOP值做了歸一化。在我們的業務資料上的表現較好,異常得分高的instance都至少在某乙個維度上表現異常。

5樓:花半樓

sigkdd 上有一篇異常檢測綜述,不妨看一下。

異常檢測的異常主要分為三種:

1. 點異常

2. 上下文異常

3. 序列異常

真正業務中遇到的主要為上下文異常問題,常見的模型按照基本邏輯的不同分為如下幾類(你的分類很不明確):

1. 分類模型,監督學習問題

2. 距離模型,包括近鄰、聚類等演算法,適合半監督或無監督問題3. 統計模型,這些模型可以給出置信區間,比如arma、gpr這種引數和非參模型

4. 熵模型

5. 譜模型,pca之類演算法

每一種模型都有明確的針對異常模式的假設,比如聚類演算法,就需要根據異常本身是散布的、聚集的來選擇具體的演算法。

手機作答,沒法細說。

6樓:

說下,我專欄中列出的一些吧

Ksigma:數值異常檢測中常用的方法,簡單易用Box Plot:資料如果不滿足正態假設的話,可以用Box plotIsolation forest:

典型的無監督演算法,不需要任何標註,只需要資料即可。

SOS異常檢測:類似KNN的思路,但效率成問題LOF:同樣是可能有效率問題

基於聚類的方法:聚類結果中的大類認為正常,小類認為異常

職場中常見的學生思維有哪些?

小悅 在我的諮詢經驗裡,學生思維在職場新鮮人裡的最大體現,是覺得別人都會天經地義教自己。主要是學校環境裡,大家成天被叫喚著學習,不同科目不同老師設定不同作業,上趕著給學生送知識。長年累月,學生以為 學習 這件事是伸手就來的,甚至是前輩等不及要給自己灌輸的。但是,職場絕不是如此。職場裡的學習這件事,需...

如何分辨生活中常見的石頭種類?

紫蘇 建議看書分別是岩漿岩石學 沉積岩石學 變質岩石學 礦物學。如果想憑藉手標本鑑定岩石,就要掌握岩石的岩性特徵,這裡面就包括礦物組成 礦物晶形 結構 構造等。非一日之功,在把握理論的基礎上多看多積累可行。 雨田青 題主不是地質學出身,想要辨別出岩石的細類是很難的。因為即便我們這些專門學地質的,有時...

親子溝通中常見的問題有哪些?

UPLIVE 如果你的小孩尚未成年,對於小孩的狀況請一定要特別敏感 當孩子在測試你的時候,他可能不是直接說他要幹什麼或是他很想要什麼,小孩會先舉一些例子,例如他身邊的朋友最近做了什麼。當他在問或是跟你分享這樣的事件,你就要高度敏感 他正在測試你的接受度。你的態度,會直接影響他告訴你的意願。 單晴 在...