從資料集中剔除異常資料一般用什麼資料演算法?

時間 2021-06-06 18:35:20

1樓:饅頭

1.在SPSS中做箱型圖,圖中可以顯示異常值,然後剔除。但問題是大資料,採用箱形圖已經不顯示了

2.拉依達準則法(3δ):簡單,無需查表。測量次數較多或要求不高時用。是最常用的異常值判定與剔除準則。但當測量次數《=10次時,該準則失效。

如果實驗資料值的總體x是服從正態分佈的,則

式中,μ與σ分別表示正態總體的數學期望和標準差。此時,在實驗資料值中出現大於μ+3σ或小於μ—3σ資料值的概率是很小的。因此,根據上式對於大於μ+3σ或小於μ—3σ的實驗資料值作為異常值,予以剔除。

在這種情況下,異常值是指一組測定值中與平均值的偏差超過兩倍標準差的測定值。與平均值的偏差超過三倍標準差的測定值,稱為高度異常的異常值。在處理資料時,應剔除高度異常的異常值。

異常值是否剔除,視具體情況而定。在統計檢驗時,指定為檢出異常值的顯著性水平α=0.05,稱為檢出水平;指定為檢出高度異常的異常值的顯著性水平α=0.

01,稱為捨棄水平,又稱剔除水平(reject level)。

標準化數值(Z-score)可用來幫助識別異常值。Z分數標準化後的資料服從正態分佈。因此,應用Z分數可識別異常值。

我們建議將Z分數低於-3或高於3的資料看成是異常值。這些資料的準確性要複查,以決定它是否屬於該資料集。

請問做大資料專案一般用什麼軟體或平台?

老馮 一般使用Hadoop生態環境,包含了元件,hadoop,hive,spark,hbase等,需要系統的了解,不是三兩句能解釋清楚的 大器不早成 一般用Hadoop,Spark等平台,進行分析。如果你想要做大資料分析挖掘的話,這裡有乙個平台我覺得挺好的 資料超市。這個平台以spark平台為基礎,...

系統功能架構圖和資料庫建模一般用什麼工具?

已登出 這個問題主要看角度。1.如果你是美工,那肯定是Adobe那一套專業的美工軟體了。2.如果你是偏美工的程式設計師,那麼推薦Visio,能方便地搗鼓出漂亮的圖。3.如果你是普通程式設計師,那麼其他答案推薦的那些奇葩玩意,你覺得人生還長的話可以試試。4.但如果你像我一樣,是神一樣的架構師,或者立志...

一般你們選擇什麼資料庫 跟node js搭配?

Albert 大多數會是 Mongodb 因為Mongodb是介於關係型資料庫和非關係型資料庫之間的 nosql 資料庫。使用它可以降低很多學習成本,又可以解決大部分的web開發上的問題,因為其實很多關係型的資料庫太過於複雜以至於其實很多功能大部分都沒有使用到.mongodb剛好介於兩者之間 Fen...