如何保證資料質量?

時間 2021-06-01 04:06:26

1樓:譚劍

資料質量不只是源頭。如果以終端使用者為終點,採集、處理、儲存、傳輸、解壓縮、插值、視覺化,哪一節都可能出問題。

1、採集源頭上,物聯網各種感測器質量都是黑箱,標稱跟實際你不測測敢用嗎?執行反應跟供電電壓也有關係,等電池快沒電你看看那資料嚥氣的樣子。如果是人採集資料就更難說了,德爾菲法調查填問卷,哪有那麼多專家?

專家哪那麼有空?有空何必掙那3、5元錢?萬一真填了跟假設不符腫麼辦,要不要讓專家退錢?

退錢的時候打不過專家怎麼辦?打過了專家放穿雲箭怎麼辦?

2、處理,資料太集中,去掉乙個最高分去掉乙個最低分,最後得分零分怎麼辦?資料太稀疏,想要的地區沒資料,不想要的地區有資料,差旅已經花完了,良心還要不要?要多少?

3、儲存,盤滿了資料溢位,盤沒滿不小心摔了一下,摔了一下居然還能讀,讀出來一堆亂碼,亂碼裡好像還有幾個正常的,正常的是資料採集時間,時間位元組還不對,年份只剩18,搞不清是2018還是1918。

4、傳輸,丟包、堵塞、劫持,蟹黃湯包一路變成菜包、花卷、饅頭、地瓜、手雷、包子雷。漸進式傳輸也尷尬,這是您的包子皮,這是您的包子湯,這是您的包子餡,請稍等,您的筷子還沒到。

5、壓縮解壓縮,無失真壓縮效率高要麼資料格式本來就不合適,要麼資料就是編的,哪有那麼巧齊齊整整的。有失真壓縮誰知道損失部分是幹嘛用的,壓掉指甲蓋也就算了,擠著腦袋怎麼辦?有給每種資料寫個壓縮演算法的時間,還不如多拿幾個硬碟拷過去。

6、插值,資料不夠插值湊,簡單一點線性插,好看一點樣條插,隨性一點隨機插,嚴謹一點讓別人插,反正有reference。

7、視覺化,show time,包子也得把肉餡翻出來當pizza賣,嘴歪就側身,腿瘸就騎馬,標籤能用英文的不要用中文,能用數字的不要用字母,數字還得是羅馬的,字型千萬別用Times new roman,俗。配音怎麼也得是專業的,最好能請趙忠祥,「春天來了,萬物復甦,大草原又到了我們資料採集的季節。。。」

2樓:九則

首先,資料出現質量問題有哪些原因或者情況?

其次,針對這些原因,制定清洗策略。

一般的資料質量出現問題的有:無效,重複,缺失,不一致,錯誤值,格式出錯,業務邏輯規則有問題,抽取資料程式有錯等,另外還有就是統計口徑不一致,也會導致看到的資料不是想要的。

根據這些情況,如何清洗?人工,還是編寫程式?這個依據資料量大小及挖掘系統要求看吧。如果出現這型別的錯誤很多,一定要寫程式自動清洗,如果只是小量的不影響的,可以忽略不計。

最好的是:資料源頭OLTP系統控制,操作規範,定義明確等。

實在不行,需要DW人員熟悉業務,了解業務操作流程,制定一定的清洗程式。

以上情況限定傳統行業。

如果是網際網路行業,控制資料質量,難度很大吧!

如何保證資料標註的高質量?

曼孚科技 可以從三方面著手 1.提公升標註員素質 目前的資料標註行業仍然是勞動密集型行業,人力在其中扮演者著至關重要的角色。2.規範標註流程 規範標註流程,建立實時篩查體系。這是曼孚科技的資料標註流程 3.使用高質量的標註工具 AI預標註技術可以在很大程度上避免純人工標註過程中出現的各種問題,提公升...

雲計算如何保證資料安全性?

云云眾生 資料私隱性是資訊保安的重要維度。雲計算通過金鑰技術 新演算法和加密演算法等身份驗證手段來保護資料隱私,同時對資料本身增強了保護。資料傳輸 儲存及處理的各個階段對資料進行加密,利用雲技術對資訊進行處理,實現資訊隱蔽,保護使用者資料安全。雲計算基礎上建立安全密碼監管 密碼體系 密碼執行等相關機...

企業資料的安全性如何保證?

已重置 用加密軟體吧,域之盾加密軟體功能 透明加密 加密過程自動完成 不影響使用者使用習慣 透明加密 在檔案建立或編輯過程中自動強制加密,對使用者操作習慣沒有任何影響,不需手動輸入密碼。當檔案通過非正常渠道流至外部,開啟時會出現亂碼或無法開啟,並且始終處於加密狀態。加密過程在作業系統核心完成,保證了...