1樓:的盧
在收集整理資料時,根據均值加減方差或其他專業指標去除異常或不合理的引數。計算的話,用一些國際公認的軟體,比如R,spss等。主要還是用準確的關係式代表或求得準確的量,具體可以看看統計學方面的書。
2樓:xj ken
大資料生命週期是個比較長的生產過程,可以分為資料驅動決策和資料提供服務。 不管是資料驅動決策,還是資料提供服務,都是通過非常龐大量的資料,來分析出其中規律,概率論的思想不會因為某小眾的資料影響趨勢分布。
3樓:周不知
你說的這個叫資料質量問題
資料質量有很多維度:包括一致性、完整性、實體同一性等問題。
一致性是指資料需要滿足一致性約束,例如函式依賴、條件函式依賴等完整性是指資料的表、欄位不存在缺失
實體同一性是指同一物在資料庫中僅有唯一表示。
具體的可以參考這篇文章:
李建中,王巨集志,高巨集.大資料可用性的研究進展.軟體學報,2016,27(7):1605-1625
實際應用中,
針對一致性,主要是先挖掘函式依賴、條件函式依賴,再進行查詢針對完整性,主要是先補齊,或者研究資料不完整情況下的資料探勘針對實體同一性,主要是利用各種實體識別演算法
4樓:潘飛
答案很複雜,也很簡單。要做到準確,必然要對資料流過程的中的每個環節的元資料有所掌控,比如,正常傳輸了多少資料,由於格式錯誤而不能繼續流向下乙個環節的資料又有多少等等這樣的元資料。
要自己做到這些,需要付出不少的努力,也就是每個環節你都需要去收集統計資訊,或者轉儲錯誤資料,而一旦有乙個這樣的框架工具幫你完成這些工作,那這一切就沒有那麼複雜了。
最後,推薦乙個框架性質的工具-Apache NIFI,幫你以視覺化的形式設計、組織資料流,並提供了多種的資料的輸入、處理、輸出介面,並且提供了可靠性的保證。
5樓:joegh
資料質量是資料分析結論有效和準確的基本保證,如果底層資料有問題很可能會被誤導,得出差異極大的分析結論。
資料質量保證需要有健全的資料校驗、清洗、修正機制,這也是資料倉儲建設最基礎的環節,一般資料一旦進入資料倉儲就必須保證資料是完整準確的,而上層的計算、聚合彙總和展現都基於這個「乾淨」的資料集,這樣就能保證上層資料應用的一致性和準確性。
如何通過 Evernote 將收集的資料整理成可用的知識體系?
寂夜 世界這麼複雜,卻試圖將它整理。知道的已經知道,又何必整理?未來發生什麼需求也不知道。一切本來在外,卻強為整理所束縛累贅。收集只是當時想收集,並非有用,就敷衍做乙個動作好了。沒有萬能的收集方法,各種收集有自己的長短處。只是當時想到,想用什麼來收集,只是執行大腦的任務。一切行動無非免擾,擾的究竟來...
怎樣確保離婚協議的效力?
楊秋婭律師 離婚協議可以反悔嗎?簽了離婚協議還可以反悔嗎?離婚協議簽訂以後如何有效?當然是去民政局正式辦理了離婚手續以後,在沒有辦理離婚手續之前只是成立,但是未生效,是可以隨時反悔的。離婚協議上約定了分割給房產證上沒有名字的一方該怎麼辦?只要你們順利辦理了離婚證,離婚協議生效了,你就可以去不動產登記...
怎樣確保幼兒園特色課程的質量?
穆易hope 課程建設的根基在師資力量,因此首先園長需要考量團隊專業水平,充分利用教師資源。比如我指導過的乙個幼兒園因為有一位美術很厲害的老師就做美術,但是其他老師對此並不是很擅長,導致專案做不下去,只能尋求外部支援。其次,教育具有連續性,建設特色課程不要盲目跟風,別人做什麼就跟著做什麼,做教育的是...