大資料的真正難點是什麼?

時間 2021-05-31 09:38:21

1樓:黃雅斌

資料分析顯然也是難點。n多維度n多指標,到底用哪個才能不被誤導得到真相。

更要命的是,在分析過程中發現,原始資料可能還要各種處理甚至返工。。。

2樓:靈劍

也對也不對,問題困難分兩種,一種是原理上就不知道怎麼做,屬於科學技術上的困難;一種是雖然知道原理,但是規模太龐大,屬於工程上的困難。大資料的困難屬於後一種,如果沒有計算、儲存、網路資源的限制,那麼模型本身基本都是成熟的;但困難就在於規模。這就好比,堆乙個小土坡不困難,但堆乙個金字塔就困難了,雖然兩者的原理沒有太大的不同。

規模導致的困難主要是分布式的要求,因為單機不足以在合理的成本和時限中處理完所有的資料。詳細來說就是:

1. 並行化:問題首先要改造成適合並行的方式

2. 合理的資源調配:最基本的就是同乙個任務的儲存和計算資源要足夠近,盡量少使用網路頻寬。

3. 容錯:使用機器數量增加之後,硬體整體可靠程度指數下降,必須保證在一部分硬體出錯的情況下不影響最終結果的完成和正確性。

沒有足夠樣本時候的分析是另一種方法,很多時候是原理上就沒有什麼好辦法的,和大資料的困難不同。

說也不對,是因為這兩種困難沒有什麼可比的,沒有高下之分,都很困難。

另外,現在大資料的外延比較廣,不僅僅是從海量樣本中提取出少量統計結果或模型引數,也經常需要進行大量個性化的統計,每個統計能使用的樣本不一定都足夠多,因而大資料也不見得和小資料是完全對立的,也可能有重疊的時候。

大資料華而不實麼?大資料的本質是什麼?

冰洋 這個要看你怎麼來看了。大資料與其說是一種技術,不如說它是一種思維方式更適用。本質是提公升效率。通過大量資料的統計,分析,挖掘等手段,來發現資料之中的規律,從而達到為新業務賦能的目的。我們的記錄最簡單的形式就是EXCEL,WORD,PPT,PDF這些檔案,複雜一點的就是放在不同資料庫中,當資料庫...

大資料專業的前景是什麼?

Java潘老師 對於大資料的前景怎麼樣,其實潘老師一直都是看好這個行業的,也針對許多剛考高考的學生諮詢做了詳細的總結,包括要學什麼,就業如何,薪資如何等等,有興趣的同學可以參考下 大資料技術與應用的就業前景如何?都學些什麼內容?潘子夜個人部落格 學佳澳 近年來,隨著資訊化和資料產業的發展,社會上對大...

大資料殺熟的原理是什麼?

重明SUN 資料科學家達維多維茨說,真正的大資料殺熟,是通過資料搜尋,在茫茫人海中找到你的 二重身 什麼是 二重身 的資料演算法?就是通過大資料找到一些和你的生理資料 生活習慣 性格背景 行為習慣都高度相似的 二重身 看看他對某方案的反應,再判斷是否要向你推送方案。這個演算法被廣泛應用在了商業 醫療...