為什麼好多人認為大資料就是分布式平台？

1樓：極道科技（北京）有限公司

第一，我們先來聊聊什麼是分布式平台。

從概念上講，分布式平台是將資料儲存、資料分析和計算等構建在多個主機構成的集群上的軟體平台。有些資料問題本身的規模超出了單機系統容量或計算能力，所以需要利用多台計算機來協同解決，這就是分布式平台。

相對於單機構成系統，分布式優點還是蠻多的：

1 資源共享：整個環境中的資料資源和計算資源都可共享。

2 使用者透明性：分布式系統給使用者展現的是乙個統一的整體，在使用的時是感覺不到分布式系統的存在的。

3 高可靠：因為資源可共享，為分布式內的容錯機制能確保資料計算和資料儲存的高可靠性。

4 高度靈活性：目前市面上的分布式平台大多能夠相容市場上主流廠商的硬體產品，相容中低配置機器；

5價效比較高。

第二，我們再來聊聊什麼是大資料：

企業級的海量資料膨脹，佔據了大量的儲存空間，但是佔據大量儲存空間的資料都是「大資料」麼？事實上不盡然，多數的企業級儲存上儲存的資料是「胖資料」Fat Data，而不是「大資料」Big Data，企業級胖資料豐富多樣的資料特徵才是真正的大資料。

資料要在「儲」之上，進行「資料感知」，感知儲存在系統裡的海量非結構化資料的特徵，這是資料管理的第一步；進而通過對資料的管理、分析和計算，讓企業資料變得有序，成為真正的資料資產。因此資料管理的物件是資料特徵，也就是元資料。通過資料特徵發現資料，組織動態的資料集合，分析挖掘、甚至學習資料特徵，進一步理解資料和資料之間的關聯關係，資料和特徵之間的關係，特徵和特徵之間的關係，是資料管理的終極目標。

如果沒有有效的管理，大資料僅僅只是資料。只有通過資料管理系統將雜亂無章的海量非結構化資料變得有序，可以輕鬆索引、查詢、分析和建模，才能夠讓大資料轉化成有用的資料資產。

2樓：Fresh.Qin

不是說大資料就是分布式平台，而是分布式的平台（儲存）讓大資料變成了可行。

至於你說的網上的培訓結構，有幾個是真的能教你東西的，想多了吧？

即便真教你，我不認為你可以理解和學會的，深度學習的技術要求和學習功底還是很高的（我哥們是哈工大的研究生，大資料演算法分析的，是我一圈計算機行業同學中唯一乙個搞這個的……）……

Ps:我有在培訓機構當老師的同學，自己都沒在職場做過幾個專案，小公司幹了兩年，混不下去了才去培訓機構當老師的……類似的，就是我們大學畢業時，輔導員給我們講踏入社會職場發展，她自己都是研究生畢業直接當輔導員了，都沒去社會洗禮，就給我們講社會上的職場，這個不是搞笑的嗎？

那些培訓老師都是自己知道一些皮毛了，就搞教育培訓，真的技術大牛，年薪都是百萬級，哪兒有時間來教你們這些小白……

3樓：

大資料是大資料，分布式是分布式，這兩個完全不是一回事。

所謂的大資料：是指無法在一定時間範圍內用常規軟體工具進行捕捉、管理和處理的資料集合，是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的資訊資產。大資料的5V特點（IBM提出）：

Volume（大量）、Velocity（高速）、Variety（多樣）、Value（低價值密度）、Veracity（真實性）。

而分布式是一種技術手段，也可以理解成是處理大資料其中的一種手段。分布式儲存現在最明顯的就是區塊鏈技術，當然，大資料也可以進行分布式儲存。

4樓：沉得很

分布式平台才能有吞吐量來處理海量實時資料.

大資料不是分布式平台, 但沒有分布式平台今天在雲上的普及性, 大資料的落地無從談起.

5樓：lg lin

1、大資料中有乙個主要依賴就是分布式平台，通過分布式平台講計算任務分配到不同的小型機上，將計算分配給常規的機器，而不要求非常昂貴的的高階伺服器。

2、大資料確實不只是平台工具，那為什網上能搜到的就這些呢？

重點因為「培訓」，而不是為了解決實際的生產問題，自然去搭建大量機器來供大資料量的機器學習、深度學習，強化學習的內容可能性還是相對比較小的。為了突出師資力量的話，基本只能往工具上靠。

3、機器學習、深度學習裡面其實涉及蠻多數學的只是的計算的，對於如果只是培訓來說，能講明白的估計也夠嗆，只能挑比較簡單的來講。

4、在企業中，實際使用到機器學習相關的，都是比較核心，小部分的團隊。一般來說，對於演算法的優化調整都是要求實際的經驗、經歷的高手來，或者內部培養對業務熟悉的人員來。純培訓進來的，說不在的話，能快速上手的少。

5、大公司對於大部分員工不要求你造輪子，而是要求你會快速使用現成的工具來解決問題。因為你的輪子不一定100%準確，效率、準確性，可能都比不上現有的工具。

此類大資料的資料，還是的看國外的書，國內的很多書都是堆砌內容，沒有太多的指導意義。

6樓：

因為大資料已經過了炒概念的階段了，不再需要對著行外人講行外話讓他們覺得高大上，分工以及發展方向都很明確，直接擺出框架挑自己喜歡的學就行。機器學習也是方向之一，spark本身也是個機器學習框架，機器學習接hadoop的資料也有成熟的技術方案。

當然了，我見過所有的所謂大資料培訓機構，都是菜得摳腳，蜻蜓點水式入門還勉強可以，學完就覺得自己是個合格的架構師/開發工程師，就想多了，學會幾個名詞片片行外人還行，行內人稍微問細點就知道水平。

7樓：

分布式對應的不是單體麼，這是一種架構。

大資料對應的是領域，機器學習這些也是領域。大資料/機器學習是分布式平台不是很正常麼，你搞那麼大的計算量，單體怎麼撐得起來，跑超算麼？

8樓：「已登出」

分布式平台是指將資料儲存、資料分析和計算等構建在由多個主機構成的集群上的軟體平台。

相對於單機構成的系統分布式平台具有諸多的特點和優點:

資源共享，

使用者透明性，

高價效比，

高可靠，

高度靈活性。

那麼什麼是大資料呢？

大資料由巨型資料集組成，這些資料集大小常超出人類在可接受時間下的收集、使用、管理和處理能力。大資料的大小經常改變，截至2023年，單一資料集的大小從數太位元組（TB）至數十兆億位元組（PB）不等。

大資料的特點:

資料體量大，

資料型別繁多、

處理速度快，

商業價值高。

為什麼人們會把大資料和分布式平台搞混呢？

大資料與雲計算密不可分。大資料必然無法用單台的計算機進行處理，必須採用分布式計算架構。它的特色在於對海量資料的挖掘，但它必須依託雲計算的分布式處理、分布式資料庫、雲儲存和虛擬化技術。

雲計算技術就是乙個容器，大資料正是存放在這個容器中的水，大資料是要依靠雲計算技術來進行儲存和計算的。

9樓：

作為培訓機構不寫的高大上點沒人報名，市場部交不了差的啊！

大資料和分布式是完全兩個概念。

如果培訓機構的培訓都可以確定行業標準了那麼還需要這麼多搞研究的研究新技術幹嘛暱。

靠譜的東西很少，營銷的成分很多。切實能夠用上的更是少之又少。

工作中更多的是邊學邊做，培訓的東西只能說帶你入個門。

10樓：Chauncy Ray

你列舉的 hadoop 、spark 只是大資料的部分內容，並不是大資料的所有

大資料必然是分布式，因為業務與資料量達到單機節點承受的峰值

11樓：涼子

大資料技術的三個重點：Hadoop、spark、storm。Hadoop本身就是大資料平台研發人員的工作成果，Hadoop是目前常見的大資料支撐性平台，Hadoop平台提供了分布式儲存（HDFS）、分布式計算（MapReduce）、任務排程（YARN）、物件儲存（Ozone）和元件支撐服務（Common）。

那麼提問者提及的機構和其他組織的定義的確是滯後了的，就連小毛孩都知道：科技的發展是飛速的，機構和企業必須要及時進行更新，要麼跟緊時代潮流，要麼被時代淘汰。

也不排除有那麼一部分人機構混水摸魚，拿過了期的「商品」出來展示售賣，這是極為可恥的。

12樓：原原

數位化平台就是指大資料、雲計算、人工智慧、區塊鏈，網際網路等一系列數位化技術組成的數字綜合體。

大資料的「大」，包含靜態資料動態資料之大，動態資料，比如有1000個座標，一天有24小時，一年有365天，不斷的在採集各種資料，然後持續地積累資料，那麼這個動態的資料，可以想象會非常巨大地疊加起來，同時使用資料運用資料以後產生的資料也非常大。任何靜態動態的資料一旦被使用，被通訊過程通訊過，計算過程計算過，這個計算過程動態的資料又會疊加在一起形成新的資料。

是針對當前雲儲存模式大多採用中心化結構而言的，中心化結構是少數雲服務提供商控制著大多數資料資源和服務。區塊鏈技術可以提供分布式資料平台，實現設計資料的訪問和版本同步。分布式是利用了異地分布的區域性或全球性節點來管理資料。

利用這些節點的分布式特徵，既可以使去中心化儲存具有高度可擴充套件性，同時也確保了儲存的高效能。

13樓：

第一、製造賣點。培訓機構要賺錢，要迅速的抓住小白，怎麼辦，製造賣點。賣點是中性詞，噱頭是貶義詞。

第二、話術。培訓機構要從客戶的荷包把錢掏出來，怎麼掏？這就需要話術。話術含有貶意。通過話術，引導你。

第三、明確的培訓目的。計算機是乙個分層的系統。在本科國家質量標準中，要求學生掌握分層的概念。

大資料也是分層的。上層是應用，下層是硬體。而hadoop、spark是乙個分布式處理的框架。

培訓班的目的很明確，就是快速培訓出企業急需的技術工人，也就是能夠程式設計的碼農、碼工。

14樓：Cheney Yin

普通計算裝置無法在有效時間內處理的資料分析問題都可以歸為"大資料"。假設當前一般計算裝置的計算和儲存能力等同於一部手持計算器，那麼等價於奔騰4+2GB RAM+512 HD + MATLAB/Excel的平台就可以算做是大資料處理平台。目前大資料分析平台架構多採用分布式架構是從資料量對計算能力和儲存能力的考量而來的，資料分析平台架構設計由於受制於單機硬體裝置的能力，所以選擇通過網路組建分布式系統架構來伸縮性能。

另外，分布式系統還具有容錯能力。因此，目前大資料平台多採用分布式架構。

15樓：易哥

大資料相關的概念、分布式相關的概念，都是如此，一塌糊塗。

其實很多概念本身就有點模糊，因為提出者往往是在學術論壇等環境下提出，沒有特別明確的定義。但是，指代還是比較明確的，大家基本都採用英文文獻裡的標準稱呼。

但是這一切到了工程界，真是亂。

猜想主要原因是，太火了，然後人人都想進去說幾句，還都得當作專家。結果概念都沒搞清楚就開始亂說。

然後，再經培訓機構的非計算機出身的傳媒從業者一攪和，那個亂啊。

就連Python之父，我現在都不知道是誰了。。。

曾經有人拿著某個比較有名的入門學習站點的機器學習課程列表問我，這些機器學習知識學完能幹啥。

我點開看了下，在用Python求平均值、標準差、方差、散點圖、線性回歸、決策樹……

於是只能說，學完就能用Python解初中統計學相關的數學題了……

原來，求標準差也算是機器學習……佩服佩服！

你好歹來個邏輯回歸、支援向量機、協同推薦啥的，我也認了……

搞個中位數和標準差出來，也太……

恰飯不能這樣啊！

這些概念都不想看了，都被培訓機構攪和渾了。

如果真想看看機器學習，我推薦一本經典書籍吧：

書籍很經典，從它不修邊幅的封面就能感覺到。

這已經是公升級了的封面了。第一版的封面，比這更加不修邊幅……哈哈！

但就是經典，任性！

最後，我是一名高階軟體架構師。

為什麼好多人認為大資料就是分布式平台？

為什麼好多人都去培訓班學大資料，自學真的很難麼？

為什麼好多人認為德文布克是刷子？

為什麼現在好多人認為學歷不重要？

其他用戶還看了：

為什麼好多人認為大資料就是分布式平台？

為什麼好多人都去培訓班學大資料，自學真的很難麼？

為什麼好多人認為德文 布克是 刷子 ？

為什麼現在好多人認為學歷不重要？

其他用戶還看了：

為什麼好多人認為德文布克是刷子？