請介紹一下工業界中,機器學習(深度學習)在spark等分布式計算平台中的使用情況?

時間 2021-06-05 12:14:58

1樓:

其他框架不是很了解,說一下Spark吧

Spark有自己的mllib庫,裡面實現了一些常用的傳統機器學習演算法,包括LR,LinerSVC,Random Forest等,,這樣才能夠在大資料下充分利用分布式地效能。

但是顯而易見地,仍然有非常多的演算法是不適於Spark RDD的分布式機制的,例如:

類似KNN這樣的,在不進行一些近似或索引的情況下需要進行笛卡爾積或等價的操作,利用Spark去實現實際上不會十分的高效。

引數非常多的情況,例如在LR的特徵數目在 時用Double表示的Weight就已經佔據了數十兆的空間,而spark優化求解時,會將所有的weight全部broadcast到worker上,可以想象隨著引數的增多,這會產生巨大的開銷,在這種情況下Spark也是不適合的。

mllib中有乙個多層感知機的model,實際上就是最基本的DNN,而正如前面的2所說,在引數很大的情況下,去應用這個模型也也是不合適的。

下面是一些個人觀點。目前來看,Spark最適用的其實是資料處理,清洗等任務,能夠在部分領域裡取代傳統資料庫,這本質是因為其選擇了MapReduce的機制實現分布式化,每次通訊都要等待同步,而目前主流的專用分布式dl/ml框架都是採用引數伺服器的形式,允許不同worker之間的非同步執行,因此將spark與主流的框架深度結合不會是一件容易的事情。

問一下工業工程專業怎麼樣?

看學校 看方向 盡量不要考雙非院校的工業工程,差不多都是跟風設定的,師資差,就業基本就是去工廠 盡量避開管理類的工業工程,這種也是大概率跟風管理科學與工程一級學科設定的,嘴炮幹不過工商管理的,實際動手能力又不行 簡約並且簡單 工業工程專業畢業10年多了,目前做生產管理。同學中與本專業相關的也就為數極...

問一下工業設計專業所需電腦配置側重點

yosay 上大學,這個年紀。可以自己買些台式電腦配件組裝下。經濟實惠,而且可以學習。如果對組裝不感冒,可以買個手提電腦,一半I3 cpu就夠了。記憶體選個4G的 硬碟選擇32固態硬碟,可以加個機械硬碟。其他沒了。個人建議, 一般大一的時候學的是美術相關,不需要用電腦。今年好好學習,打好基本功,放假...

王水為什麼能溶解金?請詳細介紹一下?

deepspace 這是因為 王水是HNO3 硝酸 和HCl 鹽酸 的混合物,雖然兩者的純淨物無法氧化金,但是硝酸電離的NO3 在有較多H 存在的情況下,氧化性是極強的!提高氫離子濃度雖然可以靠提高硝酸濃度,但濃硝酸會分解出二氧化氮,捉急呀!所以只能靠鹽酸這種電離能力賊強的酸來湊個H 濃度,把Au氧...