沐神的第三代parameter server的worker節點只需要儲存部分引數,怎麼理解?

時間 2021-05-07 00:20:45

1樓:Dounm

@李沐 大神說的概括了點,我來詳細的說下,如有不足,還請指出~

舉個全連線深度學習網路DNN的例子,這個網路結構裡的引數分為兩類。

- 第一類是:輸入層和第乙個隱層之間的引數,

- 第二類是:隱層與隱層之間的引數以及隱層和輸出層之間的引數。

ParameterServer架構中每個worker獲取的樣本集都是固定的。設總共有10k個訓練樣本,3個worker。那麼可能worker1僅被分配了3k個訓練樣本,而且在整個的訓練流程中,worker1也只處理這3k個樣本。

對於稀疏資料來說,假設總共有500個特徵,而worker1獲得的3k條樣本裡可能只包括了200個特徵。

因此對於worker1來說,無論是forward還是backward,在輸入層與第乙個隱層之間,都僅會對這200個特徵對應的引數進行處理(其餘300個特徵對應的輸入是0,所以它們的引數值不會參與到forward/backward中)。

所以,worker1從ParameterServer那pull引數時,第一類引數僅需要獲得那200個特徵對應的即可;第二類引數則需要全部都pull下來。這就是所謂的worker節點只需要保留部分引數。

當然,上述例子可能體現不出部分保留引數的優勢。但對於某些特殊應用場景,如ctr預估,特徵總數通常上千萬,而每條樣本可能只有幾十個特徵,乙個worker即便處理1w個樣本,可能所需要的第一類引數也只有1w個。這種情況下,輸入層維度是上千萬,如果無法按需獲取特徵的引數,每個worker都要pull所有的特徵的話,網路絕對吃不消。

2樓:李沐

這個主要是針對稀疏資料說的,因為每個worker只會拿到一部分資料,很有可能是不需要整個模型就能計算梯度,例如主需要拿到資料裡面出現過的特徵對應的權重

第三代試管嬰兒適合什麼人群 做第三代試管嬰兒有什麼要求???

小飛豬 適用於有遺傳性疾病的夫婦,適用於特殊人群是在胚胎養好後植入母體前取胚胎的一部分組織進行遺傳病的篩查然後再選擇正常的胚胎進行移植 毛毛 第乙個問題,想要做試管的經濟預算夠的都可以考慮三代試管這個是從成功率方面考慮三代通過染色體篩選的囊胚,移植成功率相對高一些 在國內做第三代試管嬰兒需要符合三個...

如何評價 iPad Air 第三代 和 iPad mini 第五代

兩年 在京東入了mini564GWIFI版用來玩吃雞和上網課用了乙個月耗費25G 然後看網課的時候宕機了兩次不過等1.2分鐘又好了挺小巧的個人感覺一般吧! 風險減肥 昨天iPad mini 5到了不得不說京東是真的快啊抓住618最後一天買的嘿嘿。外觀方面 不得不說mini5真的很輕薄,但總體外觀延續...

如何評價阿里雲的第三代神龍架構?

奉孝翼德 阿里神龍架構貌似搞了很長時間了,2019年發布的第三代神龍MOC時候的描述,直接讓我聯想到了AWS的Nitro卡,不可否認兩者很像。只是想說,AWS發布的Nitro能公開介紹很多細節資訊,而阿里介紹的神龍架構的描述則更像乙個神秘的黑盒子。阿里是生怕介紹點細節就被別人抄襲了是嗎? 一般的商用...