演算法工程師需要具備哪些大資料相關知識?

時間 2021-05-12 01:27:23

1樓:笑個不停

2樓:34er5

害,做為一名已經從業2年多快3年的風控演算法工程師的視角來回答一下這個問題,不過看題主是從事計算機視覺的童鞋,可以參考一下

以乙個業務驅動的演算法模型的上線流程來具體說一下需要用到的一些資料處理技術

業務爸爸說,這邊有一塊使用者的風險近期抬頭了,需要壓降,老闆說那個xx童鞋你來支援一下,這時候你需要和策略方勾兌一下了解清楚這個需求,基於這個需求這個時候就需要進行任務分解了,建模人員需要做大概以下幾個事項,

1.標籤提取,對於演算法而言,這一部分使用者的資料和對應的風險標籤怎麼來呢,就需要從對應的風險資料集市裡面來提取資料,這個時候對於動輒百萬起步的使用者而言,一頓手擼sql是逃不了了,這時候可能各家的資料集市不太一樣,不過hive/spark sql 或者其他sql是必不可少的,但是除了用sql提取出來的標籤資料,這塊得和業務方核對一下這個資料是不是策略爸爸的需要資料口徑,例如風險的時候要處理的是新客結果你取得的全量客戶,那這個後續提取的建模資料可能就一些問題了

2.建模資料提取,標籤提取好了,要開始建模提取和分析了,這時候就需要分情況來看了,如果需要不需要衍生特徵,公司內部有乙個自然的特徵資料倉儲,舒服!直接用第一步提取的標籤檔案和特徵數倉join一下就好,這裡就看資料倉儲的型別,如果是資料庫,直接用sql等和表直接拼接,但如果是hdfs,則需要用spark/mapreduce來做資料提取操作,取到在你標籤圈定使用者的特徵資料

3.建模和分析:資料也提好了,標籤也設計好了,害,如果給風險模型來說,就是看個家對模型需求了,不過這裡主要是應用pandas來做資料分析,然後使用各式演算法來獲得對應業務標籤下的模型

之後就是分析模型的效果穩定性。

4.最後離線打分和提交策略,這裡需要把前一步儲存的模型上傳到集群上,然後用spark或者mapreduce來對全量使用者打分,最後導成對應的資料表提交給業務爸爸,然後由業務爸爸分析對應的策略和上線

綜上,其實核心就是pyspark/mapreduce/sql這三項,絕大部分時間主要是用這三個工具來完成標籤提取,特徵提取以及特徵工程,模型層面的框架主要是xgb/lgb/tensorflow等

害,資料提取工程師本工了!

3樓:djh

我來寫一下關於AI工程方向的一些基本的知識結構。大體的如下希望對大家有用。

4樓:資料猿溫大大

首先需要掌握基礎類知識:

數學基礎、Python基礎、Linux基礎、資料結構和演算法基礎接著2-3年的初級演算法工程師需要掌握:機器學習、資料分析。

4-6年的中級工程需掌握:深度學習、強化學習、遷移學習、生成對抗網路,

高階工程師開始分領域深造:自言語言處理、語音識別、影象處理、NLP等方向進行深造

5樓:

就我個人學習歷程來看,這兩之間沒有關聯,其實。你應該更多的去學習數學與統計學學的相關知識,這一點很重要。接著就是學Python或者matlab,這是做演算法最常用的工具,接著就是學習機器學習和深度學習,這也是比較重要的,最後就學習你想走的方向。

或者是視覺又或是自然語言處理。加油吧!

6樓:IT野狐禪

第乙個最主要的,時刻記得大資料是在分布上跑的。演算法必須適配分布式環境。

不要把演算法和大資料分的很清,多看看大資料知識,一定理解資料是在那裡:運算節點、控制節點;是在記憶體、磁碟、還是其他節點。。。

大資料提的最多的就是shuffle。我們的演算法盡量避免shuffle。

高階前端工程師需要具備哪些技能?

GunGun 這個問題問的好,團隊內有一些有機會晉公升為高階工程師的同學,那怎麼判定乙個同學是否可以達到高階工程師的程度呢?我從反向的思路給些回答。一般大部分公司會向員工提供乙個人才勝任力模型,多方位判定乙個員工的能力可以達到的級別的程度。這個模型一般是通用的,適用於各個崗位,這裡舉例 一 通用能力...

電機控制演算法工程師需要哪些能力?

耳大頭肥 想聽實話?當然不可能。你來的話企業至少培養你三年,三年後你僅僅是認識豐富了不少,但是要想直接做電機控制演算法工程師,差距還太大。我就算你高頻注入完全精通,大神級別,也僅僅是解決了凸極永磁同步電機中的低速無感測問題中的乙個問題。這個面太窄了。做理論的當我沒說,但是想要去企業面試,會這麼一點那...

商用大資料平台普遍起來,大資料開發工程師會失業嗎?

看屋雲 當然不會。從業內的實際情況看,不如說剛好相反,商用大資料平台的推廣程度越高,大資料開發工程師的崗位需求越多。讓我們從兩個方面來講清楚這個問題 1.目前在國內,大資料開發工程師的崗位需求與商用大資料平台的推廣呈同步推進關係。2.長期來看,商用大資料平台不能取代自研資料平台,也不會導致開發工程師...