資料科學工作者 Data Scientist 的日常工作內容包括什麼?

時間 2021-05-08 01:26:00

1樓:上里巴人

相關:RT, a statistician who lives in San Francisco

其實這個定義只說對了一半,因為現在定義太多了。我覺得按工作性質來說,分兩類:

一是Insight型別資料科學家,代表公司:Facebook, LinkedIn

看一下Facebook的ds職位描述:

Leveragedata and business principlesto create and drive large scale FB Data Center programs

Define and develop the program formetrics creation, data collection, modeling, and reporting the operational performanceof Facebook』s data centers

Work cross-functionally todefine problem statements, collect data, build analytical models and make recommendations

Be a self-starter, motivated by a passion for developing the best possible solutions to problems Identify and implement streamlined processes fordata reporting and communication

Useanalytical modelsto identify insights that are used to drive key decisions across the organization

Routinelycommunicatemetrics, trends and other key indicators to leadership

Provide leadership and mentorship to other members of the team

Lead and support various ad hoc projects, as needed, in support of Facebook』s Data Center strategy

Build and maintain data drivenoptimization models, experiments, forecasting algorithms and capacity constraint models

Leverage tools likeR, Tableau, PHP, Python, Hadoop & SQLto drive efficient analytics

關鍵內容已經加粗。重點就是,結合資料和商業,發現和定義問題,獲取資料,用分析模型等方法,幫助公司理解資料和作出決策。可以看出,其中communicate被用了兩次,「合作」「回報」等也被多次提及。

另乙個是Inference型別資料科學家,代表公司Amazon (部分組)

Design, develop, evaluate, and releasehighly innovative models elevate the customer experience andtrack impact over time

Collaboratewith colleagues from multidisciplinary science, engineering and business backgrounds.

Work with engineersto develop efficient data querying and modeling infrastructure for both offline and online use cases

Manage your own process: identify and execute on high impact projects, triage external requests, and make sure you bring projects to conclusion in time for the results to be useful

Communicateproposals and results in a clear manner backed by data and coupled with actionable conclusions to drive business decisions

Advanced degree in Math, Statistics, Engineering, Computer Science or related discipline

Demonstrated ability to frame complex analytical problems and extract insights that led to tangible business results

High-level knowledge of variousmachine learningtechniques and key parameters that affect their performance

Amazon的規模太大,不同組也不太相同。但這個職位描述,提了兩次machine learning,並且還提到work with engineers,同時提到建模全流程Design, develop, evaluate, and release,並且track over time。還提到了Python。

和第一類相比,它也強調了資料質量、團隊合作、商業資料,所以這些是共通之處。

其實,這兩類的差別並不十分明顯。因為即便是insight型,也可能需要python,也可能被要求做inference型的工作。inference型一般來說,肯定需要做研究insight的工作。

我的直觀感覺是,inference型更強調機器學習和工程能力,並且一般是做prediction的模型。

並且,這兩者的區別會越來越小,機器學習會是必須要求。

舉乙個例子,A/B testing。聽起來很簡單,不需要機器學習。但其實,這可以轉化為Multi-Armed Bandits這樣的經典問題,而用強化學習的思想來解決。

事實上,很多公司已經用這個來取代部分傳統A/B testing,比如Google and Facebook。參考:hackernews這個thread

2樓:

座標日本某500強 DS新人混子

內容大致為:社內業務模型,社外業務模型,知乎查(大)資(水)料(逼),混kaggle,等等

3樓:PiXiXi

A DS team under IT department (yay, an old money brand)

1. Recommender system by clustering & collaborative filtering.

2. Some text mining on consumer comments.

4樓:

面試過http://

Booking.com

的Data Scientist,網際網路公司無論國內外應該需求都是相似的,所以應該可以參考一下。他們的Data Scientist並不把自己嚴格的和Business Analyst區分開來,兩個角色同時在公司裡存在也會有互換,面臨的都是相似且非常實際的Business Case。

比如乙個實際的例子是他們想要在中國挑選合作物件,手上有近百家公司的資料,現在需要做乙個模型來幫decision maker(product owner)做決定。是DS接手還是BA接手來做完全取決於product owners的所在部門。

兩個角色大多都不是CS出身,一定的統計線性代數背景就夠用了。如果要操控大規模資料,自己能上就上,不能上就給工程師提需求。總而言之,都是幫助老闆解決實際問題創造效益,title不是很重要。

如上所述,一般合作物件: product owner, 工程師。

科學工作者大都相信無神論

理工科博士表示在工作不下去的時候聽心經真的有用 當然大部分可能是心理作用,還有曲目旋律本身的鎮靜作用。我不信任何宗教,但總覺得這個宇宙中有乙個最基本的法則,也可稱其為 神 或最終的大boss。我們現在的認知太少,少到不知道它到底是什麼。總之對未知多少保留一分敬畏吧,但感覺此生都不會信任何宗教,因為假...

平民科學工作者是科學技術革命的第一推動者嗎?

真理越辯越明 樓主的問題本身是個問題,有嚴重的邏輯錯誤。首先,民科和管科本身不是什麼對立的概念,也不是哪乙個更科學的證據。科學就是科學,它主要指的是,科學的態度,科學的方式,科學的分析,科學的解決問題,探索未知世界。不管民科還是管科,只要他們科學的辦事就是科學家,否則就是偽科學或者反科學。比方,在中...

如何定義數學工作者所說的「分析功底」?

意思是可以處理沒有內在結構,零散,許多時候甚至凌亂的問題。分析是乙個極大的分支,不同子分支之間的情況可能完全不一樣。一些如運算元代數的子分支可能更接近代數幾何和表示論。所以不是做分析的數學家就一定有很好的 分析功底 其他分支的數學家,物理學家在許多時候也需要用到。需要說的是,具體做 最好的估計 只是...