大資料崗位面試官眼中應聘者如何表現說明其具備「處理大資料（GB TB PB級或以上）的經驗能力」？

1樓：

GB級？我看個小電影都不止了

歸根到底在發現問題、分析問題、解決問題的能力我沒見過專門問大資料處理問題的面試，如果專門問這個的話，估計一般都是團隊缺這方面的人讓你自己講你之前用什麼框架做了什麼事情踩了哪些坑。

問技巧問Knowhow除了裝逼之外沒什麼用，比如我如果問你HyperLogLog，很可能相當多的專案根本不需要用，自然參加面試的人是不太有機會知道的。真要用的時候網上搜一下，知道有這個東西就可以用了，也不太可能自己手寫乙個。

有些問題比如機器的Allocation可能大公司裡資深的員工也沒遇到過

小公司裡的員工可能每天都要解決這些問題

而對於流水線的調優之類的問題可能就相反

如果我是給成熟大資料處理的部門面試的話，

除了考察基礎資質的程式設計和演算法之外，

可能會描述這個部門之前遇到的問題情景來問解決問題的流程方法，比如描述乙個流水線結構，問可以從哪些角度來考慮效能的調優比如描述乙個現象就是流水線經常會掛，問可以從哪些角度來考慮提公升穩定性

2樓：付鵬

不建議取巧地糊弄面試官，有什麼能力不是這裡給幾招就能蒙混過關的。

Hadoop或者Spark的資料處理也沒有那麼強，很多坑基本所有人都會踩到。

簡單說兩點Hadoop。

坑一：reducer資料分布不平均的坑

MapReduce的全流程要搞懂的，如果真的用Hadoop處理過大量資料，幾乎一定會碰到Hadoop自帶Partition的Hash函式不堪用的情況，自己手寫Partition是一定有的。那麼預設Hash是怎麼實現的？你遇到了什麼問題導致Partition給reducer分的不一致？

你怎麼手寫了乙個Partitioner來保證reduce得到的資料量基本上平均？

坑二：長尾reducer的問題

reducer長尾是很典型的大資料量才有的問題，即使有MR實現平行計算的情況下，以key分割資料的MR仍然可能遇到長尾資料分布帶來reducer的長尾，即99%的reducer都執行完了，剩下1%的reducer怎麼也執行不完的情況。

the、a等詞的詞頻遠高於其他詞，導致部分reducer得到的資料遠遠大於其他reducer，當資料量特別大的時候，the、a的資料量也特別大，單機短時間處理不完，就有了長尾的reducer。

這又怎麼處理呢？

上面兩個，都是很常見的場景，處理過大量資料的MR應該都會碰到的。

大資料崗位面試官眼中應聘者如何表現說明其具備「處理大資料（GB TB PB級或以上）的經驗 能力」？