2020年阿里大数据一面面经,看看你还有啥不知道的?
生活随笔
收集整理的這篇文章主要介紹了
2020年阿里大数据一面面经,看看你还有啥不知道的?
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
一、PV和UV是怎么計算的,UV怎么進行去重的?不用ES該如何實現去重?
思路:首先要理解PV、UV的基本概念。去重分兩種,一種是基本的數據結構(Hashset等),另外一種是借助框架去實現(bigmap、hyperloglog等)。
二、說說 flink,spark streaming,storm 的區別?
三、講一講spark的調度執行邏輯,stage,寬依賴和窄依賴,容錯機制 ?
這部分由于內容太多,只提供部分重點答案。
1.調度執行邏輯:
spark shuffle:因為具有某種共同的特征的一類數據需要最終匯聚 (aggregate)到一個計算節點進行計算 ,這個數據重新打亂然后匯聚到不同節點的過程就是 shuffle。
老版本:Hash Base shuffle 產生的臨時文件數 = MapTask * ResultTask
弊:會產生過多的臨時文件。
新版本:SortBased
總結
以上是生活随笔為你收集整理的2020年阿里大数据一面面经,看看你还有啥不知道的?的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Flink从入门到精通100篇(十一)-
- 下一篇: 2020必知的 10 大顶级 pytho