當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

2020年阿里大数据一面面经,看看你还有啥不知道的？

發布時間：2025/4/5 编程问答 31 豆豆

生活随笔收集整理的這篇文章主要介紹了 2020年阿里大数据一面面经,看看你还有啥不知道的？小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

一、PV和UV是怎么計算的，UV怎么進行去重的？不用ES該如何實現去重？

思路：首先要理解PV、UV的基本概念。去重分兩種，一種是基本的數據結構(Hashset等)，另外一種是借助框架去實現(bigmap、hyperloglog等)。

二、說說 flink,spark streaming,storm 的區別？

三、講一講spark的調度執行邏輯，stage，寬依賴和窄依賴，容錯機制？

這部分由于內容太多，只提供部分重點答案。

1.調度執行邏輯：

spark shuffle：因為具有某種共同的特征的一類數據需要最終匯聚（aggregate）到一個計算節點進行計算，這個數據重新打亂然后匯聚到不同節點的過程就是 shuffle。

老版本：Hash Base shuffle 產生的臨時文件數 = MapTask * ResultTask

弊：會產生過多的臨時文件。

新版本：SortBased

以上是生活随笔為你收集整理的2020年阿里大数据一面面经,看看你还有啥不知道的？的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。