百度统计 java 实现思路_搞定BAT之百度面经深度整理
準備百度的大數據開發面試的時候查了很多資料,找了很多面經,但是網上關于百度的面經比較少,所以最后把自己從各路大佬那里淘來的珍貴面經整理出來,也算回饋大家了。
我都匯總過了,題目很多,主要是通過這些題目可以找到大廠面試的思路,融匯貫通最后就能舉重若輕。
感謝為我提供面經的大佬們,也希望看這篇帖子的人能拿到自己滿意的offer。
不多說,上干貨!
01
百度面經一筆試部分
你可以得到網站訪問記錄,每條記錄都有userIP,設計一個程序,要隨時能計算出過去5分鐘內訪問次數最多的1000個IP。
簡述Paxos協議。
編程簡單實現一個阻塞隊列。
簡單實現一個LRU算法。
有一個5000萬的用戶文件(user_id,name,age),一個2億記錄的用戶看電影的記錄文件(user_id,url),根據年齡段觀看電影的次數進行排序。
技術部分
Java的NIO是否了解?
Java多線程(什么wait、notify)。
MapReduce的shuffle過程(手畫,邊畫邊介紹),reduce是怎么到map端獲取數據的(RPC通信是否了解)。
一句話介紹MapReduce。
Spark做緩存時緩存在哪里?
百度不用Spark,只用Hadoop和MapReduce(至少這個部門是這樣,這個部門的主要業務是做用戶畫像),把MapReduce工作的各個階段過程吃透。
是否看過Hadoop源碼。
Linux系統(常用命令啥的)。
除了這些平時還接觸或者學習哪些技術?
項目部分
業務架構。
根據項目業務介紹技術。
MapReduce數據傾斜和內存溢出怎么辦?
算法部分
手寫歸并排序。
手寫用遞歸實現斐波那契數列第100項的值(第一項和第二項分別為0和1) 。
算法和數據結構了解到什么程度、知道多少?
Java中的數據結構,ArrayList和LinkedList的區別,ArrayList為什么查詢快(為什么用數組就快)、LinkedList為什么增刪快,哪些Map是線程安全的?
手寫代碼部分
手寫MapReduce的WordCount(導入的包最好能記住)。
場景部分
遇到垃圾日志怎么辦(假如說有人惡意制造日志,怎么處理。我說的黑名單機制,那個面試官貌似還挺滿意)
02
百度面經二基本信息介紹
百度:視頻面試;
面試周期:5天;
面試次數:6次;
面試總時長:3小時。
一面二面(印象中的一些問題):
自定義UDF、UDTF。
如何確定計算數據的準確性?
建立數倉的目的。
自定義攔截器步驟。
SpringMVC。
設計網站前后端交互問題。
Linux常用命令。
三面(部門負責人):
在沒有PM的情況下如何對指標做拆分去分析?
介紹了他們部門的工作內容。
四面hrbp:
介紹工作經歷+工作遇到的困難+對所應聘職位的理解+分析指標提出時間和原因+離職原因等問題
五面業務總裁:
某一天日活下降10%,需要從哪些維度分析,如何分析?不用說技術
六面Recuriter面:
上家薪資+期望薪資+職級+對數據分析和指標分析的理解+職業規劃等問題。
03
百度面經三基本信息介紹
11月17號度小滿金融(原百度金融,A輪公司);
面試地點:西北旺百度科技園旁;
面試時長:2個半小時;
面試次數:3次。
一面:
一面中規中矩,有手寫SQL環節,還有SparkStreaming常用算子解決實際問題。大概1個多小時。
手寫SQL考的是:
三個字段:area、year、temperature,統計每個地區的溫度最高的對應的年份。
寫的用rank函數,一個子查詢,險過。
二面:
因為面的是架構師,所以二面問的是幾個組件的版本號和幾個大數據組件的安裝過程和配置文件細節,還有HA的幾個進程的作用,比較難。大概20分鐘
三面:
問了自定義UDAF,UDTF,和數倉開放性問題,和三面主管說了畢業時間,并說了未簽訂勞務合同,他說怎么沒簽合同呢,太后悔了,最后走的時候說hr可能過不去,給我爭取一下。大概30分鐘。
04
百度面經四筆試
寫出用戶表 tb_cuid_1d的 20200401 的次日、次7日留存的具體HQL ;
一條sql統計出以下指標(4.1號uv,4.1號在4.2號的留存uv,4.1號在4.8號的留存uv)(一條sql寫完);
統計當天不同平臺、版本下的uv、pv;
解析ext中所有的"type"( lateral view explode);
二面:
有兩張表,分別是t_a (uid,os,day),t_b(uid,os,day),統計15號在t_a,但是不在t_b的用戶;
ut格式:??機型_app版本_xxx_xxx_廠商,如 iphone 6s_10.0.0.1_sdk12.1_baidu_iphone:解析出來12.1
針對表?t_a (uid,os,day),統計以下兩個指標
? ? ? ? ?最近30內,所有用戶末次活躍日期
? ? ? ? ?最近30內,所有用戶末次活躍日期和倒數第二次的差值
05
百度面經五一面:
講項目。
Kafka精確一次性。
數據量。
log日志類型,存的什么數據?
Spark Streaming怎么做的實時?
HBase Rowkey你是怎么設計的?
Namenode 重啟流程。
HDFS讀流程。
Flume攔截器怎么寫的?
Fume結構。
兩道算法:
窗口求中位數,說流式處理底層求熱點問題常用到;?
一個樹形結構,一個節點可以監聽它的父節點和子節點,問最小監聽數量。
該公眾號開源為大家解決大數據企業級遇到的各種問題,也歡迎各位大佬積極加入開源共享(共同面對大數據領域各種老大難問題)
來稿請投郵箱:miaochuanhai@126.com
與50位技術專家面對面20年技術見證,附贈技術全景圖總結
以上是生活随笔為你收集整理的百度统计 java 实现思路_搞定BAT之百度面经深度整理的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 紫金县苏区镇黄布村有多少个姓氏
- 下一篇: 如何配置charles_抓包工具--ch