利剑无意之面试题(三)
- hive的計(jì)算是通過(guò)什么實(shí)現(xiàn)的
?
hive是搭建在Hadoop集群上的一個(gè)SQL引擎,它將SQL語(yǔ)句轉(zhuǎn)化成了MapReduce程序在Hadoop上運(yùn)行,所以hive的計(jì)算引擎是MapReduce,底層存儲(chǔ)采用的是HDFS。
- 為什么不用Java的序列化serilazable
Java的序列化是一個(gè)重量級(jí)序列化框架(Serializable),一個(gè)對(duì)象被序列化后,會(huì)附帶很多額外的信息(各種校驗(yàn)信息,header,繼承體系等),不便于在網(wǎng)絡(luò)中高效傳輸。所以,hadoop自己開(kāi)發(fā)了一套序列化機(jī)制(Writable),特點(diǎn)如下:
1.緊湊
緊湊的格式能讓我們充分利用網(wǎng)絡(luò)帶寬,而帶寬是數(shù)據(jù)中心最稀缺的資源
2.快速
進(jìn)程通信形成了分布式系統(tǒng)的骨架,所以需要盡量減少序列化和反序列化的性能開(kāi)銷(xiāo),這是基本的;
3.可擴(kuò)展
協(xié)議為了滿足新的需求變化,所以控制客戶端和服務(wù)器過(guò)程中,需要直接引進(jìn)相應(yīng)的協(xié)議,這些是新協(xié)議,原序列化方式能支持新的協(xié)議報(bào)文;
4.互操作
能支持不同語(yǔ)言寫(xiě)的客戶端和服務(wù)端進(jìn)行交互;
- MapReduce工作流程
1>輸入分片(input split):在進(jìn)行map計(jì)算之前,mapreduce會(huì)根據(jù)輸入文件計(jì)算輸入分片(input split),每個(gè)輸入分片(input split)針對(duì)一個(gè)map任務(wù),輸入分片(input split)存儲(chǔ)的并非數(shù)據(jù)本身,而是一個(gè)分片長(zhǎng)度和一個(gè)記錄數(shù)據(jù)的位置的數(shù)組,輸入分片(input split)往往和hdfs的block(塊)關(guān)系很密切,假如我們?cè)O(shè)定hdfs的塊的大小是64mb,如果我們輸入有三個(gè)文件,大小分別是3mb、65mb和127mb,那么mapreduce會(huì)把3mb文件分為一個(gè)輸入分片(input split),65mb則是兩個(gè)輸入分片(input split)而127mb也是兩個(gè)輸入分片(input split),換句話說(shuō)我們?nèi)绻趍ap計(jì)算前做輸入分片調(diào)整,例如合并小文件,那么就會(huì)有5個(gè)map任務(wù)將執(zhí)行,而且每個(gè)map執(zhí)行的數(shù)據(jù)大小不均,這個(gè)也是mapreduce優(yōu)化計(jì)算的一個(gè)關(guān)鍵點(diǎn)。
2>map階段:就是我們寫(xiě)的map函數(shù),map函數(shù)效率相對(duì)好控制,而且一般map操作都是本地化操作也就是在數(shù)據(jù)存儲(chǔ)節(jié)點(diǎn)上進(jìn)行;map函數(shù)每次處理一行數(shù)據(jù),map主要用于數(shù)據(jù)的分組,為下一步reduce的運(yùn)算做數(shù)據(jù)準(zhǔn)備,map的輸出就是reduce的輸入。
3>combiner階段:combiner階段是可選的,combiner是一個(gè)本地化的reduce操作,它是map運(yùn)算的后續(xù)操作,主要是在map計(jì)算出中間文件前做一個(gè)簡(jiǎn)單的合并重復(fù)key值的操作,使傳入reduce的文件變小,這樣就提高了寬帶的傳輸效率,畢竟hadoop計(jì)算力寬帶資源往往是計(jì)算的瓶頸也是最為寶貴的資源,但是combiner操作是有風(fēng)險(xiǎn)的,使用它的原則是combiner的輸入不會(huì)影響到reduce計(jì)算的最終輸入,例如:如果計(jì)算只是求總數(shù),最大值,最小值可以使用combiner,但是做平均值計(jì)算使用combiner的話,最終的reduce計(jì)算結(jié)果就會(huì)出錯(cuò)。
4>Partitioner階段,一個(gè)Partitioner對(duì)應(yīng)一個(gè)reduce作業(yè),如果我們mapreduce操作只有一個(gè)reduce操作,那么Partitioner就只有一個(gè),Partitioner因此就是reduce的輸入分片,這個(gè)我們可以編程控制,主要是根據(jù)實(shí)際key和value的值,根據(jù)實(shí)際業(yè)務(wù)類(lèi)型或者為了更好的reduce負(fù)載均衡要求進(jìn)行,這是提高reduce效率的一個(gè)關(guān)鍵所在。
5>reduce階段:我們編寫(xiě)的reduce函數(shù),reduce的輸入是map的輸出,reduce是主要的邏輯運(yùn)算階段,我們絕大部分業(yè)務(wù)邏輯都是在reduce階段完成的,并把最終結(jié)果存儲(chǔ)在hdfs上的。
- 如何決定一一個(gè)job中需要多少個(gè)maptask和reducetask ?
?
一、影響map個(gè)數(shù),即split個(gè)數(shù)的因素主要有:
1)HDFS塊的大小,即HDFS中dfs.block.size的值。如果有一個(gè)輸入文件為1024m,當(dāng)塊為256m時(shí),會(huì)被劃分為4個(gè)split;當(dāng)塊為128m時(shí),會(huì)被劃分為8個(gè)split。
2)文件的大小。當(dāng)塊為128m時(shí),如果輸入文件為128m,會(huì)被劃分為1個(gè)split;當(dāng)塊為256m,會(huì)被劃分為2個(gè)split。
3)文件的個(gè)數(shù)。FileInputFormat按照文件分割split,并且只會(huì)分割大文件,即那些大小超過(guò)HDFS塊的大小的文件。如果HDFS中dfs.block.size設(shè)置為64m,而輸入的目錄中文件有100個(gè),則劃分后的split個(gè)數(shù)至少為100個(gè)。
4)splitsize的大小。分片是按照splitszie的大小進(jìn)行分割的,一個(gè)split的大小在沒(méi)有設(shè)置的情況下,默認(rèn)等于hdfs block的大小。但應(yīng)用程序可以通過(guò)兩個(gè)參數(shù)來(lái)對(duì)splitsize進(jìn)行調(diào)節(jié)。
map個(gè)數(shù)的計(jì)算公式如下:
splitsize=max(minimumsize,min(maximumsize,blocksize))。
如果沒(méi)有設(shè)置minimumsize和maximumsize,splitsize的大小默認(rèn)等于blocksize
?
二、reduce端的個(gè)數(shù)取決于用戶的需求,默認(rèn)是有一個(gè)reduce,可以在代碼中聲明【由分區(qū)決定】
reduce的輸出個(gè)數(shù)
?
- 手寫(xiě)Word Count的Mapper和Reducer
?
- hive內(nèi)部表和外部表的區(qū)別?
?
分別從創(chuàng)建和刪除兩方面說(shuō):
創(chuàng)建:
外部表需要使用external關(guān)鍵字指定,需要使用location指定存儲(chǔ)數(shù)據(jù)的位置
內(nèi)部表不需要指定數(shù)據(jù)存儲(chǔ)的路徑,直接將數(shù)據(jù)存儲(chǔ)在默認(rèn)的目錄下
刪除:
外部表的數(shù)據(jù)由hdfs管理,元數(shù)據(jù)由hive管理,刪除的時(shí)候只刪除元數(shù)據(jù),不刪除表數(shù)據(jù)
內(nèi)部表的數(shù)據(jù)和元數(shù)據(jù)均有hive來(lái)管理,刪除的時(shí)候全部刪除
- hive的元數(shù)據(jù)和存儲(chǔ)引|擎
?
元數(shù)據(jù)包括表的名字,列、分區(qū),目錄等其他屬性信息,存儲(chǔ)在存儲(chǔ)引擎中。
默認(rèn)使用Derby數(shù)據(jù)庫(kù),缺點(diǎn):一次只能打開(kāi)一個(gè)會(huì)話。
可以使用MySQL,優(yōu)點(diǎn):允許多用戶訪問(wèn)。
- 請(qǐng)談- - -下hive的特點(diǎn)是什么? hive和RDBMS有什么異同?
?
hive是基于Hadoop的一個(gè)數(shù)據(jù)倉(cāng)庫(kù)工具,可以將結(jié)構(gòu)化的數(shù)據(jù)文件映射為一張數(shù)據(jù)庫(kù)表,并提供完整的sql查詢功能,可以將sql語(yǔ)句轉(zhuǎn)換為MapReduce任務(wù)進(jìn)行運(yùn)行。其優(yōu)點(diǎn)是學(xué)習(xí)成本低,可以通過(guò)類(lèi)SQL語(yǔ)句快速實(shí)現(xiàn)簡(jiǎn)單的MapReduce統(tǒng)計(jì),不必開(kāi)發(fā)專(zhuān)門(mén)的MapReduce應(yīng)用,十分適合數(shù)據(jù)倉(cāng)庫(kù)的統(tǒng)計(jì)分析。
數(shù)據(jù)庫(kù):用戶與數(shù)據(jù)庫(kù)交互,提交 SQL 語(yǔ)句后,馬上見(jiàn)到執(zhí)行結(jié)果;存放業(yè)務(wù)數(shù)據(jù);數(shù)據(jù)庫(kù)提出范式的概念是為了解決數(shù)據(jù)冗余和耦合的問(wèn)題;數(shù)據(jù)庫(kù)給業(yè)務(wù)數(shù)據(jù)提供存儲(chǔ)支撐。
數(shù)據(jù)倉(cāng)庫(kù):不與用戶交互;存放歷史數(shù)據(jù);反范式設(shè)計(jì),專(zhuān)門(mén)引入冗余數(shù)據(jù),保證數(shù)據(jù)完整。數(shù)據(jù)倉(cāng)庫(kù)面向分析,里面存放的數(shù)據(jù)用來(lái)做分析和挖掘
- Hive數(shù)據(jù)傾斜原因
?
key分布不均勻
業(yè)務(wù)數(shù)據(jù)本身的特性
SQL語(yǔ)句造成數(shù)據(jù)傾斜
- 從架構(gòu)設(shè)計(jì)、部署方式、使用方法、應(yīng)用場(chǎng)景等方面,比較tfs、hdfs、fastdfs、 Tachyon的異同。
?
https://georgedage.blog.csdn.net/article/details/102756152
總結(jié)
以上是生活随笔為你收集整理的利剑无意之面试题(三)的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 利剑无意之面试题(二)
- 下一篇: 用 Flink 取代 Spark Str