當(dāng)前位置：首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

利剑无意之面试题（三）

發(fā)布時(shí)間：2024/2/28 编程问答 33 豆豆

生活随笔收集整理的這篇文章主要介紹了利剑无意之面试题（三）小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

hive的計(jì)算是通過(guò)什么實(shí)現(xiàn)的
?

hive是搭建在Hadoop集群上的一個(gè)SQL引擎，它將SQL語(yǔ)句轉(zhuǎn)化成了MapReduce程序在Hadoop上運(yùn)行，所以hive的計(jì)算引擎是MapReduce，底層存儲(chǔ)采用的是HDFS。

為什么不用Java的序列化serilazable

Java的序列化是一個(gè)重量級(jí)序列化框架（Serializable），一個(gè)對(duì)象被序列化后，會(huì)附帶很多額外的信息（各種校驗(yàn)信息，header，繼承體系等），不便于在網(wǎng)絡(luò)中高效傳輸。所以，hadoop自己開(kāi)發(fā)了一套序列化機(jī)制（Writable），特點(diǎn)如下：

1．緊湊

緊湊的格式能讓我們充分利用網(wǎng)絡(luò)帶寬，而帶寬是數(shù)據(jù)中心最稀缺的資源

2．快速

進(jìn)程通信形成了分布式系統(tǒng)的骨架，所以需要盡量減少序列化和反序列化的性能開(kāi)銷(xiāo)，這是基本的；

3．可擴(kuò)展

協(xié)議為了滿足新的需求變化，所以控制客戶端和服務(wù)器過(guò)程中，需要直接引進(jìn)相應(yīng)的協(xié)議，這些是新協(xié)議，原序列化方式能支持新的協(xié)議報(bào)文；

4．互操作

能支持不同語(yǔ)言寫(xiě)的客戶端和服務(wù)端進(jìn)行交互；

MapReduce工作流程

1>輸入分片（input split）：在進(jìn)行map計(jì)算之前，mapreduce會(huì)根據(jù)輸入文件計(jì)算輸入分片（input split），每個(gè)輸入分片（input split）針對(duì)一個(gè)map任務(wù)，輸入分片（input split）存儲(chǔ)的并非數(shù)據(jù)本身，而是一個(gè)分片長(zhǎng)度和一個(gè)記錄數(shù)據(jù)的位置的數(shù)組，輸入分片（input split）往往和hdfs的block（塊）關(guān)系很密切，假如我們?cè)O(shè)定hdfs的塊的大小是64mb，如果我們輸入有三個(gè)文件，大小分別是3mb、65mb和127mb，那么mapreduce會(huì)把3mb文件分為一個(gè)輸入分片（input split），65mb則是兩個(gè)輸入分片（input split）而127mb也是兩個(gè)輸入分片（input split），換句話說(shuō)我們?nèi)绻趍ap計(jì)算前做輸入分片調(diào)整，例如合并小文件，那么就會(huì)有5個(gè)map任務(wù)將執(zhí)行，而且每個(gè)map執(zhí)行的數(shù)據(jù)大小不均，這個(gè)也是mapreduce優(yōu)化計(jì)算的一個(gè)關(guān)鍵點(diǎn)。

2>map階段：就是我們寫(xiě)的map函數(shù)，map函數(shù)效率相對(duì)好控制，而且一般map操作都是本地化操作也就是在數(shù)據(jù)存儲(chǔ)節(jié)點(diǎn)上進(jìn)行；map函數(shù)每次處理一行數(shù)據(jù)，map主要用于數(shù)據(jù)的分組，為下一步reduce的運(yùn)算做數(shù)據(jù)準(zhǔn)備，map的輸出就是reduce的輸入。

3>combiner階段：combiner階段是可選的，combiner是一個(gè)本地化的reduce操作，它是map運(yùn)算的后續(xù)操作，主要是在map計(jì)算出中間文件前做一個(gè)簡(jiǎn)單的合并重復(fù)key值的操作，使傳入reduce的文件變小，這樣就提高了寬帶的傳輸效率，畢竟hadoop計(jì)算力寬帶資源往往是計(jì)算的瓶頸也是最為寶貴的資源，但是combiner操作是有風(fēng)險(xiǎn)的，使用它的原則是combiner的輸入不會(huì)影響到reduce計(jì)算的最終輸入，例如：如果計(jì)算只是求總數(shù)，最大值，最小值可以使用combiner，但是做平均值計(jì)算使用combiner的話，最終的reduce計(jì)算結(jié)果就會(huì)出錯(cuò)。

4>Partitioner階段，一個(gè)Partitioner對(duì)應(yīng)一個(gè)reduce作業(yè)，如果我們mapreduce操作只有一個(gè)reduce操作，那么Partitioner就只有一個(gè)，Partitioner因此就是reduce的輸入分片，這個(gè)我們可以編程控制，主要是根據(jù)實(shí)際key和value的值，根據(jù)實(shí)際業(yè)務(wù)類(lèi)型或者為了更好的reduce負(fù)載均衡要求進(jìn)行，這是提高reduce效率的一個(gè)關(guān)鍵所在。

5>reduce階段：我們編寫(xiě)的reduce函數(shù)，reduce的輸入是map的輸出，reduce是主要的邏輯運(yùn)算階段，我們絕大部分業(yè)務(wù)邏輯都是在reduce階段完成的，并把最終結(jié)果存儲(chǔ)在hdfs上的。

如何決定一一個(gè)job中需要多少個(gè)maptask和reducetask ?
?

一、影響map個(gè)數(shù)，即split個(gè)數(shù)的因素主要有：

1）HDFS塊的大小，即HDFS中dfs.block.size的值。如果有一個(gè)輸入文件為1024m，當(dāng)塊為256m時(shí)，會(huì)被劃分為4個(gè)split；當(dāng)塊為128m時(shí)，會(huì)被劃分為8個(gè)split。

2）文件的大小。當(dāng)塊為128m時(shí)，如果輸入文件為128m，會(huì)被劃分為1個(gè)split；當(dāng)塊為256m，會(huì)被劃分為2個(gè)split。

3）文件的個(gè)數(shù)。FileInputFormat按照文件分割split，并且只會(huì)分割大文件，即那些大小超過(guò)HDFS塊的大小的文件。如果HDFS中dfs.block.size設(shè)置為64m，而輸入的目錄中文件有100個(gè)，則劃分后的split個(gè)數(shù)至少為100個(gè)。

4）splitsize的大小。分片是按照splitszie的大小進(jìn)行分割的，一個(gè)split的大小在沒(méi)有設(shè)置的情況下，默認(rèn)等于hdfs block的大小。但應(yīng)用程序可以通過(guò)兩個(gè)參數(shù)來(lái)對(duì)splitsize進(jìn)行調(diào)節(jié)。

map個(gè)數(shù)的計(jì)算公式如下：

splitsize=max(minimumsize,min(maximumsize,blocksize))。

如果沒(méi)有設(shè)置minimumsize和maximumsize，splitsize的大小默認(rèn)等于blocksize

二、reduce端的個(gè)數(shù)取決于用戶的需求，默認(rèn)是有一個(gè)reduce，可以在代碼中聲明【由分區(qū)決定】

reduce的輸出個(gè)數(shù)

手寫(xiě)Word Count的Mapper和Reducer
?

public static class WCMapper extends Mapper<LongWritable, Text,Text, IntWritable>{Text k1 = new Text();IntWritable v1 = new IntWritable(1);@Overrideprotected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {String line = value.toString();String[] strings = line.split("\\s+");for (String s : strings) {k1.set(s);context.write(k1,v1);}} }public static class WCReducer extends Reducer<Text, IntWritable,Text, IntWritable> {int count;IntWritable v2 = new IntWritable();@Overrideprotected void reduce(Text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException {count = 0;for (IntWritable value : values) {count += value.get();}v2.set(count);context.write(key,v2);} }

hive內(nèi)部表和外部表的區(qū)別?
?

分別從創(chuàng)建和刪除兩方面說(shuō)：

創(chuàng)建：

外部表需要使用external關(guān)鍵字指定，需要使用location指定存儲(chǔ)數(shù)據(jù)的位置

內(nèi)部表不需要指定數(shù)據(jù)存儲(chǔ)的路徑，直接將數(shù)據(jù)存儲(chǔ)在默認(rèn)的目錄下

刪除：

外部表的數(shù)據(jù)由hdfs管理，元數(shù)據(jù)由hive管理，刪除的時(shí)候只刪除元數(shù)據(jù)，不刪除表數(shù)據(jù)

內(nèi)部表的數(shù)據(jù)和元數(shù)據(jù)均有hive來(lái)管理，刪除的時(shí)候全部刪除

hive的元數(shù)據(jù)和存儲(chǔ)引|擎
?

元數(shù)據(jù)包括表的名字，列、分區(qū)，目錄等其他屬性信息，存儲(chǔ)在存儲(chǔ)引擎中。

默認(rèn)使用Derby數(shù)據(jù)庫(kù)，缺點(diǎn)：一次只能打開(kāi)一個(gè)會(huì)話。

可以使用MySQL，優(yōu)點(diǎn)：允許多用戶訪問(wèn)。

請(qǐng)談- - -下hive的特點(diǎn)是什么? hive和RDBMS有什么異同?
?

hive是基于Hadoop的一個(gè)數(shù)據(jù)倉(cāng)庫(kù)工具，可以將結(jié)構(gòu)化的數(shù)據(jù)文件映射為一張數(shù)據(jù)庫(kù)表，并提供完整的sql查詢功能，可以將sql語(yǔ)句轉(zhuǎn)換為MapReduce任務(wù)進(jìn)行運(yùn)行。其優(yōu)點(diǎn)是學(xué)習(xí)成本低，可以通過(guò)類(lèi)SQL語(yǔ)句快速實(shí)現(xiàn)簡(jiǎn)單的MapReduce統(tǒng)計(jì)，不必開(kāi)發(fā)專(zhuān)門(mén)的MapReduce應(yīng)用，十分適合數(shù)據(jù)倉(cāng)庫(kù)的統(tǒng)計(jì)分析。

數(shù)據(jù)庫(kù)：用戶與數(shù)據(jù)庫(kù)交互，提交 SQL 語(yǔ)句后，馬上見(jiàn)到執(zhí)行結(jié)果；存放業(yè)務(wù)數(shù)據(jù)；數(shù)據(jù)庫(kù)提出范式的概念是為了解決數(shù)據(jù)冗余和耦合的問(wèn)題；數(shù)據(jù)庫(kù)給業(yè)務(wù)數(shù)據(jù)提供存儲(chǔ)支撐。
數(shù)據(jù)倉(cāng)庫(kù)：不與用戶交互；存放歷史數(shù)據(jù)；反范式設(shè)計(jì)，專(zhuān)門(mén)引入冗余數(shù)據(jù)，保證數(shù)據(jù)完整。數(shù)據(jù)倉(cāng)庫(kù)面向分析，里面存放的數(shù)據(jù)用來(lái)做分析和挖掘

Hive數(shù)據(jù)傾斜原因
?

key分布不均勻

業(yè)務(wù)數(shù)據(jù)本身的特性

SQL語(yǔ)句造成數(shù)據(jù)傾斜

從架構(gòu)設(shè)計(jì)、部署方式、使用方法、應(yīng)用場(chǎng)景等方面，比較tfs、hdfs、fastdfs、 Tachyon的異同。
?

https://georgedage.blog.csdn.net/article/details/102756152

總結(jié)

以上是生活随笔為你收集整理的利剑无意之面试题（三）的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：利剑无意之面试题（二）
下一篇：用 Flink 取代 Spark Str