日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

利剑无意之面试题(三)

發(fā)布時(shí)間:2024/2/28 编程问答 33 豆豆
生活随笔 收集整理的這篇文章主要介紹了 利剑无意之面试题(三) 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.
  • hive的計(jì)算是通過(guò)什么實(shí)現(xiàn)的
    ?

hive是搭建在Hadoop集群上的一個(gè)SQL引擎,它將SQL語(yǔ)句轉(zhuǎn)化成了MapReduce程序在Hadoop上運(yùn)行,所以hive的計(jì)算引擎是MapReduce,底層存儲(chǔ)采用的是HDFS。

  • 為什么不用Java的序列化serilazable

Java的序列化是一個(gè)重量級(jí)序列化框架(Serializable),一個(gè)對(duì)象被序列化后,會(huì)附帶很多額外的信息(各種校驗(yàn)信息,header,繼承體系等),不便于在網(wǎng)絡(luò)中高效傳輸。所以,hadoop自己開(kāi)發(fā)了一套序列化機(jī)制(Writable),特點(diǎn)如下:

1.緊湊

緊湊的格式能讓我們充分利用網(wǎng)絡(luò)帶寬,而帶寬是數(shù)據(jù)中心最稀缺的資源

2.快速

進(jìn)程通信形成了分布式系統(tǒng)的骨架,所以需要盡量減少序列化和反序列化的性能開(kāi)銷(xiāo),這是基本的;

3.可擴(kuò)展

協(xié)議為了滿足新的需求變化,所以控制客戶端和服務(wù)器過(guò)程中,需要直接引進(jìn)相應(yīng)的協(xié)議,這些是新協(xié)議,原序列化方式能支持新的協(xié)議報(bào)文;

4.互操作

能支持不同語(yǔ)言寫(xiě)的客戶端和服務(wù)端進(jìn)行交互;

  • MapReduce工作流程

1>輸入分片(input split):在進(jìn)行map計(jì)算之前,mapreduce會(huì)根據(jù)輸入文件計(jì)算輸入分片(input split),每個(gè)輸入分片(input split)針對(duì)一個(gè)map任務(wù),輸入分片(input split)存儲(chǔ)的并非數(shù)據(jù)本身,而是一個(gè)分片長(zhǎng)度和一個(gè)記錄數(shù)據(jù)的位置的數(shù)組,輸入分片(input split)往往和hdfs的block(塊)關(guān)系很密切,假如我們?cè)O(shè)定hdfs的塊的大小是64mb,如果我們輸入有三個(gè)文件,大小分別是3mb、65mb和127mb,那么mapreduce會(huì)把3mb文件分為一個(gè)輸入分片(input split),65mb則是兩個(gè)輸入分片(input split)而127mb也是兩個(gè)輸入分片(input split),換句話說(shuō)我們?nèi)绻趍ap計(jì)算前做輸入分片調(diào)整,例如合并小文件,那么就會(huì)有5個(gè)map任務(wù)將執(zhí)行,而且每個(gè)map執(zhí)行的數(shù)據(jù)大小不均,這個(gè)也是mapreduce優(yōu)化計(jì)算的一個(gè)關(guān)鍵點(diǎn)。

2>map階段:就是我們寫(xiě)的map函數(shù),map函數(shù)效率相對(duì)好控制,而且一般map操作都是本地化操作也就是在數(shù)據(jù)存儲(chǔ)節(jié)點(diǎn)上進(jìn)行;map函數(shù)每次處理一行數(shù)據(jù),map主要用于數(shù)據(jù)的分組,為下一步reduce的運(yùn)算做數(shù)據(jù)準(zhǔn)備,map的輸出就是reduce的輸入。

3>combiner階段:combiner階段是可選的,combiner是一個(gè)本地化的reduce操作,它是map運(yùn)算的后續(xù)操作,主要是在map計(jì)算出中間文件前做一個(gè)簡(jiǎn)單的合并重復(fù)key值的操作,使傳入reduce的文件變小,這樣就提高了寬帶的傳輸效率,畢竟hadoop計(jì)算力寬帶資源往往是計(jì)算的瓶頸也是最為寶貴的資源,但是combiner操作是有風(fēng)險(xiǎn)的,使用它的原則是combiner的輸入不會(huì)影響到reduce計(jì)算的最終輸入,例如:如果計(jì)算只是求總數(shù),最大值,最小值可以使用combiner,但是做平均值計(jì)算使用combiner的話,最終的reduce計(jì)算結(jié)果就會(huì)出錯(cuò)。

4>Partitioner階段,一個(gè)Partitioner對(duì)應(yīng)一個(gè)reduce作業(yè),如果我們mapreduce操作只有一個(gè)reduce操作,那么Partitioner就只有一個(gè),Partitioner因此就是reduce的輸入分片,這個(gè)我們可以編程控制,主要是根據(jù)實(shí)際key和value的值,根據(jù)實(shí)際業(yè)務(wù)類(lèi)型或者為了更好的reduce負(fù)載均衡要求進(jìn)行,這是提高reduce效率的一個(gè)關(guān)鍵所在。

5>reduce階段:我們編寫(xiě)的reduce函數(shù),reduce的輸入是map的輸出,reduce是主要的邏輯運(yùn)算階段,我們絕大部分業(yè)務(wù)邏輯都是在reduce階段完成的,并把最終結(jié)果存儲(chǔ)在hdfs上的。

  • 如何決定一一個(gè)job中需要多少個(gè)maptask和reducetask ?
    ?

一、影響map個(gè)數(shù),即split個(gè)數(shù)的因素主要有:

1)HDFS塊的大小,即HDFS中dfs.block.size的值。如果有一個(gè)輸入文件為1024m,當(dāng)塊為256m時(shí),會(huì)被劃分為4個(gè)split;當(dāng)塊為128m時(shí),會(huì)被劃分為8個(gè)split。

2)文件的大小。當(dāng)塊為128m時(shí),如果輸入文件為128m,會(huì)被劃分為1個(gè)split;當(dāng)塊為256m,會(huì)被劃分為2個(gè)split。

3)文件的個(gè)數(shù)。FileInputFormat按照文件分割split,并且只會(huì)分割大文件,即那些大小超過(guò)HDFS塊的大小的文件。如果HDFS中dfs.block.size設(shè)置為64m,而輸入的目錄中文件有100個(gè),則劃分后的split個(gè)數(shù)至少為100個(gè)。

4)splitsize的大小。分片是按照splitszie的大小進(jìn)行分割的,一個(gè)split的大小在沒(méi)有設(shè)置的情況下,默認(rèn)等于hdfs block的大小。但應(yīng)用程序可以通過(guò)兩個(gè)參數(shù)來(lái)對(duì)splitsize進(jìn)行調(diào)節(jié)。

map個(gè)數(shù)的計(jì)算公式如下:

splitsize=max(minimumsize,min(maximumsize,blocksize))。

如果沒(méi)有設(shè)置minimumsize和maximumsize,splitsize的大小默認(rèn)等于blocksize

?

二、reduce端的個(gè)數(shù)取決于用戶的需求,默認(rèn)是有一個(gè)reduce,可以在代碼中聲明【由分區(qū)決定】

reduce的輸出個(gè)數(shù)

?

  • 手寫(xiě)Word Count的Mapper和Reducer
    ?
public static class WCMapper extends Mapper<LongWritable, Text,Text, IntWritable>{Text k1 = new Text();IntWritable v1 = new IntWritable(1);@Overrideprotected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {String line = value.toString();String[] strings = line.split("\\s+");for (String s : strings) {k1.set(s);context.write(k1,v1);}} }public static class WCReducer extends Reducer<Text, IntWritable,Text, IntWritable> {int count;IntWritable v2 = new IntWritable();@Overrideprotected void reduce(Text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException {count = 0;for (IntWritable value : values) {count += value.get();}v2.set(count);context.write(key,v2);} }
  • hive內(nèi)部表和外部表的區(qū)別?
    ?

分別從創(chuàng)建和刪除兩方面說(shuō):

創(chuàng)建:

外部表需要使用external關(guān)鍵字指定,需要使用location指定存儲(chǔ)數(shù)據(jù)的位置

內(nèi)部表不需要指定數(shù)據(jù)存儲(chǔ)的路徑,直接將數(shù)據(jù)存儲(chǔ)在默認(rèn)的目錄下

刪除:

外部表的數(shù)據(jù)由hdfs管理,元數(shù)據(jù)由hive管理,刪除的時(shí)候只刪除元數(shù)據(jù),不刪除表數(shù)據(jù)

內(nèi)部表的數(shù)據(jù)和元數(shù)據(jù)均有hive來(lái)管理,刪除的時(shí)候全部刪除

  • hive的元數(shù)據(jù)和存儲(chǔ)引|擎
    ?

元數(shù)據(jù)包括表的名字,列、分區(qū),目錄等其他屬性信息,存儲(chǔ)在存儲(chǔ)引擎中。

默認(rèn)使用Derby數(shù)據(jù)庫(kù),缺點(diǎn):一次只能打開(kāi)一個(gè)會(huì)話。

可以使用MySQL,優(yōu)點(diǎn):允許多用戶訪問(wèn)。

  • 請(qǐng)談- - -下hive的特點(diǎn)是什么? hive和RDBMS有什么異同?
    ?

hive是基于Hadoop的一個(gè)數(shù)據(jù)倉(cāng)庫(kù)工具,可以將結(jié)構(gòu)化的數(shù)據(jù)文件映射為一張數(shù)據(jù)庫(kù)表,并提供完整的sql查詢功能,可以將sql語(yǔ)句轉(zhuǎn)換為MapReduce任務(wù)進(jìn)行運(yùn)行。其優(yōu)點(diǎn)是學(xué)習(xí)成本低,可以通過(guò)類(lèi)SQL語(yǔ)句快速實(shí)現(xiàn)簡(jiǎn)單的MapReduce統(tǒng)計(jì),不必開(kāi)發(fā)專(zhuān)門(mén)的MapReduce應(yīng)用,十分適合數(shù)據(jù)倉(cāng)庫(kù)的統(tǒng)計(jì)分析。

數(shù)據(jù)庫(kù):用戶與數(shù)據(jù)庫(kù)交互,提交 SQL 語(yǔ)句后,馬上見(jiàn)到執(zhí)行結(jié)果;存放業(yè)務(wù)數(shù)據(jù);數(shù)據(jù)庫(kù)提出范式的概念是為了解決數(shù)據(jù)冗余和耦合的問(wèn)題;數(shù)據(jù)庫(kù)給業(yè)務(wù)數(shù)據(jù)提供存儲(chǔ)支撐。
數(shù)據(jù)倉(cāng)庫(kù):不與用戶交互;存放歷史數(shù)據(jù);反范式設(shè)計(jì),專(zhuān)門(mén)引入冗余數(shù)據(jù),保證數(shù)據(jù)完整。數(shù)據(jù)倉(cāng)庫(kù)面向分析,里面存放的數(shù)據(jù)用來(lái)做分析和挖掘

  • Hive數(shù)據(jù)傾斜原因
    ?

key分布不均勻

業(yè)務(wù)數(shù)據(jù)本身的特性

SQL語(yǔ)句造成數(shù)據(jù)傾斜

  • 從架構(gòu)設(shè)計(jì)、部署方式、使用方法、應(yīng)用場(chǎng)景等方面,比較tfs、hdfs、fastdfs、 Tachyon的異同。
    ?

https://georgedage.blog.csdn.net/article/details/102756152

總結(jié)

以上是生活随笔為你收集整理的利剑无意之面试题(三)的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。