深入浅出学Hive:Hive高级编程
目錄:
初始Hive
Hive安裝與配置
Hive內(nèi)建操作符與函數(shù)開發(fā)
Hive JDBC
Hive參數(shù)
Hive高級(jí)編程
Hive QL
Hive Shell基本操作
Hive優(yōu)化
Hive體系結(jié)構(gòu)
Hive原理
?
?
?
第一部分:產(chǎn)生背景
產(chǎn)生背景
?為了滿足客戶個(gè)性化的需求,Hive被設(shè)計(jì)成一個(gè)很開放的系統(tǒng),很多內(nèi)容都支持用戶定制,包括:
?文件格式:Text File,Sequence File
?內(nèi)存中的數(shù)據(jù)格式: Java Integer/String, Hadoop? IntWritable/Text
?用戶提供的 map/reduce 腳本:不管什么語言,利用 stdin/stdout 傳輸數(shù)據(jù)
?用戶自定義函數(shù)
自定義函數(shù)
?雖然Hive提供了很多函數(shù),但是有些還是難以滿足我們的需求。因此Hive提供了自定義函數(shù)開發(fā)
?自定義函數(shù)包括三種UDF、UADF、UDTF
?UDF(User-Defined-Function)
?UDAF(User- Defined Aggregation Funcation)
?UDTF(User-Defined Table-Generating Functions)? 用來解決?輸入一行輸出多行(On-to-many maping)?的需求。?
HIVE中使用定義的函數(shù)的三種方式
?在HIVE會(huì)話中add 自定義函數(shù)的jar文件,然后創(chuàng)建function,繼而使用函數(shù)
?在進(jìn)入HIVE會(huì)話之前先自動(dòng)執(zhí)行創(chuàng)建function,不用用戶手工創(chuàng)建
?把自定義的函數(shù)寫到系統(tǒng)函數(shù)中,使之成為HIVE的一個(gè)默認(rèn)函數(shù),這樣就不需要create temporary function
?
第二部分:UDF
UDF用法
?UDF(User-Defined-Function)
?UDF函數(shù)可以直接應(yīng)用于select語句,對(duì)查詢結(jié)構(gòu)做格式化處理后,再輸出內(nèi)容
?編寫UDF函數(shù)的時(shí)候需要注意一下幾點(diǎn)
?自定義UDF需要繼承org.apache.hadoop.hive.ql.UDF
?需要實(shí)現(xiàn)evaluate函數(shù)
?evaluate函數(shù)支持重載
?UDF只能實(shí)現(xiàn)一進(jìn)一出的操作,如果需要實(shí)現(xiàn)多進(jìn)一出,則需要實(shí)現(xiàn)UDAF
UDF用法代碼示例
?
import?org.apache.Hadoop.hive.ql.exec.UDF ??
???public??class?Helloword??extends?UDF{ ??
??????public?String?evaluate(){ ??
???????????return?"hello?world!"; ??
?????} ??
??
??????public?String?evaluate(String?str){ ??
???????????return?"hello?world:?"?+?str; ??
?????} ??
}
開發(fā)步驟
?開發(fā)代碼
?把程序打包放到目標(biāo)機(jī)器上去
?進(jìn)入hive客戶端
?添加jar包:hive>add jar /run/jar/udf_test.jar;
?創(chuàng)建臨時(shí)函數(shù):hive>CREATE TEMPORARY FUNCTION my_add AS 'com.hive.udf.Add ‘
?查詢HQL語句:
?SELECT my_add (8, 9) FROM scores;
?SELECT my_add (scores.math, scores.art) FROM scores;
?銷毀臨時(shí)函數(shù):hive> DROP TEMPORARY FUNCTION my_add ;
?細(xì)節(jié)
?在使用UDF的時(shí)候,會(huì)自動(dòng)進(jìn)行類型轉(zhuǎn)換,例如:?
SELECT my_add (8,9.1) FROM scores;
?結(jié)果是17.1,UDF將類型為Int的參數(shù)轉(zhuǎn)化成double。類型的飲食轉(zhuǎn)換是通過UDFResolver來進(jìn)行控制的
第三部分:UDAF
UDAF
?Hive查詢數(shù)據(jù)時(shí),有些聚類函數(shù)在HQL沒有自帶,需要用戶自定義實(shí)現(xiàn)
?用戶自定義聚合函數(shù): Sum, Average…… n – 1
?UDAF(User- Defined Aggregation Funcation)?
用法
?一下兩個(gè)包是必須的import org.apache.hadoop.hive.ql.exec.UDAF和 org.apache.hadoop.hive.ql.exec.UDAFEvaluator
開發(fā)步驟
?函數(shù)類需要繼承UDAF類,內(nèi)部類Evaluator實(shí)UDAFEvaluator接口
?Evaluator需要實(shí)現(xiàn) init、iterate、terminatePartial、merge、terminate這幾個(gè)函數(shù)
a)init函數(shù)實(shí)現(xiàn)接口UDAFEvaluator的init函數(shù)。
b)iterate接收傳入的參數(shù),并進(jìn)行內(nèi)部的輪轉(zhuǎn)。其返回類型為boolean。
c)terminatePartial無參數(shù),其為iterate函數(shù)輪轉(zhuǎn)結(jié)束后,返回輪轉(zhuǎn)數(shù)據(jù),terminatePartial類似于hadoop的Combiner。
d)merge接收terminatePartial的返回結(jié)果,進(jìn)行數(shù)據(jù)merge操作,其返回類型為boolean。
e)terminate返回最終的聚集函數(shù)結(jié)果。
執(zhí)行步驟
?執(zhí)行求平均數(shù)函數(shù)的步驟
a)將java文件編譯成Avg_test.jar。
b)進(jìn)入hive客戶端添加jar包:
hive>add jar /run/jar/Avg_test.jar。
c)創(chuàng)建臨時(shí)函數(shù):
hive>create temporary function avg_test 'hive.udaf.Avg';
d)查詢語句:
hive>select avg_test(scores.math) from scores;
e)銷毀臨時(shí)函數(shù):
hive>drop temporary function avg_test;
?
UDAF代碼示例
public class MyAvg extends UDAF {
?
public static class AvgEvaluator implements UDAFEvaluator {
}
public void init() {}
public boolean iterate(Double o) {}
public AvgState terminatePartial() {}
public boolean terminatePartial(Double o) {?}
public Double terminate() {}
?
}
第四部分:UDTF
UDTF
?UDTF(User-Defined Table-Generating Functions)? 用來解決?輸入一行輸出多行(On-to-many maping)?的需求。
開發(fā)步驟
?UDTF步驟:
?必須繼承org.apache.Hadoop.hive.ql.udf.generic.GenericUDTF
?實(shí)現(xiàn)initialize, process, close三個(gè)方法
?UDTF首先會(huì)
?調(diào)用initialize方法,此方法返回UDTF的返回行的信息(返回個(gè)數(shù),類型)?
初始化完成后,會(huì)調(diào)用process方法,對(duì)傳入的參數(shù)進(jìn)行處理,可以通過forword()方法把結(jié)果返回
?最后close()方法調(diào)用,對(duì)需要清理的方法進(jìn)行清理
使用方法
?UDTF有兩種使用方法,一種直接放到select后面,一種和lateral view一起使用
?直接select中使用:select explode_map(properties) as (col1,col2) from src;
?不可以添加其他字段使用:select a, explode_map(properties) as (col1,col2) from src
?不可以嵌套調(diào)用:select explode_map(explode_map(properties)) from src
?不可以和group by/cluster by/distribute by/sort by一起使用:select explode_map(properties) as (col1,col2) from src group by col1, col2
?和lateral view一起使用:select src.id, mytable.col1, mytable.col2 from src lateral view explode_map(properties) mytable as col1, col2;
此方法更為方便日常使用。執(zhí)行過程相當(dāng)于單獨(dú)執(zhí)行了兩次抽取,然后union到一個(gè)表里。
lateral view
??Lateral View語法
?lateralView:?LATERAL?VIEW?udtf(expression)?tableAlias?AS?columnAlias?(','?columnAlias)*?fromClause:?FROM?baseTable?(lateralView)*??
?
?Lateral View用于UDTF(user-defined table generating functions)中將行轉(zhuǎn)成列,例如explode().
?目前Lateral View不支持有上而下的優(yōu)化。如果使用Where子句,查詢可能將不被編譯。解決方法見:
???? 此時(shí),在查詢之前執(zhí)行set hive.optimize.ppd=false;
?? 例子
?pageAds。它有兩個(gè)列
| string pageid | Array<int> adid_list |
| "?front_page" | [1, 2, 3] |
| "contact_page?" | [?3, 4, 5] |
?SELECT pageid, adid FROM pageAds LATERAL VIEW explode(adid_list) adTable AS adid;
?將輸出如下結(jié)果
string pageid int adid
"front_page" 1
…….
“contact_page" 3
?
代碼示例
public class?MyUDTF?extends GenericUDTF{
public StructObjectInspector initialize(ObjectInspector[]?args)?{}
public void process(Object[] args) throws HiveException {?}
}
實(shí)現(xiàn):切分?”?key:value;key:value;”?這種字符串,?返回結(jié)果為?key, value?兩個(gè)字段
轉(zhuǎn)載請(qǐng)注明出處【?http://sishuok.com/forum/blogPost/list/6226.html】
總結(jié)
以上是生活随笔為你收集整理的深入浅出学Hive:Hive高级编程的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 深入浅出学Hive:Hive优化
- 下一篇: Spark性能优化指南:高级篇