日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

kettle连接hadoophdfs图文详解

發(fā)布時間:2024/1/23 编程问答 46 豆豆
生活随笔 收集整理的這篇文章主要介紹了 kettle连接hadoophdfs图文详解 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

1 引言:


項(xiàng)目最近要引入大數(shù)據(jù)技術(shù),使用其處理加工日上網(wǎng)話單數(shù)據(jù),需要kettle把源系統(tǒng)的文本數(shù)據(jù)load到Hadoop環(huán)境中


2 準(zhǔn)備工作:


1 首先

要了解支持hadoop的Kettle版本情況,由于kettle資料網(wǎng)上較少,所以最好去官網(wǎng)找,官網(wǎng)的url:

http://wiki.pentaho.com/display/BAD/Configuring+Pentaho+for+your+Hadoop+Distro+and+Version

打開這個url 到頁面最下面的底端,如下圖:



archive 下面的from PDI 4.3 、 from PDI 4.4 、 from?PDI 5.0 即表示支持hadoop的pdi 版本。pdi即pentaho data integration 又稱kettle。PDI 4.3 、? PDI 4.4 、 PDI 5.0 即是kettle 4.3 、4.4、 5.0 ,這個版本號 包括比其更高的版本(即kettle 5.0.X ,5.1,5.2也支持hadoop)。


2 其次

不同的kettle版本支持的hadoop版本不一樣,以5.1為例子,下面的鏈接是5.1的支持情況

http://wiki.pentaho.com/display/BAD/Configuring+Pentaho+for+your+Hadoop+Distro+and+Version

?下圖為鏈接打開的頁面的中間部分:

?

determine the proper shim for hadoop Distro and version 大概意思是 為hadoop版本選擇合適的套件。表格上面的一行:apache、cloudera、hortonworks、intel、mapr指的是發(fā)行方。點(diǎn)擊他們來選擇你 想連接的hadoop的發(fā)行方 。上圖 以apache hadoop為例:

Version 指版hadoop版本號 ,shim 指kettle提供給該hadoop套件的名稱,Download 里面的 included in 5.0,5.1 指kettle的5.0、5.1版本安裝包里面已經(jīng)有內(nèi)置的插件,一句話來講 就是kettle5.1及5.0版本已有插件提供支持apache hadoop版本0.20.x? 。不需要額外下載。NS 是不支持的意思 圖片下面也有解釋。


上圖說明的是對 cloudera的 hadoop支持的情況 ,Download 里面 download的藍(lán)色字體超鏈接的說明 是要除了下kettle的安裝包外另外下載的 ,帶 included in 5.0,5.1 說明 kettle 5.0,5.1版本的本身就支持(內(nèi)置有插件)。


由上面兩圖得到的結(jié)論是 kettle 5.1 支持 apache hadoop 0.20.x版本 及cloudera hadoop CDH4.0 到CDH5。



3? 試驗(yàn)運(yùn)行:


1 首先配置工作

當(dāng)前我用的hadoop 版本是hadoop-2.2.0-cdh5.0 所以用kettle 5.1 且其內(nèi)置有hadoop插件。去kettle官網(wǎng)下載:


解壓之后 就是:



下載好之后,現(xiàn)在就需要做配置的工作了,配置的工作在kettle安裝文件里面做:

配置辦法參考:http://wiki.pentaho.com/display/BAD/Hadoop




進(jìn)頁面之后 先點(diǎn)擊collapse 收縮所有的菜單樹 如上圖。? Configuring Pentaho for your Hadoop Distro and Version 意思是為hadoop 版本做配置 點(diǎn)擊進(jìn)去:頁面的上面 就是上面說過的kettle對hadoop的支持情況。

我們到頁面的中間部分去,如下圖:



1 意思是 你想要連接的hadoop發(fā)行版 已經(jīng)被kettle支持了,但是沒有內(nèi)置插件,需要下載,這種情況最好 看下:Install Hadoop Distribution Shim

2 意思是你想連接的hadoop發(fā)行版 還有沒有被kettle支持,可以自己填寫相應(yīng)的信息 要求pentaho 開發(fā)一個。

還有1種情況 就是上面說的hadoop發(fā)行版 已經(jīng)被kettle支持了 且有內(nèi)置的插件。

3 就是配置了。

?3.1 stop application 就是如果kettle在運(yùn)行 先停掉他。

?3.2 打開安裝文件夾 我們這邊是kettle 所以就是spoon那個的文件路徑:

?

?3.3 編輯 plugin.properties文件

?3.4 改一個配置值 下圖畫圈的地方

?

?改成 對應(yīng)你hadoop的shim值 (上圖的表格里面的shim) 我這邊是cdh50:

?

?改之后保存:

?

至此 配置工作做完。



2 然后開發(fā)腳本工作


下面開始開發(fā)腳本 官方參考:http://wiki.pentaho.com/display/BAD/Loading+Data+into+HDFS

打開 kettle 運(yùn)行spoon.bat

:


新建一個kjb文件 拖一個開始圖元



再拖一個

hadoop copy files即是 load數(shù)據(jù)到 hdfs里面。

copy files里面的配置:



?意思是當(dāng)前kjb腳本所在路徑 在我這邊文件夾是:


目標(biāo)文件 是 hdfs://ip:hdfs端口/路徑



填之前可以點(diǎn)擊browse 按鈕 測試

如下圖 :填好server 和port后? 點(diǎn)擊connect 如果沒有報錯 出現(xiàn)紅框里面的hdfs://......... 就說明連接成功了(如下圖)。



注意只要連接成功,說明kettle對hadoop的配置就沒有問題。


可以運(yùn)行腳本試試了:


如上圖,腳本運(yùn)行成功。


在hadoop home bin下面查看:

文件成功load.


至此,kettle load文本數(shù)據(jù)到hdfs成功!


4 備注:

所有的步驟都可以參考官網(wǎng):

http://wiki.pentaho.com/display/BAD/Hadoop



上圖 1 是配置 2 是加載數(shù)據(jù)到hadoop 集群 3 是加載數(shù)據(jù)到hdfs 還有其他到 Hive 到Hbase等。

總結(jié)

以上是生活随笔為你收集整理的kettle连接hadoophdfs图文详解的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。