Hadoop之OutputFormat数据输出详解
Hadoop之OutputFormat數(shù)據(jù)輸出詳解
目錄
1. OutputFormat接口實(shí)現(xiàn)類
OutputFormat是MapReduce輸出的基類,所有實(shí)現(xiàn)MapReduce輸出都實(shí)現(xiàn)了 OutputFormat接口。下面我們介紹幾種常見的OutputFormat實(shí)現(xiàn)類。
文本輸出TextOutputFormat
默認(rèn)的輸出格式是TextOutputFormat,它把每條記錄寫為文本行。它的鍵和值可以是任意類型,因?yàn)門extOutputFormat調(diào)用toString()方法把它們轉(zhuǎn)換為字符串。
SequenceFileOutputFormat
SequenceFileOutputFormat將它的輸出寫為一個序列化文件。如果輸出需要作為后續(xù) MapReduce任務(wù)的輸入,這便是一種好的輸出格式,因?yàn)樗母袷骄o湊,很容易被壓縮。
自定義OutputFormat
根據(jù)用戶需求,自定義實(shí)現(xiàn)輸出。
2. 自定義OutputFormat
為了實(shí)現(xiàn)控制最終文件的輸出路徑,可以自定義OutputFormat。
要在一個mapreduce程序中根據(jù)數(shù)據(jù)的不同輸出兩類結(jié)果到不同目錄,這類靈活的輸出需求可以通過自定義outputformat來實(shí)現(xiàn)。
總結(jié)
以上是生活随笔為你收集整理的Hadoop之OutputFormat数据输出详解的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Hadoop之ReduceTask工作机
- 下一篇: Hadoop之Join、计数器、数据清洗