hive数据增量同步方案
目錄
- 1-每天全量同步
- 2-每天增量同步
- 3-不變的數(shù)據(jù)增量同步
1-每天全量同步
如人員表、訂單表一類的會發(fā)生變化的數(shù)據(jù),根據(jù)數(shù)據(jù)倉庫的4個特點里的反映歷史變化的這個特點的要求,我們建議每天對數(shù)據(jù)進行全量同步。也就是說每天保存的都是數(shù)據(jù)的全量數(shù)據(jù),這樣歷史的數(shù)據(jù)和當前的數(shù)據(jù)都可以很方便地獲得。
設定日分區(qū),每天同步全量數(shù)據(jù)。
--全量同步 create table ods_user_full(uid bigint,uname string,deptno bigint,gender string,optime DATETIME ) partitioned by (ds string);查詢?nèi)坑?where 分區(qū) 語句 如 where ds = "2017-10-19"
2-每天增量同步
真實場景中因為某些特殊情況,需要每天只做增量同步。又因為目前流行的大數(shù)據(jù)平臺都不支持 Update 語句進行修改數(shù)據(jù),只能用其他方法來實現(xiàn)。
- 兩個表,結(jié)果表和增量表,用 full outer join 合并 + insert overwrite(阿里巴巴大數(shù)據(jù)實踐中阿里平臺使用方案)
操作如下:
--結(jié)果表 create table dw_user_inc(uid bigint,uname string,deptno bigint,gender string,optime DATETIME ); --增量記錄表 create table ods_user_inc(uid bigint,uname string,deptno bigint,gender string,optime DATETIME ) insert overwrite table dw_user_inc select --所有select操作,如果ODS表有更新數(shù)據(jù),就會關(guān)聯(lián)上 case when b.uid is not null then b.uid else a.uid end as uid, case when b.uid is not null then b.uname else a.uname end as uname, case when b.uid is not null then b.deptno else a.deptno end as deptno, case when b.uid is not null then b.gender else a.gender end as gender, case when b.uid is not null then b.optime else a.optime end as optime from dw_user_inc a full outer join ods_user_inc b --標準 on a.uid = b.uid ;對比以上兩種同步方式,可以很清楚看到兩種同步方法的區(qū)別和優(yōu)劣。第二種方法的優(yōu)點是同步的增量數(shù)據(jù)量比較小,但是帶來的缺點有可能有數(shù)據(jù)不一致的風險,而且還需要用額外的計算進行數(shù)據(jù)合并。如無必要,會變化的數(shù)據(jù)就使用方法一即可。如果對歷史數(shù)據(jù)希望只保留一定的時間,超出時間的做自動刪除,可以設置Lifecycle。
3-不變的數(shù)據(jù)增量同步
這個場景,由于數(shù)據(jù)生成后就不會發(fā)生變化,因此可以很方便地根據(jù)數(shù)據(jù)的生成規(guī)律進行分區(qū),較常見的是根據(jù)日期進行分區(qū),比如每天一個分區(qū)。做法是按日期字段 where 過濾所需日期,增量 insert。
總結(jié)
以上是生活随笔為你收集整理的hive数据增量同步方案的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Keras---序贯模型
- 下一篇: Workflow JBPM 工作流