大数据之路之数据上云解决方案(全量)
定義:數據上云又稱數據采集,數據集成,數據遷移,是大數據架構中的最基礎也是最根本的一環,從性質上來講屬于ETL中的一部分操作,即把數據從一個地方遷移匯總到另外一個地方。數據上云解決了信息孤島問題,解決了信息不對稱問題,即”車同軌書同文“,同時把數據遷移到云計算平臺,對后續數據的計算和應用提供了第一步開山之路
難點:
上云工具:數據上云工具有很多,不僅有開源的DataX,Kettle,Sqoop等,還有一些廠商自研的各種數據采集平臺,我們可根據實際需求選擇最好的。由于很多數據采集平臺都是付費或者與自己云平臺綁定在一塊的,買了服務才能用,而且這種平臺大多數是圖形化點擊操作,無需掌握采集技術原理,只需傻瓜式點點即可,所以這里我們講一下更具技術含量的開源采集工具,以DataX為例,DataX知識
篇幅有限,這里先講全量上云
全量上云即在上云的那一剎那,把當前數據庫形成一個全量快照,然后采集上云,所以在傳統全量上云中,云下數據庫新進來的數據是無法采集到的,不過影響也不算大。畢竟我們選擇全量上云時一般都是在凌晨左右,業務量極低,而且本身全量上云就是離線操作,所以這些新進來的數據第二次采集再進來也不遲,如果業務有需求的,可以通過控制時間和采集頻率來解決?
以oracle - 云 為例
第一步:信息配置:由于實際業務表成千上萬,我們不可能一一進行json的配置,所以需要采用配置文件和腳本結合的方法:即首先配置好數據庫,表等配置文件,然后通過shell腳本建立并發開始平臺建表,數據上云
第二步:分區合并:可能某些oracle9i數據庫上云過程中提示快照過舊,這時候就不能再使用自定義分區來上云,只能夠用數據庫初始分區進行,后續再在云平臺進行數據合并,把一張表的不同分區合成一個分區
第三步:數據檢測:數據檢測主要針對兩方面:數據+質量,數據可以通過腳本來一一實現檢測,但是數據質量,比如是否亂碼,是否跨行等只能通過自己手動來查看
第四步:后續運維:有些業務數據全量上云只需要一次,有的可能數據庫較小,每天都可以全量,這些都要根據實際需求,在云平臺或者腳本里設置好自動調度,還要考慮血緣,依賴,以及后續運維的難易程度
這里是數據全量上云的解決方案,如需要腳本或者工具等請參考我的Github :DTBoys
感謝觀看
總結
以上是生活随笔為你收集整理的大数据之路之数据上云解决方案(全量)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 修改群晖mac 及 sn
- 下一篇: 商业云平台和开源云平台