當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

大数据之路之数据上云解决方案(全量)

發布時間：2023/12/14 编程问答 65 豆豆

生活随笔收集整理的這篇文章主要介紹了大数据之路之数据上云解决方案(全量) 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

定義：數據上云又稱數據采集，數據集成，數據遷移，是大數據架構中的最基礎也是最根本的一環，從性質上來講屬于ETL中的一部分操作，即把數據從一個地方遷移匯總到另外一個地方。數據上云解決了信息孤島問題，解決了信息不對稱問題，即”車同軌書同文“，同時把數據遷移到云計算平臺，對后續數據的計算和應用提供了第一步開山之路

難點：

數據上云如何做到在數量上，質量上保持無誤？

數據上云如何解決不同平臺的網絡，架構等數據兼容性，影射性問題？

數據上云如何做到從云下到云上自動調度，如何保證數據變更與云下保持一致？

數據上云如何解決云下數據庫表結構變化，云下數據變化，云上能及時獲取，能及時在平臺級做到變更？

數據上云如何針對不同的業務需求做出不同的應對，如何面面俱到而不是過度擬合？

數據上云如何解決后續運維難題？

上云工具：數據上云工具有很多，不僅有開源的DataX，Kettle，Sqoop等，還有一些廠商自研的各種數據采集平臺，我們可根據實際需求選擇最好的。由于很多數據采集平臺都是付費或者與自己云平臺綁定在一塊的，買了服務才能用，而且這種平臺大多數是圖形化點擊操作，無需掌握采集技術原理，只需傻瓜式點點即可，所以這里我們講一下更具技術含量的開源采集工具，以DataX為例，DataX知識

篇幅有限，這里先講全量上云

全量上云即在上云的那一剎那，把當前數據庫形成一個全量快照，然后采集上云，所以在傳統全量上云中，云下數據庫新進來的數據是無法采集到的，不過影響也不算大。畢竟我們選擇全量上云時一般都是在凌晨左右，業務量極低，而且本身全量上云就是離線操作，所以這些新進來的數據第二次采集再進來也不遲，如果業務有需求的，可以通過控制時間和采集頻率來解決?

以oracle - 云為例

第一步：信息配置：由于實際業務表成千上萬，我們不可能一一進行json的配置，所以需要采用配置文件和腳本結合的方法：即首先配置好數據庫，表等配置文件，然后通過shell腳本建立并發開始平臺建表，數據上云

第二步：分區合并：可能某些oracle9i數據庫上云過程中提示快照過舊，這時候就不能再使用自定義分區來上云，只能夠用數據庫初始分區進行，后續再在云平臺進行數據合并，把一張表的不同分區合成一個分區

第三步：數據檢測：數據檢測主要針對兩方面：數據+質量，數據可以通過腳本來一一實現檢測，但是數據質量，比如是否亂碼，是否跨行等只能通過自己手動來查看

第四步：后續運維：有些業務數據全量上云只需要一次，有的可能數據庫較小，每天都可以全量，這些都要根據實際需求，在云平臺或者腳本里設置好自動調度，還要考慮血緣，依賴，以及后續運維的難易程度

這里是數據全量上云的解決方案，如需要腳本或者工具等請參考我的Github ：DTBoys

感謝觀看

總結

以上是生活随笔為你收集整理的大数据之路之数据上云解决方案(全量)的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。