日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

大数据之路之数据上云解决方案(全量)

發布時間:2023/12/14 编程问答 65 豆豆
生活随笔 收集整理的這篇文章主要介紹了 大数据之路之数据上云解决方案(全量) 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

定義:數據上云又稱數據采集,數據集成,數據遷移,是大數據架構中的最基礎也是最根本的一環,從性質上來講屬于ETL中的一部分操作,即把數據從一個地方遷移匯總到另外一個地方。數據上云解決了信息孤島問題,解決了信息不對稱問題,即”車同軌書同文“,同時把數據遷移到云計算平臺,對后續數據的計算和應用提供了第一步開山之路

難點:

  • 數據上云如何做到在數量上,質量上保持無誤?
  • 數據上云如何解決不同平臺的網絡,架構等數據兼容性,影射性問題?
  • 數據上云如何做到從云下到云上自動調度,如何保證數據變更與云下保持一致?
  • 數據上云如何解決云下數據庫表結構變化,云下數據變化,云上能及時獲取,能及時在平臺級做到變更?
  • 數據上云如何針對不同的業務需求做出不同的應對,如何面面俱到而不是過度擬合?
  • 數據上云如何解決后續運維難題?
  • 上云工具:數據上云工具有很多,不僅有開源的DataX,Kettle,Sqoop等,還有一些廠商自研的各種數據采集平臺,我們可根據實際需求選擇最好的。由于很多數據采集平臺都是付費或者與自己云平臺綁定在一塊的,買了服務才能用,而且這種平臺大多數是圖形化點擊操作,無需掌握采集技術原理,只需傻瓜式點點即可,所以這里我們講一下更具技術含量的開源采集工具,以DataX為例,DataX知識

    篇幅有限,這里先講全量上云

    全量上云即在上云的那一剎那,把當前數據庫形成一個全量快照,然后采集上云,所以在傳統全量上云中,云下數據庫新進來的數據是無法采集到的,不過影響也不算大。畢竟我們選擇全量上云時一般都是在凌晨左右,業務量極低,而且本身全量上云就是離線操作,所以這些新進來的數據第二次采集再進來也不遲,如果業務有需求的,可以通過控制時間和采集頻率來解決?

    以oracle - 云 為例

    第一步:信息配置:由于實際業務表成千上萬,我們不可能一一進行json的配置,所以需要采用配置文件和腳本結合的方法:即首先配置好數據庫,表等配置文件,然后通過shell腳本建立并發開始平臺建表,數據上云

    第二步:分區合并:可能某些oracle9i數據庫上云過程中提示快照過舊,這時候就不能再使用自定義分區來上云,只能夠用數據庫初始分區進行,后續再在云平臺進行數據合并,把一張表的不同分區合成一個分區

    第三步:數據檢測:數據檢測主要針對兩方面:數據+質量,數據可以通過腳本來一一實現檢測,但是數據質量,比如是否亂碼,是否跨行等只能通過自己手動來查看

    第四步:后續運維:有些業務數據全量上云只需要一次,有的可能數據庫較小,每天都可以全量,這些都要根據實際需求,在云平臺或者腳本里設置好自動調度,還要考慮血緣,依賴,以及后續運維的難易程度

    這里是數據全量上云的解決方案,如需要腳本或者工具等請參考我的Github :DTBoys

    感謝觀看

    總結

    以上是生活随笔為你收集整理的大数据之路之数据上云解决方案(全量)的全部內容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。