當前位置：首頁 > 运维知识 > 数据库 >内容正文

数据库

kudu大量数据更新_i2Stream提升异构数据库数据的互联互通

發布時間：2024/9/18 数据库 36 豆豆

生活随笔收集整理的這篇文章主要介紹了 kudu大量数据更新_i2Stream提升异构数据库数据的互联互通小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

最早提出“大數據”時代到來的是全球知名咨詢公司麥肯錫。麥肯錫稱：“數據，已經滲透到當今每一個行業和業務職能領域，成為重要的生產因素。人們對于海量數據的挖掘和運用，預示著新一波生產率增長和消費者盈余浪潮的到來。”? “大數據”在物理學、生物學、環境生態學等領域以及軍事、金融、通訊等行業存在已有時日，卻因為近年來互聯網和信息行業的發展而引起人們關注。2009年甲型H1N1流感爆發，有評論家警告，可能會出現類似1918年西班牙流感般大規模流行，影響5億人口并奪走數千萬人性命。在甲型H1N1流感爆發前幾周，互聯網巨頭谷歌公司在《自然》雜志上發表的一篇論文，引起了業內的廣泛關注。文中解釋了谷歌為什么能夠準確預測流感的傳播：通過觀察人們在網上的搜索記錄來完成這個預測，而這種方法以前一直被忽略。谷歌保存了多年來所有的搜索記錄，而且每天都會接受來自全球超過30億條的搜索指令。如此龐大的數據資源足以支撐和幫助谷歌完成預測。大數據開啟了一次重大的時代轉型，人們不再認為數據是靜止和陳舊的。在以前，一旦完成了收集數據的目的之后，數據就會被認為已經沒有用處了。但在大數據時代，數據本身發生了變化：

數據更多，不是隨機樣本，而是全體數據。
數據更雜，不是精確性，而是混雜性。
數據更好，不求因果關系，但求相關聯系。

每個人都可以獲取大量數據信息，而在數據洪流席卷全球的大數據時代，人類存儲信息量的增長速度比世界經濟的增長速度快4倍。到了2020年，全世界所產生的數據規模將達到8年前的44倍，國際數據公司IDC給出了詳細的數字：全球數據總量2020年將達到40ZB，2025年將達到175ZB。面對海量數據，迅猛發展的數據處理能力依然捉襟見肘，在入倉速度與分析速率相悖而生的大數據體系架構下，面臨兩大考驗：傳統數據管理要如何完成架構轉型，怎樣尋求入倉速度與分析速率平衡點。圖1：大數據應用大數據分析的基礎是大量可信數據，數據同步工具可以為大數據分析平臺提供源自實際業務的持續傳送的可信數據。大數據平臺匯聚了源自不同數據源的數據，因此可以從多維度、多視角實現數據采集、整合、清理、治理、分析，從而實現數據決策、趨勢分析和數據可視化展示等。隨著大數據技術的發展和應用，數據同步的需求和頻率也在提高，在了解基于日志抽取分析的數據流實時同步技術之前，先看一看數據同步的分類及基礎知識點：離線同步和在線同步：離線同步是指生產庫不對外提供服務，數據不會發生變化。在線同步要復雜得多，數據庫會一直對應用層系統提供服務，同步工具需要在數據不斷變化的情況下，將變化的數據同步到目的庫。如增刪、更新、插入及DDL操作等。準實時同步、實時同步、非實時同步：準實時接近于兩邊數據庫同時操作，但會有延時；實時同步是兩邊都是寫操作；非實時一般強調數據庫不對外提供服務時，再進行數據同步。通過日志、時間戳、全表拷貝的技術同步：日志分析是通過分析源數據庫日志，捕獲源數據庫中變化的數據，一般用于大型數據源，如Oracle；時間戳是在同步的源表里有時間戳字段，當數據變化時，時間戳記錄變化的時間；全表拷貝是定時清空目的數據源，然后將源庫數據全盤拷貝到目的數據源，實時性不高。數據倉庫技術ETL(Extract-Transform-Load的縮寫)：描述將數據從來源端經過抽取(extract)、轉換(transform)、加載(load)至目標端的過程。ETL常用在數據倉庫，但其對象并不限于數據倉庫。ETL是將業務系統的數據經過抽取、清洗轉換之后加載到數據倉庫的過程，目的是將企業中的分散、零亂、標準不統一的數據整合到一起，為企業的決策提供分析依據，ETL是商業智能(BI)項目重要的一個環節。JSON(JavaScript Object Notation) 文件：一種輕量級的數據交換格式文件，易于人閱讀和編寫，也易于機器解析和生成。JSON采用完全獨立于語言的文本格式，但是也使用了類似于C語言家族的習慣(包括C、C++、C#、Java、JavaScript、Perl、Python等)。這些特性使JSON成為理想的數據交換語言。JSON是Kafka平臺可識別的格式文件。Kafka流處理平臺：Kafka是一種分布式消息隊列，用于發布和訂閱消息，可作為中間件將數據匯聚到數據湖、大數據應用和實時流分析系統中。Kafka具大容量存儲和快速讀寫兩大特點。Kafka的數據處理速度快可以通過批處理和壓縮記錄有效地使用IO。對于數據庫數據，Kafka具備兩大功能：一是異構數據庫的解耦，實現大數據量的數據緩沖；二是異構數據庫的格式轉化，實現異構數據庫的數據傳輸。數據同步工具抽取數據并做轉換、加載是數據進一步聚合、分析的基礎。數據同步技術的發展一方面會提高同步過程的可靠性、可視化，增強應對異常的能力；一方面也會和人工智能的發展相結合，以提供深層次數據處理和實現數據事件的智能化響應。基于前沿的數據庫數據同步分析技術，英方軟件推出了一種專注于面向預寫日志抽取分析的數據庫同步技術，可以從主流的結構化數據庫獲取數據的源頭保證數據的完整性、可靠性，進而實現數據的提取和復制，并實時將數據傳輸到Kafka等消息隊列。該技術充當了Kafka Producer的角色，從關系型數據庫解析生產數據，以JSON格式實時向Kafka平臺寫入，提供適用于大數據環境的高性能、容錯、易用和靈活的實時數據流平臺，幫助客戶擴展實時數據集成架構到大數據系統而不會影響生產系統的性能。圖2：i2Stream應用架構和場景圖3是關系型數據庫Oracle到Kudu的數據抽取→轉換→轉載的過程，先通過數據庫復制產品i2Active將源端數據庫的結構化數據解析、提取后, 通過i2Stream進行對接、轉換，并發送給消息隊列，最終寫入HDFS。在此基礎上將數據同步到Kudu/HBase等數據倉庫。圖3：數據從Oracle到Kudu的過程基于該技術研發的管理軟件i2Stream，主要功能包括：

支持結構化、異構數據源全量和實時增量快速加載到各類Hadoop(hdfs、Hive、HBase、Kudu)、Kafka、關系型數據庫等目標庫；
支持無侵入實時增量數據獲取功能。功能支持的源端數據庫包括Oracle(RAC)、SQLServer、MySQL、MariaDB、PostgreSQL、GaussDB、DB2等；
目標庫支持關系型數據和Hadoop(hdfs、Hive、HBase、Kudu)、Kafka等多種大數據存儲數據庫；
支持表級、實例級的數據過濾和轉換；
支持源數據庫一對多分發到不同的目標庫中，支持源庫多對一匯聚到同一個目標庫；?
采用多線程流處理技術，數據轉發性能高，秒級延時；
支持近實時大數據入倉(Hive)，Hive的批量裝載速度達到近萬條；
采用B/S圖形界面配置，簡單易用。

相比其他數據流復制技術產品，i2Stream的優勢在于可以提供較高的數據同步性能、圖形化管理界面、可為客戶提供系統監控API，客戶可以自行整合監控數據到統一的管理平臺。可以為客戶提供數據驗證手段，如同步后數據的比對、修復。可以為客戶提供定制開發滿足用戶的特定需求等。云和大數據時代，除了數據超多之外，還面臨著系統超復雜(Gartner：2020年全球企業超過6成將實施雙模IT，75%企業將應用基于容器的云原生架構)和環境超異構(RightScale：84%為多云環境，其中58%為混合云環境)的挑戰，傳統的大數據復制技術正在經歷架構變化帶來的轉型陣痛，英方新的大數據復制技術在以往的經驗上，適應了兩大應用場景：

異構數據庫數據的實時流通、交互，幫助用戶完成核心數據的遷移、同步。
幫助證券、銀行、支付平臺實現大數據從數據庫傳輸到大數據平臺，再根據業務需要，轉換成各類報表數據，為各類商業智能(BI)項目服務。

圖4：大數據應用于金融系統大數據技術正在發生深刻的變化，任何IT基礎架構的變化和創新，都會引發新一輪的技術競賽，在日益變化的客戶場景中，沒有最好的技術，只有合適的選擇，用戶因此需要根據自身的技術喜好和業務需求，做出正確的決策。?— ?推薦閱讀 ?—海量政務系統上云，成就云上天府之城2020-05-29大數據大作為｜i2Stream入選中國軟件協會2019創新產品2019-08-28為什么金融行業都愛大數據2019-04-12關于英方英方軟件是一家專注于數據復制的基礎軟件企業，致力于動態文件復制、數據庫復制等技術的研發與推廣，產品廣泛應用于災備、數據保護、云數據管理等領域，以確保企業的數據安全和業務連續性。多年來，秉承“讓世界早有準備”的使命，英方旨在賦能企業改變傳統的數據及業務保護方式，在災備、大數據管理、文件共享和云服務等領域為客戶提供高效、便捷、富有競爭力的產品及服務，以開放的姿態，與生態伙伴通力合作，為用戶的數字化轉型之路保駕護航。英方人堅持激情、專注、誠信、勤奮的價值觀，釋放組織活力，激發個人潛能，自主研發，圍繞客戶需求，持續為客戶創造價值，推動數字世界不斷向前發展。·?咨詢：400-0078-655·?官網：www.info2soft.com

總結

以上是生活随笔為你收集整理的kudu大量数据更新_i2Stream提升异构数据库数据的互联互通的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： abb机器人建立工件坐标系_ABB机器人
下一篇： linux cmake编译源码,linu