日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 运维知识 > windows >内容正文

windows

元数据管理平台对比预研 Atlas VS Datahub VS Openmetadata

發(fā)布時(shí)間:2024/1/11 windows 41 coder
生活随笔 收集整理的這篇文章主要介紹了 元数据管理平台对比预研 Atlas VS Datahub VS Openmetadata 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

大家好,我是獨(dú)孤風(fēng)。元數(shù)據(jù)管理平臺(tái)層出不窮,但目前主流的還是Atlas、Datahub、Openmetadata三家,那么我們?cè)撊绾芜x擇呢?

本文就帶大家對(duì)比一下。要了解元數(shù)據(jù)管理平臺(tái),先要從架構(gòu)說起。

元數(shù)據(jù)管理的架構(gòu)與開源方案

下面介紹元數(shù)據(jù)管理的架構(gòu)實(shí)現(xiàn),不同的架構(gòu)都對(duì)應(yīng)了不同的開源實(shí)現(xiàn)。

下圖描述了第一代元數(shù)據(jù)架構(gòu)。它通常是一個(gè)經(jīng)典的單體前端(可能是一個(gè) Flask 應(yīng)用程序),連接到主要存儲(chǔ)進(jìn)行查詢(通常是 MySQL/Postgres),一個(gè)用于提供搜索查詢的搜索索引(通常是 Elasticsearch),并且對(duì)于這種架構(gòu)的第 1.5 代,也許一旦達(dá)到關(guān)系數(shù)據(jù)庫的“遞歸查詢”限制,就使用了處理譜系(通常是 Neo4j)圖形查詢的圖形索引。

很快,第二代的架構(gòu)出現(xiàn)了。單體應(yīng)用程序已拆分為位于元數(shù)據(jù)存儲(chǔ)數(shù)據(jù)庫前面的服務(wù)。該服務(wù)提供了一個(gè) API,允許使用推送機(jī)制將元數(shù)據(jù)寫入系統(tǒng)。

第三代架構(gòu)是基于事件的元數(shù)據(jù)管理架構(gòu),客戶可以根據(jù)他們的需要以不同的方式與元數(shù)據(jù)數(shù)據(jù)庫交互。

元數(shù)據(jù)的低延遲查找、對(duì)元數(shù)據(jù)屬性進(jìn)行全文和排名搜索的能力、對(duì)元數(shù)據(jù)關(guān)系的圖形查詢以及全掃描和分析能力。

Datahub 就是采用的這種架構(gòu)。

下圖是當(dāng)今元數(shù)據(jù)格局的簡單直觀表示:

(包含部分非開源方案)

Apache Atlas

Atlas是Hadoop的數(shù)據(jù)治理和元數(shù)據(jù)框架。Atlas于2015年7月開始在Hortonworks進(jìn)行孵化。

官網(wǎng)地址為:https://atlas.apache.org/

源碼地址為:https://github.com/apache/atlas

目前標(biāo)星1.7K,最新穩(wěn)定版本2.3.0。

開發(fā)語言后端主要為Java,前端功能主要為JS實(shí)現(xiàn)。

特性

  • Atlas支持各種Hadoop和非Hadoop元數(shù)據(jù)類型
  • 提供了豐富的REST API進(jìn)行集成
  • 對(duì)數(shù)據(jù)血緣的追溯達(dá)到了字段級(jí)別,這種技術(shù)還沒有其實(shí)類似框架可以實(shí)現(xiàn)
  • 對(duì)權(quán)限也有很好的控制

Atlas包括以下組件:

  • 采用Hbase存儲(chǔ)元數(shù)據(jù)
  • 采用Solr實(shí)現(xiàn)索引
  • Ingest/Export 采集導(dǎo)出組件 Type System類型系統(tǒng) Graph Engine圖形引擎 共同構(gòu)成Atlas的核心機(jī)制
  • 所有功能通過API向用戶提供,也可以通過Kafka消息系統(tǒng)進(jìn)行集成
  • Atlas支持各種源獲取元數(shù)據(jù):Hive,Sqoop,Storm。。。
  • 還有優(yōu)秀的UI支持

Atlas是Hadoop生態(tài)的嫡系,并且天然的集成在Ambari中(不過版本較低,建議自己安裝)。

Atlas對(duì)Hive的支持極好,對(duì)Spark也有一定的支持。

如果熟悉Atlas的API,也可以很好的擴(kuò)展。

但由于社群活躍度一般,Atlas后期更新乏力。

頁面也還是老樣子,新版本的頁面并不完善,所以還有有很大的局限性。

DataHub (LinkedIn)

LinkedIn開源出來的,原來叫做WhereHows 。經(jīng)過一段時(shí)間的發(fā)展datahub于2020年2月在Github開源。

官網(wǎng)地址為:https://datahubproject.io/

源碼地址為:https://github.com/linkedin/datahub

目前標(biāo)星8.8K,最新穩(wěn)定版本0.12.0。

開發(fā)語言為Java和Python。

DataHub是由LinkedIn的數(shù)據(jù)團(tuán)隊(duì)開源的一款提供元數(shù)據(jù)搜索與發(fā)現(xiàn)的工具。

提到LinkedIn,不得不想到大名鼎鼎的Kafka,Kafka就是LinkedIn開源的。LinkedIn開源的Kafka直接影響了整個(gè)實(shí)時(shí)計(jì)算領(lǐng)域的發(fā)展,而LinkedIn的數(shù)據(jù)團(tuán)隊(duì)也一直在探索數(shù)據(jù)治理的問題,不斷努力擴(kuò)展其基礎(chǔ)架構(gòu),以滿足不斷增長的大數(shù)據(jù)生態(tài)系統(tǒng)的需求。隨著數(shù)據(jù)的數(shù)量和豐富性的增長,數(shù)據(jù)科學(xué)家和工程師要發(fā)現(xiàn)可用的數(shù)據(jù)資產(chǎn),了解其出處并根據(jù)見解采取適當(dāng)?shù)男袆?dòng)變得越來越具有挑戰(zhàn)性。為了幫助增長的同時(shí)繼續(xù)擴(kuò)大生產(chǎn)力和數(shù)據(jù)創(chuàng)新,創(chuàng)建了通用的元數(shù)據(jù)搜索和發(fā)現(xiàn)工具DataHub。

由于背后有商業(yè)化的規(guī)劃,并且社區(qū)活躍,近兩年Datahub的更新異?;钴S。也將自己的定位為基于現(xiàn)代數(shù)據(jù)棧的元數(shù)據(jù)平臺(tái)。
DataHub實(shí)現(xiàn)了端到端的數(shù)據(jù)發(fā)現(xiàn),數(shù)據(jù)可觀察性和數(shù)據(jù)治理。并且為開發(fā)人員提供了豐富的擴(kuò)展接口,其目的就是應(yīng)對(duì)不斷變化的數(shù)據(jù)生態(tài)。事實(shí)證明,元數(shù)據(jù)管理就應(yīng)該這樣去建設(shè)。
DataHub提供了跨數(shù)據(jù)庫、數(shù)據(jù)倉庫、數(shù)據(jù)湖、數(shù)據(jù)可視化工具的搜索與發(fā)現(xiàn)功能。實(shí)現(xiàn)端到端的全流程數(shù)據(jù)血緣的構(gòu)建。DataHub是實(shí)時(shí)的元數(shù)據(jù)捕捉框架,可以實(shí)時(shí)感應(yīng)元數(shù)據(jù)的變化。同時(shí)支持標(biāo)簽,術(shù)語表,業(yè)務(wù)域等元數(shù)據(jù)的管理。DataHub還提供了豐富的權(quán)限支持。在最新的DataHub版本中,可以在頁面上去進(jìn)行元數(shù)據(jù)的獲取操作。
DataHub支持的數(shù)據(jù)源非常豐富,如Tableai、PowerBI、Superset等數(shù)據(jù)可視化工具。
也支持Airflow、Spark、ES、Kafka、Hive、Mysql、Oracle等大數(shù)據(jù)組件的元數(shù)據(jù)的獲取。

Datahub的頁面經(jīng)過最新的改版,規(guī)劃也較為合理,美觀。

Openmatadata

OpenMetadata是一個(gè)用于數(shù)據(jù)治理的一體化平臺(tái),可以幫助我們發(fā)現(xiàn),協(xié)作,并正確的獲取數(shù)據(jù)。

OpenMetadata提供了數(shù)據(jù)發(fā)現(xiàn)、數(shù)據(jù)血緣、數(shù)據(jù)質(zhì)量、數(shù)據(jù)探查、數(shù)據(jù)治理和團(tuán)隊(duì)協(xié)作的一體化平臺(tái)。它是發(fā)展最快的開源項(xiàng)目之一,擁有充滿活力的社區(qū),并被各行業(yè)垂直領(lǐng)域的眾多公司采用。 OpenMetadata 由基于開放元數(shù)據(jù)標(biāo)準(zhǔn)和API 的集中式元數(shù)據(jù)存儲(chǔ)提供支持,支持各種數(shù)據(jù)服務(wù)的連接器,可實(shí)現(xiàn)端到端元數(shù)據(jù)管理,讓您可以*地釋放數(shù)據(jù)資產(chǎn)的價(jià)值。

官網(wǎng)地址:https://open-metadata.org/

源碼地址:https://github.com/open-metadata/OpenMetadata

目前標(biāo)星3.4K,最新版本為1.2.3。

主要開發(fā)語言,后端為Java,前端為TS。

其UI非常美觀,其操作和使用邏輯,也符合業(yè)務(wù)人員的習(xí)慣。

優(yōu)缺點(diǎn)對(duì)比

Datahub:

優(yōu)勢:

強(qiáng)大的數(shù)據(jù)發(fā)現(xiàn)和搜索功能,方便用戶快速定位所需數(shù)據(jù)。

提供數(shù)據(jù)質(zhì)量元數(shù)據(jù),幫助用戶理解和信任數(shù)據(jù)。

支持多種數(shù)據(jù)源,包括傳統(tǒng)的關(guān)系數(shù)據(jù)庫和現(xiàn)代的數(shù)據(jù)湖。

社區(qū)活躍,不斷有新功能和改進(jìn)加入。

劣勢: 初學(xué)者可能會(huì)覺得界面和配置相對(duì)復(fù)雜。

在某些情況下,集成新的數(shù)據(jù)源可能需要額外的開發(fā)工作。

Atlas:

優(yōu)勢:

與Apache Hadoop生態(tài)系統(tǒng)深度集成,特別適合Hadoop用戶。

提供強(qiáng)大的數(shù)據(jù)血緣和分類功能,有助于數(shù)據(jù)治理。

支持自定義的元數(shù)據(jù)類型和模型。

開源,有較大的社區(qū)支持和貢獻(xiàn)。

劣勢:

主要針對(duì)Hadoop生態(tài)系統(tǒng),可能不適合非Hadoop環(huán)境。

用戶界面和用戶體驗(yàn)不如一些商業(yè)產(chǎn)品。

如何選擇?

毫無疑問,從活躍度和發(fā)展趨勢來看,Datahub都是目前最炙手可熱的元數(shù)據(jù)管理平臺(tái)。Openmatadata更有數(shù)據(jù)治理、數(shù)據(jù)資產(chǎn)管理平臺(tái)的樣子。而Atlas和Hadoop聯(lián)系緊密,也有自己優(yōu)勢。

那么我們?cè)撊绾芜x擇呢?首先應(yīng)該明確需求。

相信讀到這篇文章的人,大部分還是想做一個(gè)元數(shù)據(jù)管理平臺(tái),以開展企業(yè)的數(shù)據(jù)治理工作。如果學(xué)習(xí)過DAMA的數(shù)據(jù)治理體系,我們應(yīng)該知道做元數(shù)據(jù)管理要梳理好數(shù)據(jù)源都在哪,并盡可能的管理公司的全量數(shù)據(jù)。

而功能方面,是否需要數(shù)據(jù)血緣功能,術(shù)語表、標(biāo)簽等功能都是需要調(diào)研的內(nèi)容。那我們一步步來分析。

1、梳理數(shù)據(jù)源

數(shù)據(jù)倉庫與BI是大部分企業(yè)必備的,也是重要的元數(shù)據(jù)來源。不同企業(yè)的的搭建方式不同,前幾年可能更多的是離線數(shù)倉,多采用Hive,Spark等大數(shù)據(jù)技術(shù)搭建。近幾年數(shù)據(jù)湖技術(shù),實(shí)時(shí)數(shù)倉技術(shù)出現(xiàn),更多的企業(yè)會(huì)選擇如Hudi,Iceberg等技術(shù),而實(shí)時(shí)數(shù)倉多采用Doris,Paimon等技術(shù),在實(shí)時(shí)處理中,還要考慮收集Flink實(shí)時(shí)計(jì)算引擎的元數(shù)據(jù)。

而部分企業(yè)也希望將業(yè)務(wù)系統(tǒng),如Oracle,Mysql等數(shù)據(jù)庫的元數(shù)據(jù)進(jìn)行收集。

除此以外,還有一些業(yè)務(wù)元數(shù)據(jù)也是需要梳理的,一般通過接口、頁面都可以操作。

原生支持所有組件的元數(shù)據(jù)管理平臺(tái)是不存在的。但是好在元數(shù)據(jù)管理平臺(tái)都提供了豐富的API接口,是可以擴(kuò)展的。

所以在對(duì)數(shù)據(jù)源梳理后,并結(jié)合上面元數(shù)據(jù)管理平臺(tái)的特性,可以做出基本的選擇。

如果企業(yè)需要管理的數(shù)據(jù)源主要是大數(shù)據(jù)組件,Hive和Spark為主,可以使用Atlas快速的搭建一個(gè)元數(shù)據(jù)管理平臺(tái),由于原生的支持,基本不需要做很多的適配,只要安裝配置好就可以。

但是如果企業(yè)收集元數(shù)據(jù)不限于此,建議選擇更靈活的Datahub和Openmetadata,反正都要做適配,做二次開發(fā),不如直接選一個(gè)更靈活的。

2、明確需求

我們先來看看三個(gè)平臺(tái)的功能。

Altas有搜索,數(shù)據(jù)血緣,標(biāo)簽,術(shù)語表等功能。

Datahub有搜索,數(shù)據(jù)血緣,數(shù)據(jù)分析,標(biāo)簽,術(shù)語表等功能,也可以集成數(shù)據(jù)質(zhì)量框架,如GreatExceptions。

Openmetadata有搜索,數(shù)據(jù)血緣,數(shù)據(jù)質(zhì)量,數(shù)據(jù)分析,標(biāo)簽,術(shù)語表功能,并且有團(tuán)隊(duì)協(xié)作的功能。

如果這些能滿足公司的需要就是可以選擇的,如果不能,那么多余的功能就需要另外的開發(fā)了。

二開這里簡單說一下,如果是元數(shù)據(jù)管理平臺(tái)+數(shù)據(jù)治理工具的組合,建議選擇Datahub基本可以覆蓋所有的元數(shù)據(jù)管理功能,也有很好的擴(kuò)展性。

而如果想選擇一個(gè)平臺(tái)大而全,可以考慮在Openmetadata基礎(chǔ)上二開,畢竟支持的功能多一些。

3、可行性

雖然完事具備,但是能不能實(shí)行,其實(shí)并不一定。實(shí)現(xiàn)元數(shù)據(jù)管理的難度巨大。

在項(xiàng)目開始之前,必須要考慮實(shí)現(xiàn)的難度,如果不需要二開,可能只需要有經(jīng)驗(yàn)的技術(shù)人員或者運(yùn)維人員安裝好就可以。

但是如果需要二開,則必須考慮開發(fā)難度。

Atlas后端主要為Java,需要高級(jí)的Java開發(fā)人員進(jìn)行鉆研,如需要更改頁面,也需要前端人員的配合。

Datahub后端Java和Python都有的,而核心的數(shù)據(jù)攝取部分,主要是Python為主,熟悉Python框架的同學(xué)會(huì)更好上手。如需要更改頁面,也需要前端人員的配合。

Openmetadata后端為Java,前端為TS。同樣都是要有相關(guān)經(jīng)驗(yàn)的人員參與的。

元數(shù)據(jù)管理并不容易,我在搭建二開環(huán)境的過程中也是遇到了很大的困難,但是熟悉開源項(xiàng)目的源碼對(duì)于自研項(xiàng)目也有著非常大的幫助,沒有白走的路,越是困難收獲也會(huì)更大。

歡迎加入大數(shù)據(jù)流動(dòng),共同學(xué)習(xí)元數(shù)據(jù)管理相關(guān)知識(shí),未完待續(xù)~

總結(jié)

以上是生活随笔為你收集整理的元数据管理平台对比预研 Atlas VS Datahub VS Openmetadata的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。