日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 运维知识 > windows >内容正文

windows

【开源项目】轻量元数据管理解决方案——Marquez

發布時間:2024/1/11 windows 61 coder
生活随笔 收集整理的這篇文章主要介紹了 【开源项目】轻量元数据管理解决方案——Marquez 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

大家好,我是獨孤風。

又到了本周的開源項目推薦。最近推薦的元數據管理項目很多,但是很多元數據管理平臺的功能復雜難用。
那么有沒有輕量一點的元數據管理項目呢?
今天為大家推薦的開源項目,就是一個輕量級的元數據管理工具。雖然輕量,但是元數據的收集、展示、數據血緣等功能都是支持的。
讓我們一起來看看吧~

Marquez概述

今天為大家推薦的開源項目名為Marquez。這是WeWork開源的元數據管理工具,可以對元數據進行收集,聚合和可視化。
Marquez提供了開源的元數據服務,用于數據生態系統元數據的收集、聚合和可視化。通過它可以對數據集整體的產生和消費情況進行把控。
并提供數據處理全過程的數據可視化,并可以對數據集的生命周期進行集中管理。

該項目還在蓬勃發展中,目前標星數為1.5K,最新版本為三周前發布的0.43.1。主要開發語言為Java和TS。
Marquez的部署與Java項目類似,只要啟動對應的Web端服務和API服務就可以了。
特別強調一下Marquez的血緣API非常的簡潔,可以輕松建立數據血緣依賴關系,這可以為數據質量等原因分析提供保證。

可在大數據流動后臺回復“Marquez”獲取安裝包,源代碼與學習資料。

功能演示

請參考大數據流動視頻號的功能演示:

如何安裝?

可以docker快速安裝,需要至少滿足如下版本。

  • Docker 17.05+
  • Docker Compose

拉取項目

$ git clone https://github.com/MarquezProject/marquez && cd marquez

可以用下面的命令啟動

$ ./docker/up.sh --seed

請通過訪問http://localhost:3000瀏覽到 UI 。然后,使用頁面右上角的搜索欄搜索該職位etl_delivery_7_days。要查看 的沿襲元數據etl_delivery_7_days,請從下拉列表中單擊該作業:

您應該看到作業namespacename和數據集,input并且output作業運行標記為COMPLETED

最后,單擊 的輸出數據public.delivery_7_daysetl_delivery_7_days。您應該看到數據集nameschemadescription

API的使用

項目啟動后就可以調用API了。

下面是一個簡單的例子,首先我們要啟動一個血緣事件。

$ curl -X POST http://localhost:5000/api/v1/lineage \
  -i -H 'Content-Type: application/json' \
  -d '{
        "eventType": "START",
        "eventTime": "2020-12-28T19:52:00.001+10:00",
        "run": {
          "runId": "d46e465b-d358-4d32-83d4-df660ff614dd"
        },
        "job": {
          "namespace": "my-namespace",
          "name": "my-job"
        },
        "inputs": [{
          "namespace": "my-namespace",
          "name": "my-input"
        }],  
        "producer": "https://github.com/OpenLineage/OpenLineage/blob/v1-0-0/client",
        "schemaURL": "https://openlineage.io/spec/1-0-5/OpenLineage.json#/definitions/RunEvent"
      }'

隨后完成該任務。

$ curl -X POST http://localhost:5000/api/v1/lineage \
  -i -H 'Content-Type: application/json' \
  -d '{
        "eventType": "COMPLETE",
        "eventTime": "2020-12-28T20:52:00.001+10:00",
        "run": {
          "runId": "d46e465b-d358-4d32-83d4-df660ff614dd"
        },
        "job": {
          "namespace": "my-namespace",
          "name": "my-job"
        },
        "outputs": [{
          "namespace": "my-namespace",
          "name": "my-output",
          "facets": {
            "schema": {
              "_producer": "https://github.com/OpenLineage/OpenLineage/blob/v1-0-0/client",
              "_schemaURL": "https://github.com/OpenLineage/OpenLineage/blob/v1-0-0/spec/OpenLineage.json#/definitions/SchemaDatasetFacet",
              "fields": [
                { "name": "a", "type": "VARCHAR"},
                { "name": "b", "type": "VARCHAR"}
              ]
            }
          }
        }],     
        "producer": "https://github.com/OpenLineage/OpenLineage/blob/v1-0-0/client",
        "schemaURL": "https://openlineage.io/spec/1-0-5/OpenLineage.json#/definitions/RunEvent"
      }'

注意運行正常的話我們應該接到201 CREATED的響應。

在頁面搜索,將得到血緣展示。

這只是Marquez的基本用法。

Marquez提供元數據采集的一個標準方案,目前支持Spark,Airflow的表級別和列級別的數據血緣收集。
而Flink暫時只支持表級別的血緣收集。
相信Marquez未來會支持越來越多的數據源,讓我們一起期待一下吧~

總結

以上是生活随笔為你收集整理的【开源项目】轻量元数据管理解决方案——Marquez的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。