python消费datahub_DataHub使用指南-阿里云开发者社区
快速入門教程
1.開通DataHub
? 使用DataHub的第一步,首先點擊開通DataHub
2.創建Project和 Topic
創建Topic方式解讀,Tuple還是Blob?
Tuple支持的是強Schema的結構化數據,Blob指的是沒有類型的非結構化數據,在實際中Blob就是只有一列為string類型的schema
值得注意的是:使用Blob類型topic的話,數據會采用Base64加密,無論是抽樣還是下游消費,都需要進行解密
Schema設計
DataHub目前只支持字段的新增,不支持刪除和修改,針對上游數據源字段經常發生變動的場景,建議設置允許字段為空,如果上游字段變更的話,針對多出來的字段可以通過SDK新增字段,而對于減少的字段則由于允許為空,值將會置為NULL,不會對業務造成影響
shard 和生命周期設置
shard在DataHub中代表的是并發通道,每個shard每秒吞吐限制為5M/s,每個shardQPS(每秒請求數)為2000次,您可根據這兩項指標合理設置shard個數
針對生命周期而言,可以根據業務需要設置,如果需要更改的話,可以使用Java SDK修改生命周期
3.上游的選擇
DataHub目前支持的數據采集插件
OGG
OGG for MySQL
OGG for Oracle
LogStash
Flume
Canal插件
Fluentd
注意:
4.指標查看 or數據抽樣
? 在將數據寫入到DataHub之后,DataHub提供了可視化指標來查看內部情況,具體詳情請查看
? 用戶如何查看數據質量,寫入是否正確?可以通過Web抽樣功能來查看數據
5.訂閱
? 什么是訂閱?
訂閱最主要的功能就是存儲消費點位,以及通過點位重置重新消費
用戶可創建不同的訂閱針對同一個Topic數據的不同消費模式
創建同步自動會創建對應的訂閱
6.同步數據到下游
? 消費DataHub數據有兩種方式,通過DataHub支持的同步數據庫同步到下游,或者通過自定義SDK消費數據進行處理
DataHub支持的同步類型:
Hologres
Maxcompute
ADS
ElasticSearch
函數計算
OSS
TableStore
RDS/MySQL/ADS 3.0
自定義SDK消費
? 您可以使用SDK對DataHub數據進行消費
? 同時DataHub協同消費解決多個消費者同時消費一個topic時,自動分配shard的問題,您也可以選擇使用協同消費對DataHub數據進行處理
? 同步往往是出現問題最多的,請參考 ?DataHub同步問題
7.監控報警
? 在同步數據過程中,DataHub支持了監控報警,目前只有訂閱延遲報警這一項,您可以通過創建報警規則方式對DataHub同步到下游數據進行監控,當超過延遲時間閾值時,會通過釘釘、短信等多種方式提醒您。
? 具體報警說明請查看文檔:監控報警
8 總結
本文通過對DataHub的創建使用,上游數據源的選擇,同步到DataHub的指標查看,以及下游類型的說明,闡述了DataHub做為數據通道的概念模型以及實際的落地場景,如有更多使用疑問,請加DataHub公共云群組進行反饋
?
總結
以上是生活随笔為你收集整理的python消费datahub_DataHub使用指南-阿里云开发者社区的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: python最低薪资_最低15K,最高5
- 下一篇: websocket python爬虫_p