如何快速搭建云原生企业级数据湖架构及实践分享
簡介:?眾所周知,數據湖技術在大數據領域炙手可熱,隨著在云上的廣泛部署和應用,其業務價值逐漸獲得業界共識。如何快搭建數據湖架構被越來越多的企業探討。本文主要分享快速搭建云原生企業級數據湖架構及實踐分享。
王震,阿里云計算平臺事業部 開源大數據平臺 技術專家
本文根據王震在 2021開源大數據技術線上Meetup#0821 分享整理
直播回放鏈接:https://developer.aliyun.com/live/247227
內容框架:
- 背景介紹
- 如何使用 DLF數據湖
- 實操演示
一、背景介紹
什么是數據湖 ?
數據湖:以一定規則形式存儲各種類型的數據
- 結構化數據( Orc 、Parquet )
- 半結構化數據 ( Json 、Xml )
- 非結構化數據(圖像 、視頻)
為什么需要數據湖 ? ?
1、數據規模進一步擴大
- 大數據存儲需要治理
- 數據治理需要厘清數據依賴關系(血緣)
- 用戶需要明確大數據整體成本(TCO)
2、數據來源多樣化
- 事務數據(MySQL, SqlServer)
- 搜索數據 (SOLR)
- 批處理數據 (SPARK, HIVE)
3、數據格式多樣化
- Parquet / Orc / Avro / Csv / Json / Text
4、數據分析場景多樣化
- 基于語義的搜索分析
- 隨機/近實時 OLAP 分析
5、數據分析用戶多元化
- 分析用戶角色多元化 (開發/測試/數據/BI)
- 用戶數據訪問合規管控訴求
數據湖能做什么
1、針對數據規模進一步擴大
- 數據湖提供 【數據血緣】服務
- 數據湖提供 【數據治理】服務
- 數據湖幫助用戶明確大數據的整體成本
2、針對數據來源多樣化
- DLF 提供【統一元數據】服務
? 解決多引擎元數據一致性問題
? 解決元數據使用和維護成本問題
3、針對數據格式多樣化
- DLF 提供【數據入湖/元數據爬取】服務
? 支持 MYSQL/KAFKA 入湖,元數據爬取
? 支持離線/實時入湖, 滿足不同業務時效要求
? 支持 DELTA/HUDI 等數據湖格式
4、針對數據分析場景多樣化
- DLF 提供【統一元數據服務】
? 可以切換不同引擎 MC/EMR/DDI
? 數據探索在不同引擎之間一致
5、針對數據分析用戶多元化
- 數據湖提供【訪問權限控制】服務
? 多引擎下的數據訪問集中授權/避免反復授權
? 解決多用戶數據訪問合規問題
- 數據湖提供【訪問日志審計】服務
? 解決用用戶數據訪問合規審查問題
二、如何使用 DLF 數據湖
數據入湖
1、大量異構外部數據源【數據入湖】服務
- 全量導入 : 批量入湖一次導入
- 增量導入 : 實時入湖流失增量導入
2、大量現存Hadoop生態數據 【元數據爬取】服務
- 將數據導入數據湖OSS進行存儲
- 元數據爬取 提取原有數據schema
數據查詢
數據湖【統一元數據】服務支持多種引擎查詢
- 使用數據探索(SPARK)對入湖數據進行探查
- 使用MAXCOMPUTE對數據進行深度復雜加工
- 使用Databricks DDI專用集群對數據進行探索
- 更多引擎支持中…
數據治理
一、使用【權限訪問控制】服務控制數據訪問
- 進行 庫/表/列 級別的訪問權限設置
- 統一的元數據,只需要設置一次
二、使用【數據治理】服務明確大數據總成本
- 日/周/月 級別的存儲使用情況 – 及時釋放過時的大存儲文件
- 日/周/月 級別的計算使用情況 – 及時識別數據上的異常計算
三、實操演示
數據湖構建 DLF 體驗鏈接:https://dlf.console.aliyun.com/
原文鏈接
本文為阿里云原創內容,未經允許不得轉載。
總結
以上是生活随笔為你收集整理的如何快速搭建云原生企业级数据湖架构及实践分享的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Quick BI产品核心功能大图(四):
- 下一篇: 小程序下一破局点?钉钉小程序卡片,应用与