日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

如何快速搭建云原生企业级数据湖架构及实践分享

發布時間:2024/8/23 编程问答 30 豆豆
生活随笔 收集整理的這篇文章主要介紹了 如何快速搭建云原生企业级数据湖架构及实践分享 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

簡介:?眾所周知,數據湖技術在大數據領域炙手可熱,隨著在云上的廣泛部署和應用,其業務價值逐漸獲得業界共識。如何快搭建數據湖架構被越來越多的企業探討。本文主要分享快速搭建云原生企業級數據湖架構及實踐分享。

王震,阿里云計算平臺事業部 開源大數據平臺 技術專家

本文根據王震在 2021開源大數據技術線上Meetup#0821 分享整理

直播回放鏈接:https://developer.aliyun.com/live/247227

內容框架:

  • 背景介紹
  • 如何使用 DLF數據湖
  • 實操演示

一、背景介紹

什么是數據湖 ?

數據湖:以一定規則形式存儲各種類型的數據

  • 結構化數據( Orc 、Parquet )
  • 半結構化數據 ( Json 、Xml )
  • 非結構化數據(圖像 、視頻)

為什么需要數據湖 ? ?

1、數據規模進一步擴大

  • 大數據存儲需要治理
  • 數據治理需要厘清數據依賴關系(血緣)
  • 用戶需要明確大數據整體成本(TCO)

2、數據來源多樣化

  • 事務數據(MySQL, SqlServer)
  • 搜索數據 (SOLR)
  • 批處理數據 (SPARK, HIVE)

3、數據格式多樣化

  • Parquet / Orc / Avro / Csv / Json / Text

4、數據分析場景多樣化

  • 基于語義的搜索分析
  • 隨機/近實時 OLAP 分析

5、數據分析用戶多元化

  • 分析用戶角色多元化 (開發/測試/數據/BI)
  • 用戶數據訪問合規管控訴求

數據湖能做什么

1、針對數據規模進一步擴大

  • 數據湖提供 【數據血緣】服務
  • 數據湖提供 【數據治理】服務
  • 數據湖幫助用戶明確大數據的整體成本

2、針對數據來源多樣化

  • DLF 提供【統一元數據】服務

? 解決多引擎元數據一致性問題

? 解決元數據使用和維護成本問題

3、針對數據格式多樣化

  • DLF 提供【數據入湖/元數據爬取】服務

? 支持 MYSQL/KAFKA 入湖,元數據爬取

? 支持離線/實時入湖, 滿足不同業務時效要求

? 支持 DELTA/HUDI 等數據湖格式

4、針對數據分析場景多樣化

  • DLF 提供【統一元數據服務】

? 可以切換不同引擎 MC/EMR/DDI

? 數據探索在不同引擎之間一致

5、針對數據分析用戶多元化

  • 數據湖提供【訪問權限控制】服務

? 多引擎下的數據訪問集中授權/避免反復授權

? 解決多用戶數據訪問合規問題

  • 數據湖提供【訪問日志審計】服務

? 解決用用戶數據訪問合規審查問題

二、如何使用 DLF 數據湖

數據入湖

1、大量異構外部數據源【數據入湖】服務

  • 全量導入 : 批量入湖一次導入
  • 增量導入 : 實時入湖流失增量導入

2、大量現存Hadoop生態數據 【元數據爬取】服務

  • 將數據導入數據湖OSS進行存儲
  • 元數據爬取 提取原有數據schema

數據查詢

數據湖【統一元數據】服務支持多種引擎查詢

  • 使用數據探索(SPARK)對入湖數據進行探查
  • 使用MAXCOMPUTE對數據進行深度復雜加工
  • 使用Databricks DDI專用集群對數據進行探索
  • 更多引擎支持中…

數據治理

一、使用【權限訪問控制】服務控制數據訪問

  • 進行 庫/表/列 級別的訪問權限設置
  • 統一的元數據,只需要設置一次

二、使用【數據治理】服務明確大數據總成本

  • 日/周/月 級別的存儲使用情況 – 及時釋放過時的大存儲文件
  • 日/周/月 級別的計算使用情況 – 及時識別數據上的異常計算

三、實操演示

數據湖構建 DLF 體驗鏈接:https://dlf.console.aliyun.com/

原文鏈接

本文為阿里云原創內容,未經允許不得轉載。

總結

以上是生活随笔為你收集整理的如何快速搭建云原生企业级数据湖架构及实践分享的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。