日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

打破数据统一的七大原则

發布時間:2025/7/14 编程问答 23 豆豆
生活随笔 收集整理的這篇文章主要介紹了 打破数据统一的七大原则 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

數據統一在數據分析領域里是個長期的挑戰,從事數據分析的從業者希望在數據分析之前,來自不同實體的數據能夠在同一個地方呈現出來。數據統一由七部分組成:1、獲取數據 2、清洗數據 3、轉換數據、4、模式集成 5、重復數據刪除、6、分類 7、導出


一般而言,企業實現數統一有兩種方法,提取轉換加載(ETL)和主數據管理(MDM)。

提取轉換加載(ETL)具有靈活性的優勢,適合不同的數據來源,使程序員可以手工編寫轉換程序,能夠確保源數據模式與集中式數據倉庫項目采用的全局模式匹配。但由于自動化程度低,提取轉換加載帶寬能超過20個數據源沒有多少家公司。

主數據管理(MDM),它與ETL類似的地方在于,預設一個“主記錄”,每一個有專門的類別選項。如客戶、部件和供應商等的所有文件符合主記錄格式。但和ETL有所區別的是,MOM不是使用手動的定制腳本,而是依靠一套“模糊合并”規則,把所有不同的文件轉換成主格式。

可難解的是,在數據量過大的情況下,不管是ETL還是MDM,都無法解決數據統一難題。加上大數據集的龐大規模以及對程序員的苛刻要求任何的可規模化數據統一項目都必須在很大程度上實現自動化,不能依靠手動編寫的程序。

著名計算機科學家、Tamr聯合創始人兼首席技術官邁克爾·斯通布雷克(Michael Stonebraker)針對數據統一存在的限制難題,提出數據統一的七條原則。

一、所有的可規模化系統,都必須自動進行絕大多數的操作。

二、模式為先(schema-first)的產品永遠無法規模化。唯一的選擇是采用‘模式為后’(schema-last)的產品。

三、需要進行具體的域操作時,只有協作性的系統才可實現規模化。

四、為了實現可規模化,任何的統一計算必須在多個核心和多個處理器上運行。

五、盡管存在第四條原則,但真正的可擴展應用需要復雜性低于N ** 2的并行算法。

六、規則系統實現是無法規模化的。只有機器學習系統才能將規模擴展到大公司所需要的程度。

七、必須支持實時增量統一。

本文轉自d1net(轉載)

總結

以上是生活随笔為你收集整理的打破数据统一的七大原则的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。