北京年会和关于数据仓库板块的思考
生活随笔
收集整理的這篇文章主要介紹了
北京年会和关于数据仓库板块的思考
小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.
說實話我認為是一個喜歡研究技術的人,雖然我的 Oracle 、 Sybase 、 SQLServer 等數(shù)據(jù)庫 水平實在很菜,甚至 Powerbuilder,VB,Java 水平也不過爾耳;在火車上是和 hanson 、 yxyup 、 yeahy 三位 Oracle 高手一起入住的;在 08 年會 上新認識的 warehouse 、 zhouwf0726 、趙宇;包括 ningoo 、 blue_prince 、 xzh2000 、 piner 在內的淘寶的一系列的 DBA ; yangtingkun 、 D.C.B.A 、 rollingpig 這樣的牛人;其他 DBA 像老朱、 diablo2 雖然是 DB2 或者已經不做數(shù)據(jù)庫了;還有棉花糖這個好學生; ora-600 這個職業(yè)講師兼自由人;已經當了官的 QQ 小鳥; HP 的 yanggq 、 fusnow 、 skyjiang ;當然還有 eygle 和 biti 這兩位超級牛人,雖然他們不一定認識我; Oracle 板塊的斑竹我應該認識一半有余了;總的來說給我的感覺他們的數(shù)據(jù)庫功底非常的深厚, Oracle 的 DBA 隊伍越來越龐大,人才濟濟;這一點看看數(shù)據(jù)庫的分會場就知道了,這一塊也是 itpub 安身立命的基礎 ,也是打敗各個其他論壇的基石,衷心希望 itpub 能夠堅持下去, DBA 能夠一代一代的傳承下去;環(huán)顧過去數(shù)據(jù)倉庫只有我和 flywolf2000 兩個人參會,未免太形單影只了,當然數(shù)據(jù)倉庫并不是我們兩個可以代表的。 當然除了 itpub 之外還有一些其他活躍的論壇和群組,像 TTNN 、 dwway 、 ChinaBI 、 BI 立方體-商業(yè)智能社區(qū)、 CSDN 的子板塊。 http://www.dwway.com/ 好像那里需要發(fā)表原創(chuàng)文檔才能成為正式會員,反正我發(fā)了一篇之后就沒去過了,要求門檻太高,變成陽春白雪了,對于普及和發(fā)展階段的 BI/DW 并非什么好事。 http://www.ChinaBI.com/ 網站口氣很大,不過似乎并不活躍,那里的文章轉載居多(當然也包括我的,曾向我約稿過,后來就沒怎么談了),所有的博客訪問量比我多一些,以介紹案例為主 http://www.bicubes.com 是個剛成立的網站,最近折騰的比較厲害,剛開始在 itpub 上做廣告,還因為轉載文章的緣故,在數(shù)據(jù)倉庫板塊 PK 了一陣子,著是熱鬧了一陣子,沒理會他,最近聯(lián)合 TTNN 組織過兩次 BIER 的聚會。曾經想注冊看看虛實,無奈新浪郵箱注冊不了也就算了,不過更新很慢。 http://groups.google.com/group/ttnn 算是個比較火的 BI/DW 討論群組了,每個月定期會出一本電子雜志,創(chuàng)辦人獨立支撐了兩年 ( 確實很不容易 ) ,務虛和耍嘴皮子的太多而真正做架構的很少,很多東西流于概念 ,談不到一起,后來我也就是定期去下載雜志,不怎么發(fā)言了。道不同不相為謀,沒準別人認為我層次太低呢。上面的數(shù)據(jù)倉庫板塊可以忽略不談了 itpub 的數(shù)據(jù)倉庫板塊現(xiàn)狀又如何呢? 只能說數(shù)據(jù)倉庫板塊依托于 itpub 數(shù)據(jù)庫板塊和社區(qū)功能情況還不至于太糟糕;搞數(shù)據(jù)庫的往往自以為數(shù)據(jù)庫和性能優(yōu)化可以解決一切數(shù)據(jù)倉庫問題,自然不屑于這些有些理想化和過于理論化的東西,像盛大好像就是如此花了很多時間請外面的人講解數(shù)據(jù)倉庫基本知識; ebay 倒是有一批專職數(shù)據(jù)倉庫人員的,可相當部分是 HP 過去的,因為 ebay 的數(shù)據(jù)倉庫就是 HP 的人在維護和實施的;呵呵,不知道淘寶的數(shù)據(jù)倉庫如何; itpub 上討論具體工具使用的太多,還處于初級階段,當然這和數(shù)據(jù)倉庫自身的特點很有關系, BI/DW 包括了數(shù)據(jù)庫、 OLAP 、報表展現(xiàn)工具、 ETL 工具等等,每種又包括若干主流工具,數(shù)據(jù)倉庫解決方案可能由幾十種組合方式,大家疲于奔命只好學習 工具而不能自拔了;稍微有些數(shù)據(jù)倉庫工作經驗的就開始務虛了,討論這個概念那個概念的,以為概念能解決任何問題;有些人過分拘泥于數(shù)據(jù)倉庫的概念,對數(shù)據(jù)倉庫、數(shù)據(jù)庫、 OLAP 、 BI 本身的概念糾纏不休,殊不知數(shù)據(jù)倉庫本身就在不斷的發(fā)展過程中;有些人還對業(yè)務驅動還是技術驅動的第一驅動力產生了興趣,曾經在數(shù)據(jù)倉庫板塊發(fā)動了一場轟轟烈烈的辯論;新概念只能是為了吸引新的用戶群體發(fā)展客戶群來用的,不管怎么數(shù)據(jù)倉庫的本質沒有改變。 說了這么多,那數(shù)據(jù)倉庫究竟是什么呢? 數(shù)據(jù)倉庫定義為 “ 一個面向主題的、集成的、隨時間變化的、非易變的用于支持管理 的決策過程的數(shù)據(jù)集合 ” 。也就是說數(shù)據(jù)倉庫是個數(shù)據(jù)集合,它的載體依然是數(shù)據(jù)庫,不過和大多數(shù)聯(lián)機在線系統(tǒng)( OLTP )在目標用途特性上已經有了本質的區(qū)別。 聯(lián)機事務 處理系統(tǒng) (OLTP) ,也稱為面向交易的處理系統(tǒng),其基本特征是顧客的原始數(shù)據(jù)可以立即傳送到計算中心進行處理,并在很短的時間內給出處理結果。衡量聯(lián)機事務處理系統(tǒng)的一個重要性能指標是系統(tǒng)性能,具體體現(xiàn)為實時響應時間。 OLTP 系統(tǒng)的主要特點就是事務處理、面向應用、反映當前情況。 數(shù)據(jù)倉庫的目的則是為了解決在信息技術 (IT) 發(fā)展中存在的擁有大量數(shù)據(jù)、然而有用信息貧乏 (Data rich-Information poor) 的問題。如何把數(shù)據(jù)轉換成信息,進一步把信息轉換成知識的過程。數(shù)據(jù)倉庫的特點則是面向主題、集成性—企業(yè)數(shù)據(jù)框架、歷史性、穩(wěn)定性。 說到底數(shù)據(jù)倉庫不是一門純粹的技術,不是數(shù)據(jù)庫不是 OLAP 不是 ETL 甚至不是 BI 工具,從數(shù)據(jù)庫角度來看,良好的物理設計和性能優(yōu)化只是其手段而不是目的,數(shù)據(jù)倉庫允許數(shù)據(jù)的冗余允許長時間的運行;它應該是一種體系結構,它的核心是在于對于數(shù)據(jù)的整合,通過抽絲剝繭把企業(yè)原始數(shù)據(jù)進行集成、歸類、分析,從而提供了企業(yè)決策分析需要的 KPI ;同樣它也是一個過程 ETL 對數(shù)據(jù)進行集成、整合、清洗、轉換和加載,并在實踐和與用戶確認中不斷的校驗,其最終目標是為了達到整合企業(yè)信息信息,提供決策支持。 因此數(shù)據(jù)倉庫本身應該包括兩個問題:邏輯結構和物理結構物理的就是數(shù)據(jù)倉庫架構問題,一套好的解決方案應該是有彈性的, ODS 區(qū)、明細數(shù)據(jù)數(shù)據(jù)區(qū)、匯總數(shù)據(jù)區(qū)(也叫事實表);以及數(shù)據(jù)庫、 OLAP 、報表工具、 ETL 處理一個都不能少;數(shù)據(jù)庫作為數(shù)據(jù)倉庫的載體,而且是超大數(shù)據(jù)集合的存儲,其性能和分層設計自然是重中之重; OLAP 關系到多維立方體和數(shù)據(jù)的展現(xiàn)效率和效果;報表工具是用戶的門戶,良好的用戶體驗也是系統(tǒng)的關鍵; ETL 呢是數(shù)據(jù)倉庫最為關鍵的地方。 ETL 既可以是純粹的數(shù)據(jù)庫腳本也可以是 ETL 工具本身的可視化界面, ETL 工具本身提供了屏蔽各個異構系統(tǒng)之間的復雜接口,提供了集成轉化抽取裝載的一致化接口,甚至提供了性能優(yōu)化的途徑,也相應的也減化和弱化了 DBA 的工作。當然 ETL 工具的優(yōu)化無論如何也比不上 DBA 的優(yōu)化結果。某種程度上仍然需要數(shù)據(jù)倉庫 DBA 的參與。 邏輯的主要是指業(yè)務問題,如果只是數(shù)據(jù)遷移和數(shù)據(jù)的集中,達不到決策支持的目標,便失去了數(shù)據(jù)倉庫的意義,因此業(yè)務問題才是數(shù)據(jù)倉庫項目成敗最重要的關鍵環(huán)節(jié),所以必須有商務領域知識專家、 IT 專家的角色 ( 就是通常所說的咨詢顧問 ) 和甲方的積極參與,這些人往往具備比較資深的行業(yè)背景,具備豐富的獨立實施該行業(yè)信息系統(tǒng)建設的經驗,了解該行業(yè)最先進和通用的標準和規(guī)范,同時在結合現(xiàn)有企業(yè)信息系統(tǒng)的基礎上,以及融合企業(yè)發(fā)展戰(zhàn)略的基礎上,提出當前企業(yè)的業(yè)務模型,來幫助企業(yè)提高決策支持分析能力。這一點我不是行業(yè)專家,不敢談及太多。 年會的時候, Sybase 公司的盧總找 flywolf2000 和我談起邀請 Ralph Kimball 來華授教的問題,想通過 itpub 了解和調查一下用戶可接受的前景,畢竟邀請大師來也是一筆不小的費用。如果能和 it168 聯(lián)合舉辦也不失為宣傳 it168 和 itpub 的一種策略,至于其他的論壇還沒有足夠的財力來支撐這筆聯(lián)辦費用。 Infosys 曾經邀請過數(shù)據(jù)倉庫的鼻祖 Bill Inmon 到印度培訓了兩周,留下了很多的寶貴資料。在我看來他們沒有什么本質的區(qū)別,只是細節(jié)和實施方法上有些差別而以,大概是因為我讀的書確實不夠多的緣故。 盡管數(shù)據(jù)庫和數(shù)據(jù)倉庫本質上和要求是不同的,而令我感到慚愧的是我工作了很多年, Oracle 從使用到現(xiàn)在也經歷了 8 個春秋了,卻還不如那些論壇里面學了 2 年 Oracle 的人厲害,也許 Oracle 數(shù)據(jù)庫管理確實不是我的專長,但是學好數(shù)據(jù)庫無論如何對數(shù)據(jù)倉庫的物理架構設計還是有著至關重要的影響的,有一技之長總是好的,像我總是飄忽在博而不精、雜而不專的陷阱之中;我希望能夠像各位 Oracle 牛人學習,并在此再向那些深耕于 Oracle 的 DBA 表示深深的敬意!
總結
以上是生活随笔為你收集整理的北京年会和关于数据仓库板块的思考的全部內容,希望文章能夠幫你解決所遇到的問題。