一个数据仓库转型者眼中的数据挖掘
生活随笔
收集整理的這篇文章主要介紹了
一个数据仓库转型者眼中的数据挖掘
小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.
一個數(shù)據(jù)倉庫轉(zhuǎn)型者眼中的數(shù)據(jù)挖掘
對于大多數(shù)非從業(yè)者或者初學者來說,數(shù)據(jù)倉庫(Data Warehousing)與數(shù)據(jù)挖掘(Data Mining)是很容易混淆的兩個概念。有個形象的比喻說:如果把數(shù)據(jù)倉庫比做一個大型的礦坑,那么數(shù)據(jù)挖掘就是入坑采礦的工作,數(shù)據(jù)挖掘需要有非常好的數(shù)據(jù)基礎(chǔ),沒有豐富完整的數(shù)據(jù),是挖掘不出好內(nèi)容的。數(shù)據(jù)倉庫可以說是數(shù)據(jù)挖掘最理想的地基。
筆者從事數(shù)據(jù)倉庫BI行業(yè)多年,先給各位簡單介紹一下什么是數(shù)據(jù)倉庫。數(shù)據(jù)倉庫
要將非常龐大又復雜的數(shù)據(jù)轉(zhuǎn)化成有用的信息,首先需要做的是有效率地收集數(shù)據(jù),于是數(shù)據(jù)倉庫應運而生。數(shù)據(jù)倉庫是一個環(huán)境,而不是一件產(chǎn)品;數(shù)據(jù)倉庫是面向主題的、集成的、相對穩(wěn)定的、隨時間不斷變化(不同時間)的數(shù)據(jù)集合,提供用戶用于決策支持的當前和歷史數(shù)據(jù)。數(shù)據(jù)倉庫技術(shù)是為了有效的把操作型數(shù)據(jù)集成到統(tǒng)一的環(huán)境中,以提供決策型數(shù)據(jù)訪問的各種技術(shù)和模塊的總稱。
數(shù)據(jù)倉庫的數(shù)據(jù)全部來源于外部,它本身并不“生產(chǎn)”任何數(shù)據(jù),同時自身也不需要“消費”任何數(shù)據(jù)。在數(shù)據(jù)架構(gòu)上面,數(shù)據(jù)倉庫通常采用層次化的模型架構(gòu),這種模式成本最低,基礎(chǔ)數(shù)據(jù)和應用指標的一致性最好,以某銀行數(shù)據(jù)倉庫邏輯架構(gòu)設計為代表:
第一層為貼源/標準數(shù)據(jù)層:這一層為“數(shù)據(jù)緩沖層”,在這一層中主要保存最原始的貼源數(shù)據(jù),有些設計會將數(shù)據(jù)的清洗及標準化操作也放到這一層中,用以保證不同系統(tǒng)的數(shù)據(jù)在數(shù)據(jù)結(jié)構(gòu)標準方面保持統(tǒng)一,如性別、日期、行業(yè)代碼等。另一些設計則不在這一層對數(shù)據(jù)進行哪怕最基礎(chǔ)的清洗及格式化等工作,確保數(shù)據(jù)的貼源一致性,由后面的數(shù)據(jù)需求方自己處理。
第二層為主題數(shù)據(jù)層:這一層為數(shù)據(jù)倉庫的核心層,涵蓋內(nèi)容包括多個數(shù)據(jù)來源的數(shù)據(jù)整合、分類體系和業(yè)務實體的統(tǒng)一、不同系統(tǒng)數(shù)據(jù)關(guān)聯(lián)關(guān)系搭建等,形成客戶、機構(gòu)、協(xié)議、事件、產(chǎn)品等不同的主題,為后續(xù)的數(shù)據(jù)使用奠定基礎(chǔ)。建設數(shù)據(jù)倉庫主題區(qū)對于提高競爭力、提高服務性收入并有效規(guī)避各種風險有其重要意義。例如:基于客戶主題可快速、準確尋找出潛在客戶及各類型、資產(chǎn)規(guī)模、年齡段客戶的資產(chǎn)狀況和偏好,從而有效制定營銷策略吸引更多客戶在銀行開辦更多的業(yè)務,提高營業(yè)收入和服務收入;基于機構(gòu)主題勾勒出我行賬務機構(gòu)及管理機構(gòu)之間的層級關(guān)系,便于內(nèi)部管理,可從不同角度、不同層級查看機構(gòu)架設是否合理,查看機構(gòu)變遷歷史;基于協(xié)議主題能更清晰明了看出客戶的資產(chǎn)變化情況和當前存貸款規(guī)模、現(xiàn)狀,能更有效規(guī)避風險等。
第三層為數(shù)據(jù)匯總層/數(shù)據(jù)集市層,在這一層中通常會建立針對某些業(yè)務領(lǐng)域作更深層次的指標體系分析。數(shù)據(jù)集市以主題數(shù)據(jù)層為基礎(chǔ),但不再面向全行數(shù)據(jù),而主要面向部門級業(yè)務,并且只面向某個特定的主題,如建設對公數(shù)據(jù)集市,是為滿足對公業(yè)務管理需要,支持最新的對公業(yè)務管理方針,通過整合對公客戶的數(shù)據(jù)信息,進一步分析對公客戶的價值信息,更好的支持公司業(yè)務客戶營銷、管理分析工作的開展。
總而言之數(shù)據(jù)倉庫可以看做一個非常大的數(shù)據(jù)庫,它存儲著由各個源頭數(shù)據(jù)庫中抽取過來的數(shù)據(jù),然后利用這些數(shù)據(jù)更有效率的給公司的決策者提供決策支持。其中,轉(zhuǎn)換及整合數(shù)據(jù)的過程是整個數(shù)據(jù)倉庫建立遇到的最大挑戰(zhàn),需要將雜亂的數(shù)據(jù)按照各主題轉(zhuǎn)換成有用的策略數(shù)據(jù)是數(shù)據(jù)倉庫的重點。數(shù)據(jù)倉庫通過把所有的數(shù)據(jù)放在一個地方,方便存取的同時,極大的減少了重復的數(shù)據(jù)處理和分析,實現(xiàn)數(shù)據(jù)文件統(tǒng)一出口。
當筆者轉(zhuǎn)型、真正來到一個數(shù)據(jù)挖掘的團隊,在一大堆統(tǒng)計學碩博身邊熏陶了一段時間后,我理解的數(shù)據(jù)挖掘是這個樣子的:
數(shù)據(jù)挖掘
數(shù)據(jù)挖掘是綜合了統(tǒng)計分析、人工智能、機器學習、數(shù)據(jù)庫等諸多方面的研究成果而成,用一個人大統(tǒng)計碩士同事的說法:從某方面來講其實數(shù)據(jù)挖掘是從大量的數(shù)據(jù)中提取隱含在其中的、人們事先未知但又是潛在有用的信息和知識的過程。
數(shù)據(jù)挖掘的結(jié)果是事先未知的,這與固定報表有著本質(zhì)的區(qū)別,雖然固定報表應用模式已經(jīng)存在很多年,由于其非常簡單明了直觀的特點,現(xiàn)在依然是各行業(yè)內(nèi)部各級管理人員分析數(shù)據(jù)應用形態(tài)的主力,但固定報表首先得知道報表的樣式,這是一個查證假設的過程,而數(shù)據(jù)挖掘是用來幫助使用者產(chǎn)生假設,用工具幫助使用者做探索。
數(shù)據(jù)挖掘是一個過程,而不是一個技術(shù),它更偏重于實際應用,所以數(shù)據(jù)挖掘不能只是知道挖掘算法等技術(shù),更需要實現(xiàn)具體的業(yè)務目標,只有落地到現(xiàn)實的業(yè)務中才能體現(xiàn)數(shù)據(jù)挖掘的價值,因此業(yè)務目標是數(shù)據(jù)挖掘的核心。在數(shù)據(jù)挖掘項目的實現(xiàn)過程中,挖掘出來的數(shù)據(jù)僅能表示現(xiàn)實世界的一部分,數(shù)據(jù)和現(xiàn)實世界之間是有差距的,只有業(yè)務知識可以彌補這一差距,從業(yè)者需要豐富的業(yè)務知識才能夠解釋數(shù)據(jù)中發(fā)現(xiàn)的相關(guān)結(jié)論,業(yè)務知識是數(shù)據(jù)挖掘的基礎(chǔ),好的數(shù)據(jù)挖掘者需要有深厚的行業(yè)業(yè)務功底。
數(shù)據(jù)挖掘有一個著名的格言論調(diào),我的博士領(lǐng)導也經(jīng)常提到這段話,數(shù)據(jù)挖掘項目中最費力的是數(shù)據(jù)的獲取與預處理,其占用整個項目的時間高達60%-80%。在筆者了解的幾個項目中實際情況也確實如此。數(shù)據(jù)預處理的目的是把數(shù)據(jù)挖掘問題轉(zhuǎn)化為格式化的數(shù)據(jù),使各項分析技術(shù)挖掘算法更容易去使用它。一般的數(shù)據(jù)處理有兩種辦法,一種是將數(shù)據(jù)轉(zhuǎn)化成完全結(jié)構(gòu)化的基礎(chǔ)分析數(shù)據(jù),根據(jù)對應算法可能需要的數(shù)據(jù)形式,將數(shù)據(jù)轉(zhuǎn)化成合格的格式。第二種是將盡可能多的業(yè)務問題涉及的數(shù)據(jù)都涵蓋進來,然后找到合適的技術(shù)解決方案來實現(xiàn)挖掘的結(jié)果。但數(shù)據(jù)會隨著清洗、轉(zhuǎn)換、數(shù)據(jù)量變化而相應發(fā)生變化,這種分析只能是探索性的。因此,即使有一個非常成熟的數(shù)據(jù)倉庫,但數(shù)據(jù)預處理仍然是必不可少的,它仍然要占用數(shù)據(jù)挖掘項目一半以上的時間。
數(shù)據(jù)挖掘的過程同樣也是一個不斷試驗、不斷試錯的過程,一個正確的模型只有通過不斷的試驗才能被發(fā)現(xiàn),在數(shù)據(jù)挖掘的過程中會經(jīng)常發(fā)現(xiàn)一個算法對某一個數(shù)據(jù)集是合適的,但是對另一個數(shù)據(jù)集又是不利的,沒有一個算法是適合每一個問題的。因此數(shù)據(jù)挖掘就是一個方法不合適再試用其他方法的過程,但是在有條件的限制約束下,比如業(yè)務目標比較穩(wěn)定、數(shù)據(jù)變化相對規(guī)律的情況下,一個可接受的算法或算法組合是可以解決問題的。http://www.cda.cn/view/17579.html
數(shù)據(jù)挖掘與數(shù)據(jù)倉庫之間的關(guān)系
數(shù)據(jù)挖掘可以說是從數(shù)據(jù)倉庫中發(fā)現(xiàn)并提取隱藏在其中有用信息的一種過程。數(shù)據(jù)挖掘就是從大量數(shù)據(jù)中挖取數(shù)據(jù)的過程,而數(shù)據(jù)倉庫就是匯集所有相關(guān)數(shù)據(jù)的一個過程,數(shù)據(jù)倉庫為數(shù)據(jù)挖掘提供了更好的、更廣泛的數(shù)據(jù)源。當然,在有些情況下,數(shù)據(jù)倉庫并沒有建立起來,但是數(shù)據(jù)挖掘工作還是可以依托業(yè)務源數(shù)據(jù)先行的,只是在挖掘數(shù)據(jù)預處理階段去整合多個源系統(tǒng)的數(shù)據(jù)源時可能工作量會增大,效率也肯定不如從數(shù)據(jù)倉庫中取數(shù)要高,因為數(shù)據(jù)倉庫中的數(shù)據(jù)是經(jīng)過預處理的結(jié)構(gòu)化數(shù)據(jù),能夠為數(shù)據(jù)挖掘提供非常好的支持平臺,同樣數(shù)據(jù)挖掘也對數(shù)據(jù)倉庫的構(gòu)建提出了更高的要求,兩者是互相促進的。
轉(zhuǎn)載于:https://www.cnblogs.com/amengduo/p/9587500.html
總結(jié)
以上是生活随笔為你收集整理的一个数据仓库转型者眼中的数据挖掘的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: TCP/IP WebSocket MQ
- 下一篇: 每周总结(第十一周)