當(dāng)前位置：首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

数据挖掘

發(fā)布時(shí)間：2023/12/8 编程问答 37 豆豆

生活随笔收集整理的這篇文章主要介紹了数据挖掘小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

數(shù)據(jù)挖掘（英語(yǔ)：Data mining），又譯為資料探勘、數(shù)據(jù)采礦。它是數(shù)據(jù)庫(kù)知識(shí)發(fā)現(xiàn)（英語(yǔ)：Knowledge-Discovery in Databases，簡(jiǎn)稱：KDD)中的一個(gè)步驟。數(shù)據(jù)挖掘一般是指從大量的數(shù)據(jù)中通過(guò)算法搜索隱藏于其中信息的過(guò)程。數(shù)據(jù)挖掘通常與計(jì)算機(jī)科學(xué)有關(guān)，并通過(guò)統(tǒng)計(jì)、在線分析處理、情報(bào)檢索、機(jī)器學(xué)習(xí)、專家系統(tǒng)（依靠過(guò)去的經(jīng)驗(yàn)法則）和模式識(shí)別等諸多方法來(lái)實(shí)現(xiàn)上述目標(biāo)。中文名

數(shù)據(jù)挖掘

外文名

Data mining

別????名

資料探勘、數(shù)據(jù)采礦

所屬學(xué)科

計(jì)算機(jī)科學(xué)

應(yīng)用領(lǐng)域

情報(bào)檢索、數(shù)據(jù)分析、模式識(shí)別等

相關(guān)領(lǐng)域

人工智能、數(shù)據(jù)庫(kù)

起源

編輯數(shù)據(jù)挖掘需要是發(fā)明之母。近年來(lái)，數(shù)據(jù)挖掘引起了信息產(chǎn)業(yè)界的極大關(guān)注，其主要原因是存在大量數(shù)據(jù)，可以廣泛使用，并且迫切需要將這些數(shù)據(jù)轉(zhuǎn)換成有用的信息和知識(shí)。獲取的信息和知識(shí)可以廣泛用于各種應(yīng)用，包括商務(wù)管理，生產(chǎn)控制，市場(chǎng)分析，工程設(shè)計(jì)和科學(xué)探索等。數(shù)據(jù)挖掘利用了來(lái)自如下一些領(lǐng)域的思想：(1) 來(lái)自統(tǒng)計(jì)學(xué)的抽樣、估計(jì)和假設(shè)檢驗(yàn)，(2)人工智能、模式識(shí)別和機(jī)器學(xué)習(xí)的搜索算法、建模技術(shù)和學(xué)習(xí)理論。數(shù)據(jù)挖掘也迅速地接納了來(lái)自其他領(lǐng)域的思想，這些領(lǐng)域包括最優(yōu)化、進(jìn)化計(jì)算、信息論、信號(hào)處理、可視化和信息檢索。一些其他領(lǐng)域也起到重要的支撐作用。特別地，需要數(shù)據(jù)庫(kù)系統(tǒng)提供有效的存儲(chǔ)、索引和查詢處理支持。源于高性能（并行）計(jì)算的技術(shù)在處理海量數(shù)據(jù)集方面常常是重要的。分布式技術(shù)也能幫助處理海量數(shù)據(jù)，并且當(dāng)數(shù)據(jù)不能集中到一起處理時(shí)更是至關(guān)重要。

發(fā)展階段

編輯第一階段：電子郵件階段 這個(gè)階段可以認(rèn)為是從70年代開(kāi)始，平均的通訊量以每年幾倍的速度增長(zhǎng)。第二階段：信息發(fā)布階段 從1995年起，以Web技術(shù)為代表的信息發(fā)布系統(tǒng)，爆炸式地成長(zhǎng)起來(lái)，成為目前Internet的主要應(yīng)用。中小企業(yè)如何把握好從“粗放型”到“精準(zhǔn)型”營(yíng)銷時(shí)代的電子商務(wù)。第三階段： EC(Electronic Commerce），即電子商務(wù)階段 EC在美國(guó)也才剛剛開(kāi)始，之所以把EC列為一個(gè)劃時(shí)代的東西，是因?yàn)?Internet的最終主要商業(yè)用途，就是電子商務(wù)。同時(shí)反過(guò)來(lái)也可以說(shuō)，若干年后的商業(yè)信息，主要是通過(guò)Internet傳遞。Internet即將成為我們這個(gè)商業(yè)信息社會(huì)的神經(jīng)系統(tǒng)。1997年底在加拿大溫哥華舉行的第五次亞太經(jīng)合組織非正式首腦會(huì)議（APEC）上美國(guó)總統(tǒng)克林頓提出敦促各國(guó)共同促進(jìn)電子商務(wù)發(fā)展的議案，其引起了全球首腦的關(guān)注，IBM、HP和Sun等國(guó)際著名的信息技術(shù)廠商已經(jīng)宣布1998年為電子商務(wù)年。第四階段：全程電子商務(wù)階段 隨著SaaS（Software as a service）軟件服務(wù)模式的出現(xiàn)，軟件紛紛登陸互聯(lián)網(wǎng)[5]，延長(zhǎng)了電子商務(wù)鏈條，形成了當(dāng)下最新的“全程電子商務(wù)”概念模式。也因此形成了一門獨(dú)立的學(xué)科——數(shù)據(jù)挖掘與客戶關(guān)系管理碩士。

使用

編輯 分析方法： 數(shù)據(jù)挖掘 · 分類（Classification） · 估計(jì)（Estimation） · 預(yù)測(cè)（Prediction） · 相關(guān)性分組或關(guān)聯(lián)規(guī)則（Affinity grouping or association rules） · 聚類（Clustering） · 復(fù)雜數(shù)據(jù)類型挖掘(Text, Web ,圖形圖像，視頻，音頻等) 方法簡(jiǎn)介： ·分類（Classification） 首先從數(shù)據(jù)中選出已經(jīng)分好類的訓(xùn)練集，在該訓(xùn)練集上運(yùn)用數(shù)據(jù)挖掘分類的技術(shù)，建立分類模型，對(duì)于沒(méi)有分類的數(shù)據(jù)進(jìn)行分類。例子： a. 信用卡申請(qǐng)者，分類為低、中、高風(fēng)險(xiǎn) b. 故障診斷：中國(guó)寶鋼集團(tuán)與上海天律信息技術(shù)有限公司合作，采用數(shù)據(jù)挖掘技術(shù)對(duì)鋼材生產(chǎn)的全流程進(jìn)行質(zhì)量監(jiān)控和分析，構(gòu)建故障地圖，實(shí)時(shí)分析產(chǎn)品出現(xiàn)瑕疵的原因，有效提高了產(chǎn)品的優(yōu)良率。注意：類的個(gè)數(shù)是確定的，預(yù)先定義好的 · 估計(jì)（Estimation） 估計(jì)與分類類似，不同之處在于，分類描述的是離散型變量的輸出，而估值處理連續(xù)值的輸出；分類數(shù)據(jù)挖掘的類別是確定數(shù)目的，估值的量是不確定的。例子： a. 根據(jù)購(gòu)買模式，估計(jì)一個(gè)家庭的孩子個(gè)數(shù) b. 根據(jù)購(gòu)買模式，估計(jì)一個(gè)家庭的收入 c. 估計(jì)real estate的價(jià)值一般來(lái)說(shuō)，估值可以作為分類的前一步工作。給定一些輸入數(shù)據(jù)，通過(guò)估值，得到未知的連續(xù)變量的值，然后，根據(jù)預(yù)先設(shè)定的閾值，進(jìn)行分類。例如：銀行對(duì)家庭貸款業(yè)務(wù)，運(yùn)用估值，給各個(gè)客戶記分（Score 0~1）。然后，根據(jù)閾值，將貸款級(jí)別分類。 · 預(yù)測(cè)（Prediction） 通常，預(yù)測(cè)是通過(guò)分類或估值起作用的，也就是說(shuō)，通過(guò)分類或估值得出模型，該模型用于對(duì)未知變量的預(yù)言。從這種意義上說(shuō)，預(yù)言其實(shí)沒(méi)有必要分為一個(gè)單獨(dú)的類。預(yù)言其目的是對(duì)未來(lái)未知變量的預(yù)測(cè)，這種預(yù)測(cè)是需要時(shí)間來(lái)驗(yàn)證的，即必須經(jīng)過(guò)一定時(shí)間后，才知道預(yù)言準(zhǔn)確性是多少。 · 相關(guān)性分組或關(guān)聯(lián)規(guī)則（Affinity grouping or association rules） 決定哪些事情將一起發(fā)生。例子： a. 超市中客戶在購(gòu)買A的同時(shí)，經(jīng)常會(huì)購(gòu)買B，即A => B(關(guān)聯(lián)規(guī)則) b. 客戶在購(gòu)買A后，隔一段時(shí)間，會(huì)購(gòu)買B （序列分析） · 聚類（Clustering） 聚類是對(duì)記錄分組，把相似的記錄在一個(gè)聚集里。聚類和分類的區(qū)別是聚集不依賴于預(yù)先定義好的類，不需要訓(xùn)練集。例子： a. 一些特定癥狀的聚集可能預(yù)示了一個(gè)特定的疾病 b. 租VCD類型不相似的客戶聚集，可能暗示成員屬于不同的亞文化群聚集通常作為數(shù)據(jù)挖掘的第一步。例如，"哪一種類的促銷對(duì)客戶響應(yīng)最好？"，對(duì)于這一類問(wèn)題，首先對(duì)整個(gè)客戶做聚集，將客戶分組在各自的聚集里，然后對(duì)每個(gè)不同的聚集，回答問(wèn)題，可能效果更好。 · 描述和可視化（Description and Visualization） 是對(duì)數(shù)據(jù)挖掘結(jié)果的表示方式。一般只是指數(shù)據(jù)可視化工具，包含報(bào)表工具和商業(yè)智能分析產(chǎn)品（BI）的統(tǒng)稱。譬如通過(guò)Yonghong Z-Suite等工具進(jìn)行數(shù)據(jù)的展現(xiàn)，分析，鉆取，將數(shù)據(jù)挖掘的分析結(jié)果更形象，深刻的展現(xiàn)出來(lái)。

經(jīng)驗(yàn)之談

編輯第一，目標(biāo)律：業(yè)務(wù)目標(biāo)是所有數(shù)據(jù)解決方案的源頭。第二，知識(shí)律：業(yè)務(wù)知識(shí)是數(shù)據(jù)挖掘過(guò)程每一步的核心。第三，準(zhǔn)備律：數(shù)據(jù)預(yù)處理比數(shù)據(jù)挖掘其他任何一個(gè)過(guò)程都重要。第四，試驗(yàn)律(NFL律：No Free Lunch)：對(duì)于數(shù)據(jù)挖掘者來(lái)說(shuō)，天下沒(méi)有免費(fèi)的午餐，一個(gè)正確的模型只有通過(guò)試驗(yàn)(experiment)才能被發(fā)現(xiàn)。第五，模式律(大衛(wèi)律)：數(shù)據(jù)中總含有模式。第六，洞察律：數(shù)據(jù)挖掘增大對(duì)業(yè)務(wù)的認(rèn)知。第七，預(yù)測(cè)律：預(yù)測(cè)提高了信息泛化能力。第八，價(jià)值律：數(shù)據(jù)挖掘的結(jié)果的價(jià)值不取決于模型的穩(wěn)定性或預(yù)測(cè)的準(zhǔn)確性。第九，變化律：所有的模式因業(yè)務(wù)變化而變化。

成功案例

編輯 數(shù)據(jù)挖掘幫助Credilogros Cía Financiera S.A.改善客戶信用評(píng)分 Credilogros Cía Financiera S.A. 是阿根廷第五大信貸公司，資產(chǎn)估計(jì)價(jià)值為9570萬(wàn)美元，對(duì)于Credilogros而言，重要的是識(shí)別與潛在預(yù)先付款客戶相關(guān)的潛在風(fēng)險(xiǎn)，以便將承擔(dān)的風(fēng)險(xiǎn)最小化。該公司的第一個(gè)目標(biāo)是創(chuàng)建一個(gè)與公司核心系統(tǒng)和兩家信用報(bào)告公司系統(tǒng)交互的決策引擎來(lái)處理信貸申請(qǐng)。同時(shí)，Credilogros還在尋找針對(duì)它所服務(wù)的低收入客戶群體的自定義風(fēng)險(xiǎn)評(píng)分工具。除這些之外，其他需求還包括解決方案能在其35個(gè)分支辦公地點(diǎn)和200多個(gè)相關(guān)的銷售點(diǎn)中的任何一個(gè)實(shí)時(shí)操作，包括零售家電連鎖店和手機(jī)銷售公司。最終Credilogros 選擇了SPSS Inc.的數(shù)據(jù)挖掘軟件PASWModeler，因?yàn)樗軌蜢`活并輕松地整合到 Credilogros 的核心信息系統(tǒng)中。通過(guò)實(shí)現(xiàn)PASW Modeler，Credilogros將用于處理信用數(shù)據(jù)和提供最終信用評(píng)分的時(shí)間縮短到了8秒以內(nèi)。這使該組織能夠迅速批準(zhǔn)或拒絕信貸請(qǐng)求。該決策引擎還使 Credilogros 能夠最小化每個(gè)客戶必須提供的身份證明文檔，在一些特殊情況下，只需提供一份身份證明即可批準(zhǔn)信貸。此外，該系統(tǒng)還提供監(jiān)控功能。Credilogros 目前平均每月使用PASW Modeler處理35000份申請(qǐng)。僅在實(shí)現(xiàn) 3 個(gè)月后就幫助Credilogros 將貸款支付失職減少了 20%. 數(shù)據(jù)挖掘幫助DHL實(shí)時(shí)跟蹤貨箱溫度 DHL是國(guó)際快遞和物流行業(yè)的全球市場(chǎng)領(lǐng)先者，它提供快遞、水陸空三路運(yùn) 輸、合同物流解決方案，以及國(guó)際郵件服務(wù)。DHL的國(guó)際網(wǎng)絡(luò)將超過(guò)220個(gè)國(guó)家及地區(qū)聯(lián)系起來(lái)，員工總數(shù)超過(guò)28.5萬(wàn)人。在美國(guó) FDA 要求確保運(yùn)送過(guò)程中藥品裝運(yùn)的溫度達(dá)標(biāo)這一壓力之下，DHL的醫(yī)藥客戶強(qiáng)烈要求提供更可靠且更實(shí)惠的選擇。這就要求DHL在遞送的各個(gè)階段都要實(shí)時(shí)跟蹤集裝箱的溫度。雖然由記錄器方法生成的信息準(zhǔn)確無(wú)誤，但是無(wú)法實(shí)時(shí)傳遞數(shù)據(jù)，客戶和 DHL都無(wú)法在發(fā)生溫度偏差時(shí)采取任何預(yù)防和糾正措施。因此，DHL的母公司德國(guó)郵政世界網(wǎng)（DPWN）通過(guò)技術(shù)與創(chuàng)新管理（TIM）集團(tuán)明確擬定了一個(gè) 計(jì)劃，準(zhǔn)備使用RFID技術(shù)在不同時(shí)間點(diǎn)全程跟蹤裝運(yùn)的溫度。通過(guò)IBM全球企業(yè)咨詢服務(wù)部繪制決定服務(wù)的關(guān)鍵功能參數(shù)的流程框架。DHL獲得了兩方面的收益：對(duì)于最終客戶來(lái)說(shuō)，能夠使醫(yī)藥客戶對(duì)運(yùn)送過(guò)程中出現(xiàn)的裝運(yùn)問(wèn)題提前做出響應(yīng)，并以引人注目的低成本全面切實(shí)地增強(qiáng)了運(yùn)送可靠性。對(duì)于DHL來(lái)說(shuō)，提高了客戶滿意度和忠實(shí)度；為保持競(jìng)爭(zhēng)差異奠定堅(jiān)實(shí)的基礎(chǔ)；并成為重要的新的收入增長(zhǎng)來(lái)源。 行業(yè)應(yīng)用 價(jià)格競(jìng)爭(zhēng)空前激烈，語(yǔ)音業(yè)務(wù)增長(zhǎng)趨緩，快速增長(zhǎng)的中國(guó)移動(dòng)通信市場(chǎng)正面臨著前所未有的生存壓力。中國(guó)電信業(yè)改革的加速推進(jìn)形成了新的競(jìng)爭(zhēng)態(tài)勢(shì)，移動(dòng)運(yùn)營(yíng)市場(chǎng)的競(jìng)爭(zhēng)廣度和強(qiáng)度將進(jìn)一步加大，這特別表現(xiàn)在集團(tuán)客戶領(lǐng)域。移動(dòng)信息化和集團(tuán)客戶已然成為未來(lái)各運(yùn)營(yíng)商應(yīng)對(duì)競(jìng)爭(zhēng)、獲取持續(xù)增長(zhǎng)的新引擎。隨著國(guó)內(nèi)三足鼎立全業(yè)務(wù)競(jìng)爭(zhēng)態(tài)勢(shì)和3G牌照發(fā)放，各運(yùn)營(yíng)商為集團(tuán)客戶提供融合的信息化解決方案將是大勢(shì)所趨，而移動(dòng)信息化將成為全面進(jìn)入信息化服務(wù)領(lǐng)域的先導(dǎo)力量。傳統(tǒng)移動(dòng)運(yùn)營(yíng)商因此面臨著從傳統(tǒng)個(gè)人業(yè)務(wù)轉(zhuǎn)向同時(shí)拓展集團(tuán)客戶信息化業(yè)務(wù)領(lǐng)域的挑戰(zhàn)。如何應(yīng)對(duì)來(lái)自內(nèi)外部的挑戰(zhàn)，迅速以移動(dòng)信息化業(yè)務(wù)作為融合業(yè)務(wù)的競(jìng)爭(zhēng)利器之一拓展集團(tuán)客戶市場(chǎng)，在新興市場(chǎng)中立于不敗之地，是傳統(tǒng) 移動(dòng)運(yùn)營(yíng)商需要解決的緊迫問(wèn)題。從目前網(wǎng)絡(luò)招聘的信息來(lái)看，大小公司對(duì)數(shù)據(jù)挖掘的需求有50多個(gè)方面（來(lái)源見(jiàn)參考資料）： 1、數(shù)據(jù)統(tǒng)計(jì)分析 2、預(yù)測(cè)預(yù)警模型 3、數(shù)據(jù)信息闡釋 4、數(shù)據(jù)采集評(píng)估 5、數(shù)據(jù)加工倉(cāng)庫(kù) 6、品類數(shù)據(jù)分析 7、銷售數(shù)據(jù)分析 8、網(wǎng)絡(luò)數(shù)據(jù)分析 9、流量數(shù)據(jù)分析 10、交易數(shù)據(jù)分析 11、媒體數(shù)據(jù)分析 12、情報(bào)數(shù)據(jù)分析 13、金融產(chǎn)品設(shè)計(jì) 14、日常數(shù)據(jù)分析 15、總裁萬(wàn)事通 16、數(shù)據(jù)變化趨勢(shì) 17、預(yù)測(cè)預(yù)警模型 18、運(yùn)營(yíng)數(shù)據(jù)分析 19、商業(yè)機(jī)遇挖掘 20、風(fēng)險(xiǎn)數(shù)據(jù)分析 21、缺陷信息挖掘 22、決策數(shù)據(jù)支持 23、運(yùn)營(yíng)優(yōu)化與成本控制 24、質(zhì)量控制與預(yù)測(cè)預(yù)警 25、系統(tǒng)工程數(shù)學(xué)技術(shù) 26、用戶行為分析/客戶需求模型 27、產(chǎn)品銷售預(yù)測(cè)（熱銷特征） 28、商場(chǎng)整體利潤(rùn)最大化系統(tǒng)設(shè)計(jì) 29、市場(chǎng)數(shù)據(jù)分析 30、綜合數(shù)據(jù)關(guān)聯(lián)系統(tǒng)設(shè)計(jì) 31、行業(yè)/企業(yè)指標(biāo)設(shè)計(jì) 32、企業(yè)發(fā)展關(guān)鍵點(diǎn)分析 33、資金鏈管理設(shè)計(jì)與風(fēng)險(xiǎn)控制 34、用戶需求挖掘 35、產(chǎn)品數(shù)據(jù)分析 36、銷售數(shù)據(jù)分析 37、異常數(shù)據(jù)分析 38、數(shù)學(xué)規(guī)劃與數(shù)學(xué)方案 39、數(shù)據(jù)實(shí)驗(yàn)?zāi)M 40、數(shù)學(xué)建模與分析 41、呼叫中心數(shù)據(jù)分析 42、貿(mào)易/進(jìn)出口數(shù)據(jù)分析 43、海量數(shù)據(jù)分析系統(tǒng)設(shè)計(jì)、關(guān)鍵技術(shù)研究 44、數(shù)據(jù)清洗、分析、建模、調(diào)試、優(yōu)化 45、數(shù)據(jù)挖掘算法的分析研究、建模、實(shí)驗(yàn)?zāi)M 46、組織機(jī)構(gòu)運(yùn)營(yíng)監(jiān)測(cè)、評(píng)估、預(yù)測(cè)預(yù)警 47、經(jīng)濟(jì)數(shù)據(jù)分析、預(yù)測(cè)、預(yù)警 48、金融數(shù)據(jù)分析、預(yù)測(cè)、預(yù)警 49、科研數(shù)學(xué)建模與數(shù)據(jù)分析：社會(huì)科學(xué)，自然科學(xué)，醫(yī)藥，農(nóng)學(xué)，計(jì)算機(jī)，工程，信息，軍事，圖書(shū)情報(bào)等 50、數(shù)據(jù)指標(biāo)開(kāi)發(fā)、分析與管理 51、產(chǎn)品數(shù)據(jù)挖掘與分析 52、商業(yè)數(shù)學(xué)與數(shù)據(jù)技術(shù) 53、故障預(yù)測(cè)預(yù)警技術(shù) 54、數(shù)據(jù)自動(dòng)分析技術(shù) 55、泛工具分析 56、互譯 57、指數(shù)化其中，互譯與指數(shù)化是數(shù)據(jù)挖掘除計(jì)算機(jī)技術(shù)之外最核心的兩大技術(shù)。

經(jīng)典算法

編輯 1. C4.5：是機(jī)器學(xué)習(xí)算法中的一種分類決策樹(shù)算法，其核心算法是ID3算法。 2. K-means算法：是一種聚類算法。 3.SVM：一種監(jiān)督式學(xué)習(xí)的方法，廣泛運(yùn)用于統(tǒng)計(jì)分類以及回歸分析中 4.Apriori ：是一種最有影響的挖掘布爾關(guān)聯(lián)規(guī)則頻繁項(xiàng)集的算法。 5.EM：最大期望值法。 6.pagerank：是google算法的重要內(nèi)容。 7. Adaboost:是一種迭代算法，其核心思想是針對(duì)同一個(gè)訓(xùn)練集訓(xùn)練不同的分類器然后把弱分類器集合起來(lái)，構(gòu)成一個(gè)更強(qiáng)的最終分類器。 8.KNN:是一個(gè)理論上比較成熟的的方法，也是最簡(jiǎn)單的機(jī)器學(xué)習(xí)方法之一。 9.Naive Bayes：在眾多分類方法中，應(yīng)用最廣泛的有決策樹(shù)模型和樸素貝葉斯（Naive Bayes） 10.Cart：分類與回歸樹(shù)，在分類樹(shù)下面有兩個(gè)關(guān)鍵的思想，第一個(gè)是關(guān)于遞歸地劃分自變量空間的想法，第二個(gè)是用驗(yàn)證數(shù)據(jù)進(jìn)行減枝。關(guān)聯(lián)規(guī)則規(guī)則定義在描述有關(guān)關(guān)聯(lián)規(guī)則的一些細(xì)節(jié)之前，我們先來(lái)看一個(gè)有趣的故事： "尿布與啤酒"的故事。在一家超市里，有一個(gè)有趣的現(xiàn)象：尿布和啤酒赫然擺在一起出售。但是這個(gè)奇怪的舉措?yún)s使尿布和數(shù)據(jù)挖掘啤酒的銷量雙雙增加了。這不是一個(gè)笑話，而是發(fā)生在美國(guó)沃爾瑪連鎖店超市的真實(shí)案例，并一直為商家所津津樂(lè)道。沃爾瑪擁有世界上最大的數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)，為了能夠準(zhǔn)確了解顧客在其門店的購(gòu)買習(xí)慣，沃爾瑪對(duì)其顧客的購(gòu)物行為進(jìn)行購(gòu)物籃分析，想知道顧客經(jīng)常一起購(gòu)買的商品有哪些。沃爾瑪數(shù)據(jù)倉(cāng)庫(kù)里集中了其各門店的詳細(xì)原始交易數(shù)據(jù)。在這些原始交易數(shù)據(jù)的基礎(chǔ)上，沃爾瑪利用數(shù)據(jù)挖掘方法對(duì)這些數(shù)據(jù)進(jìn)行分析和挖掘。一個(gè)意外的發(fā)現(xiàn)是："跟尿布一起購(gòu)買最多的商品竟是啤酒！經(jīng)過(guò)大量實(shí)際調(diào)查和分析，揭示了一個(gè)隱藏在"尿布與啤酒"背后的美國(guó)人的一種行為模式：在美國(guó)，一些年輕的父親下班后經(jīng)常要到超市去買嬰兒尿布，而他們中有30%～40%的人同時(shí)也為自己買一些啤酒。產(chǎn)生這一現(xiàn)象的原因是：美國(guó)的太太們常叮囑她們的丈夫下班后為小孩買尿布，而丈夫們?cè)谫I尿布后又隨手帶回了他們喜歡的啤酒。按常規(guī)思維，尿布與啤酒風(fēng)馬牛不相及，若不是借助數(shù)據(jù)挖掘技術(shù)對(duì)大量交易數(shù)據(jù)進(jìn)行挖掘分析，沃爾瑪是不可能發(fā)現(xiàn)數(shù)據(jù)內(nèi)在這一有價(jià)值的規(guī)律的。數(shù)據(jù)關(guān)聯(lián)是數(shù)據(jù)庫(kù)中存在的一類重要的可被發(fā)現(xiàn)的知識(shí)。若兩個(gè)或多個(gè)變量的取值之間存在某種規(guī)律性，就稱為關(guān)聯(lián)。關(guān)聯(lián)可分為簡(jiǎn)單關(guān)聯(lián)、時(shí)序關(guān)聯(lián)、因果關(guān)聯(lián)。關(guān)聯(lián)分析的目的是找出數(shù)據(jù)庫(kù)中隱藏的關(guān)聯(lián)網(wǎng)。有時(shí)并不知道數(shù)據(jù)庫(kù)中數(shù)據(jù)的關(guān)聯(lián)函數(shù)，即使知道也是不確定的，因此關(guān)聯(lián)分析生成的規(guī)則帶有可信度。關(guān)聯(lián)規(guī)則挖掘發(fā)現(xiàn)大量數(shù)據(jù)中項(xiàng)集之間有趣的關(guān)聯(lián)或相關(guān)聯(lián)系。Agrawal等于1993年首先提出了挖掘顧客交易數(shù)據(jù)庫(kù)中項(xiàng)集間的關(guān)聯(lián)規(guī)則問(wèn)題，以后諸多的研究人員對(duì)關(guān)聯(lián)規(guī)則的挖掘問(wèn)題進(jìn)行了大量的研究。他們的工作包括對(duì)原有的算法進(jìn)行優(yōu)化，如引入隨機(jī)采樣、并行的思想等，以提高算法挖掘規(guī)則的效率；對(duì)關(guān)聯(lián)規(guī)則的應(yīng)用進(jìn)行推廣。關(guān)聯(lián)規(guī)則挖掘在數(shù)據(jù)挖掘中是一個(gè)重要的課題，最近幾年已被業(yè)界所廣泛研究。

過(guò)程

編輯關(guān)聯(lián)規(guī)則挖掘過(guò)程主要包含兩個(gè)階段：第一階段必須先從資料集合中找出所有的高頻項(xiàng)目組(Frequent 數(shù)據(jù)挖掘 Itemsets)，第二階段再由這些高頻項(xiàng)目組中產(chǎn)生關(guān)聯(lián)規(guī)則(Association Rules)。關(guān)聯(lián)規(guī)則挖掘的第一階段必須從原始資料集合中，找出所有高頻項(xiàng)目組(Large Itemsets)。高頻的意思是指某一項(xiàng)目組出現(xiàn)的頻率相對(duì)于所有記錄而言，必須達(dá)到某一水平。一項(xiàng)目組出現(xiàn)的頻率稱為支持度(Support)，以一個(gè)包含A與B兩個(gè)項(xiàng)目的2-itemset為例，我們可以經(jīng)由公式(1) 求得包含{A,B}項(xiàng)目組的支持度，若支持度大于等于所設(shè)定的最小支持度(Minimum Support)門檻值時(shí)，則{A,B}稱為高頻項(xiàng)目組。一個(gè)滿足最小支持度的k-itemset，則稱為高頻k-項(xiàng)目組(Frequent k-itemset)，一般表示為L(zhǎng)arge k或Frequent k。算法并從Large k的項(xiàng)目組中再產(chǎn)生Large k+1，直到無(wú)法再找到更長(zhǎng)的高頻項(xiàng)目組為止。關(guān)聯(lián)規(guī)則挖掘的第二階段是要產(chǎn)生關(guān)聯(lián)規(guī)則(Association Rules)。從高頻項(xiàng)目組產(chǎn)生關(guān)聯(lián)規(guī)則，是利用前一步驟的高頻k-項(xiàng)目組來(lái)產(chǎn)生規(guī)則，在最小信賴度(Minimum Confidence)的條件門檻下，若一規(guī)則所求得的信賴度滿足最小信賴度，稱此規(guī)則為關(guān)聯(lián)規(guī)則。例如：經(jīng)由高頻k-項(xiàng)目組{A,B}所產(chǎn)生的規(guī)則 AB，其信賴度可經(jīng)由公式(2)求得，若信賴度大于等于最小信賴度，則稱AB為關(guān)聯(lián)規(guī)則。就沃爾瑪案例而言，使用關(guān)聯(lián)規(guī)則挖掘技術(shù)，對(duì)交易資料庫(kù)中的紀(jì)錄進(jìn)行資料挖掘，首先必須要設(shè)定最小支持度與最小信賴度兩個(gè)門檻值，在此假設(shè)最小支持度min_support=5% 且最小信賴度min_confidence=70%。因此符合此該超市需求的關(guān)聯(lián)規(guī)則將必須同時(shí)滿足以上兩個(gè)條件。若經(jīng)過(guò)挖掘過(guò)程所找到的關(guān)聯(lián)規(guī)則「尿布，啤酒」，滿足下列條件，將可接受「尿布，啤酒」的關(guān)聯(lián)規(guī)則。用公式可以描述 Support(尿布，啤酒)>=5%且Confidence(尿布，啤酒)>=70%。其中，Support(尿布，啤酒)>=5% 于此應(yīng)用范例中的意義為:在所有的交易紀(jì)錄資料中，至少有5%的交易呈現(xiàn)尿布與啤酒這兩項(xiàng)商品被同時(shí)購(gòu)買的交易行為。Confidence(尿布，啤酒)>=70%于此應(yīng)用范例中的意義為:在所有包含尿布的交易紀(jì)錄資料中，至少有70%的交易會(huì)同時(shí)購(gòu)買啤酒。因此，今后若有某消費(fèi)者出現(xiàn)購(gòu)買尿布的行為，超市將可推薦該消費(fèi)者同時(shí)購(gòu)買啤酒。這個(gè)商品推薦的行為則是根據(jù)「尿布，啤酒」關(guān)聯(lián)規(guī)則，因?yàn)榫驮摮羞^(guò)去的交易紀(jì)錄而言，支持了“大部份購(gòu)買尿布的交易，會(huì)同時(shí)購(gòu)買啤酒”的消費(fèi)行為。從上面的介紹還可以看出，關(guān)聯(lián)規(guī)則挖掘通常比較適用與記錄中的指標(biāo)取離散值的情況。如果原始數(shù)據(jù)庫(kù)中的指標(biāo)值是取連續(xù)的數(shù)據(jù)，則在關(guān)聯(lián)規(guī)則挖掘之前應(yīng)該進(jìn)行適當(dāng)?shù)臄?shù)據(jù)離散化（實(shí)際上就是將某個(gè)區(qū)間的值對(duì)應(yīng)于某個(gè)值），數(shù)據(jù)的離散化是數(shù)據(jù)挖掘前的重要環(huán)節(jié)，離散化的過(guò)程是否合理將直接影響關(guān)聯(lián)規(guī)則的挖掘結(jié)果。分類按照不同情況，關(guān)聯(lián)規(guī)則可以進(jìn)行分類如下： 1.基于規(guī)則中處理的變量的類別，關(guān)聯(lián)規(guī)則可以分為布爾型和數(shù)值型。布爾型關(guān)聯(lián)規(guī)則處理的值都是離散的、種類化的，它顯示了這些變量之間的關(guān)系；而數(shù)值型關(guān)聯(lián)規(guī)則可以和多維關(guān)聯(lián)或多層關(guān)聯(lián)規(guī)則結(jié)合起來(lái)，對(duì)數(shù)值型字段進(jìn)行處理，將其進(jìn)行動(dòng)態(tài)的分割，或者直接對(duì)原始的數(shù)據(jù)進(jìn)行處理，當(dāng)然數(shù)值型關(guān)聯(lián)規(guī)則中也可以包含種類變量。例如：性別=“女”=>職業(yè)=“秘書(shū)” ，是布爾型關(guān)聯(lián)規(guī)則；性別=“女”=>avg（收入）=2300，涉及的收入是數(shù)值類型，所以是一個(gè)數(shù)值型關(guān)聯(lián)規(guī)則。 2.基于規(guī)則中數(shù)據(jù)的抽象層次，可以分為單層關(guān)聯(lián)規(guī)則和多層關(guān)聯(lián)規(guī)則。在單層的關(guān)聯(lián)規(guī)則中，所有的變量都沒(méi)有考慮到現(xiàn)實(shí)的數(shù)據(jù)是具有多個(gè)不同的層次的；而在多層的關(guān) 數(shù)據(jù)挖掘聯(lián)規(guī)則中，對(duì)數(shù)據(jù)的多層性已經(jīng)進(jìn)行了充分的考慮。例如：IBM臺(tái)式機(jī)=>Sony打印機(jī)，是一個(gè)細(xì)節(jié)數(shù)據(jù)上的單層關(guān)聯(lián)規(guī)則；臺(tái)式機(jī)=>Sony打印機(jī)，是一個(gè)較高層次和細(xì)節(jié)層次之間的多層關(guān)聯(lián)規(guī)則。 3.基于規(guī)則中涉及到的數(shù)據(jù)的維數(shù)，關(guān)聯(lián)規(guī)則可以分為單維的和多維的。在單維的關(guān)聯(lián)規(guī)則中，我們只涉及到數(shù)據(jù)的一個(gè)維，如用戶購(gòu)買的物品；而在多維的關(guān)聯(lián)規(guī)則中，要處理的數(shù)據(jù)將會(huì)涉及多個(gè)維。換成另一句話，單維關(guān)聯(lián)規(guī)則是處理單個(gè)屬性中的一些關(guān)系；多維關(guān)聯(lián)規(guī)則是處理各個(gè)屬性之間的某些關(guān)系。例如：啤酒=>尿布，這條規(guī)則只涉及到用戶的購(gòu)買的物品；性別=“女”=>職業(yè)=“秘書(shū)”，這條規(guī)則就涉及到兩個(gè)字段的信息，是兩個(gè)維上的一條關(guān)聯(lián)規(guī)則。

算法

1.Apriori算法：使用候選項(xiàng)集找頻繁項(xiàng)集 Apriori算法是一種最有影響的挖掘布爾關(guān)聯(lián)規(guī)則頻繁項(xiàng)集的算法。其核心是基于兩階段頻集思想的遞推算法。該關(guān)聯(lián)規(guī)則在分類上屬于單維、單層、布爾關(guān)聯(lián)規(guī)則。在這里，所有支持度大于最小支持度的項(xiàng)集稱為頻繁項(xiàng)集，簡(jiǎn)稱頻集。該算法的基本思想是：首先找出所有的頻集，這些項(xiàng)集出現(xiàn)的頻繁性至少和預(yù) 定義的最小支持度一樣。然后由頻集產(chǎn)生強(qiáng)關(guān)聯(lián)規(guī)則，這些規(guī)則必須滿足最小支持度和最小可信度。然后使用第1步找到的頻集產(chǎn)生期望的規(guī)則，產(chǎn)生只包含集合的項(xiàng)的所有規(guī)則，其中每一條規(guī)則的右部只有一項(xiàng)，這里采用的是中規(guī)則的定義。一旦這些規(guī)則被生成，那么只有那些大于用戶給定的最小可信度的規(guī)則才被留下來(lái)。為了生成所有頻集，使用了遞推的方法。可能產(chǎn)生大量的候選集,以及可能需要重復(fù)掃描數(shù)據(jù)庫(kù)，是Apriori算法的兩大缺點(diǎn)。 2.基于劃分的算法 Savasere等設(shè)計(jì)了一個(gè)基于劃分的算法。這個(gè)算法先把數(shù)據(jù)庫(kù)從邏輯上分成幾個(gè)互不相交的塊，每次單獨(dú)考慮一個(gè)分塊并對(duì)它生成所有的頻集，然后把產(chǎn)生的頻集合并，用來(lái)生成所有可能的頻集，最后計(jì)算這些項(xiàng)集的支持度。這里分塊的大小選擇要使得每個(gè)分塊可以被放入主存，每個(gè)階段只需被掃描一次。而算法的正確性是由每一個(gè)可能的頻集至少在某一個(gè)分塊中是頻集保證的。該算法是可以高度并行的，可以把每一分塊分別分配給某一個(gè)處理器生成頻集。產(chǎn)生頻集的每一個(gè)循環(huán)結(jié)束后，處理器之間進(jìn)行通信來(lái)產(chǎn)生全局的候選k-項(xiàng) 集。通常這里的通信過(guò)程是算法執(zhí)行時(shí)間的主要瓶頸；而另一方面，每個(gè)獨(dú)立的處理器生成頻集的時(shí)間也是一個(gè)瓶頸。 3.FP-樹(shù)頻集算法針對(duì)Apriori算法的固有缺陷，J. Han等提出了不產(chǎn)生候選挖掘頻繁項(xiàng)集的方法：FP-樹(shù)頻集算法。采用分而治之的策略，在經(jīng)過(guò)第一遍掃描之后，把數(shù)據(jù)庫(kù)中的頻集壓縮進(jìn)一棵頻繁模式樹(shù)（FP-tree），同時(shí)依然保留其中的關(guān)聯(lián)信息，隨后再將FP-tree分化成一些條件庫(kù)，每個(gè)庫(kù)和一個(gè)長(zhǎng)度為1的頻集相關(guān)，然后再對(duì)這些條件庫(kù)分別進(jìn)行挖掘。當(dāng)原始數(shù)據(jù)量很大的時(shí)候，也可以結(jié)合劃分的方法,使得一個(gè)FP-tree可以放入主存中。實(shí)驗(yàn)表明，FP-growth對(duì)不同長(zhǎng)度的規(guī)則都有很好的適應(yīng)性，同時(shí)在效率上較之Apriori算法有巨大的提高。

應(yīng)用

就目前而言，關(guān)聯(lián)規(guī)則挖掘技術(shù)已經(jīng)被廣泛應(yīng)用在西方金融行業(yè)企業(yè)中，它可以成功預(yù)測(cè)銀行客戶需求。一旦獲得了這些信息，銀行就可以改善自身營(yíng)銷。現(xiàn)在銀行天天都在開(kāi)發(fā)新的溝通客戶的方法。各銀行在自己的ATM機(jī)上就捆綁了顧客可能感興趣的本行產(chǎn)品信息，供使用本行ATM機(jī)的用戶了解。如果數(shù)據(jù)庫(kù)中顯示，某個(gè)高信用限額的客戶更換了地址，這個(gè)客戶很有可能新近購(gòu)買了一棟更大的住宅，因此會(huì)有可能需要更高信用限額，更高端的新信用卡，或者需要一個(gè)住房改善貸款，這些產(chǎn)品都可以通過(guò)信用卡賬單郵寄給客戶。當(dāng)客戶打電話咨詢的時(shí)候，數(shù) 據(jù)庫(kù)可以有力地幫助電話銷售代表。銷售代表的電腦屏幕上可以顯示出客戶的特點(diǎn)，同時(shí)也可以顯示出顧客會(huì)對(duì)什么產(chǎn)品感興趣。同時(shí)，一些知名的電子商務(wù)站點(diǎn)也從強(qiáng)大的關(guān)聯(lián)規(guī)則挖掘中的受益。這些電子購(gòu)物網(wǎng)站使用關(guān)聯(lián)規(guī)則中規(guī)則進(jìn)行挖掘，然后設(shè)置用戶有意要一起購(gòu)買的捆綁包。也有一些購(gòu)物網(wǎng)站使用它們?cè)O(shè)置相應(yīng)的交叉銷售，也就是購(gòu)買某種商品的顧客會(huì)看到相關(guān)的另外一種商品的廣告。但是目前在我國(guó)，“數(shù)據(jù)海量，信息缺乏”是商業(yè)銀行在數(shù)據(jù)大集中之后普遍所面對(duì)的尷尬。目前金融業(yè)實(shí)施的大多數(shù)數(shù)據(jù)庫(kù)只能實(shí)現(xiàn)數(shù)據(jù)的錄入、查詢、統(tǒng)計(jì)等較低層次的功能，卻無(wú)法發(fā)現(xiàn)數(shù)據(jù)中存在的各種有用的信息，譬如對(duì)這些數(shù)據(jù)進(jìn)行分析，發(fā)現(xiàn)其數(shù)據(jù)模式及特征，然后可能發(fā)現(xiàn)某個(gè)客戶、消費(fèi)群體或組織的金融和商業(yè)興趣，并可觀察金融市場(chǎng)的變化趨勢(shì)。可以說(shuō)，關(guān)聯(lián)規(guī)則挖掘的技術(shù)在我國(guó)的研究與應(yīng)用并不是很廣泛深入。近年來(lái)，電信業(yè)從單純的語(yǔ)音服務(wù)演變?yōu)樘峁┒喾N服務(wù)的綜合信息服務(wù)商。隨著網(wǎng)絡(luò)技術(shù)和電信業(yè)務(wù)的發(fā)展，電信市場(chǎng)競(jìng)爭(zhēng)也日趨激烈，電信業(yè)務(wù)的發(fā)展提出了對(duì)數(shù)據(jù)挖掘技術(shù)的迫切需求，以便幫助理解商業(yè)行為，識(shí)別電信模式，捕捉盜用行為，更好地利用資源，提高服務(wù)質(zhì)量并增強(qiáng)自身的競(jìng)爭(zhēng)力。下面運(yùn)用一些簡(jiǎn)單的實(shí)例說(shuō)明如何在電信行業(yè)使用數(shù)據(jù)挖掘技術(shù)。可以使用上面提到的K 均值、EM 等聚類算法，針對(duì)運(yùn)營(yíng)商積累的大量用戶消費(fèi)數(shù)據(jù)建立客戶分群模型，通過(guò)客戶分群模型對(duì)客戶進(jìn)行細(xì)分，找出有相同特征的目標(biāo)客戶群，然后有針對(duì)性地進(jìn)行營(yíng) 銷。而且，聚類算法也可以實(shí)現(xiàn)離群點(diǎn)檢測(cè)，即在對(duì)用戶消費(fèi)數(shù)據(jù)進(jìn)行聚類的過(guò)程中，發(fā)現(xiàn)一些用戶的異常消費(fèi)行為，據(jù)此判斷這些用戶是否存在欺詐行為，決定是否采取防范措施。可以使用上面提到的C4.5、SVM 和貝葉斯等分類算法，針對(duì)用戶的行為數(shù)據(jù)，對(duì)用戶進(jìn)行信用等級(jí)評(píng)定，對(duì)于信用等級(jí)好的客戶可以給予某些優(yōu)惠服務(wù)等，對(duì)于信用等級(jí)差的用戶不能享受促銷等優(yōu) 惠。可以使用預(yù)測(cè)相關(guān)的算法，對(duì)電信客戶的網(wǎng)絡(luò)使用和客戶投訴數(shù)據(jù)進(jìn)行建模，建立預(yù)測(cè)模型，預(yù)測(cè)大客戶離網(wǎng)風(fēng)險(xiǎn)，采取激勵(lì)和挽留措施防止客戶流失。可以使用相關(guān)分析找出選擇了多個(gè)套餐的客戶在套餐組合中的潛在規(guī)律，哪些套餐容易被客戶同時(shí)選取，例如，選擇了流量套餐的客戶中大部分選擇了彩鈴業(yè)務(wù)，然后基于相關(guān)性的法則，對(duì)選擇流量但是沒(méi)有選擇彩鈴的客戶進(jìn)行交叉營(yíng)銷，向他們推銷彩鈴業(yè)務(wù)。

研究

由于許多應(yīng)用問(wèn)題往往比超市購(gòu)買問(wèn)題更復(fù)雜，大量研究從不同的角度對(duì)關(guān)聯(lián) 規(guī)則做了擴(kuò)展，將更多的因素集成到關(guān)聯(lián)規(guī)則挖掘方法之中，以此豐富關(guān)聯(lián)規(guī)則的應(yīng)用領(lǐng)域，拓寬支持管理決策的范圍。如考慮屬性之間的類別層次關(guān)系，時(shí)態(tài)關(guān) 系，多表挖掘等。近年來(lái)圍繞關(guān)聯(lián)規(guī)則的研究主要集中于兩個(gè)方面，即擴(kuò)展經(jīng)典關(guān)聯(lián)規(guī)則能夠解決問(wèn)題的范圍，改善經(jīng)典關(guān)聯(lián)規(guī)則挖掘算法效率和規(guī)則興趣性。類似區(qū)別一個(gè)經(jīng)常問(wèn)的問(wèn)題是，數(shù)據(jù)挖掘和OLAP到底有何不同。下面將會(huì)解釋，他們是完全不同的工具，基于的技術(shù)也大相徑庭。 OLAP是決策支持領(lǐng)域的一部分。傳統(tǒng)的查詢和報(bào)表工具是告訴你數(shù)據(jù)庫(kù)中都有什么（what happened），OLAP則更進(jìn)一步告訴你下一步會(huì)怎么樣（What next）、和如果我采取這樣的措施又會(huì)怎么樣（What if）。用戶首先建立一個(gè)假設(shè)，然后用OLAP檢索數(shù)據(jù)庫(kù)來(lái)驗(yàn)證這個(gè)假設(shè)是否正確。比如，一個(gè)分析師想找到什么原因?qū)е铝速J款拖欠，他可能先做一個(gè)初始的假定，認(rèn)為低收入的人信用度也低，然后用OLAP來(lái)驗(yàn)證他這個(gè)假設(shè)。如果這個(gè)假設(shè)沒(méi)有被證實(shí)，他可能去察看那些高負(fù)債的賬戶，如果還不行，他也許要把收入和負(fù)債一起考慮，一直進(jìn)行下去，直到找到他想要的結(jié)果或放棄。也就是說(shuō)，OLAP分析師是建立一系列的假設(shè)，然后通過(guò)OLAP來(lái)證實(shí)或推翻這些假設(shè)來(lái)最終得到自己的結(jié)論。OLAP分析過(guò)程在本質(zhì)上是一個(gè)演繹推理的過(guò)程。但是如果分析的變量達(dá)到幾十或上百個(gè)，那么再用OLAP手動(dòng)分析驗(yàn)證這些假設(shè)將是一件非常困難和痛苦的事情。數(shù)據(jù)挖掘與OLAP不同的地方是，數(shù)據(jù)挖掘不是用于驗(yàn)證某個(gè)假定的模式（模型）的正確性，而是在數(shù)據(jù)庫(kù)中自己尋找模型。他在本質(zhì)上是一個(gè)歸納的過(guò)程。比如，一個(gè)用數(shù)據(jù)挖掘工具的分析師想找到引起貸款拖欠的風(fēng)險(xiǎn)因素。數(shù)據(jù)挖掘工具可能幫他找到高負(fù)債和低收入是引起這個(gè)問(wèn)題的因素，甚至還可能發(fā)現(xiàn)一些分析師從來(lái)沒(méi)有想過(guò)或試過(guò)的其他因素，比如年齡。數(shù)據(jù)挖掘和OLAP具有一定的互補(bǔ)性。在利用數(shù)據(jù)挖掘出來(lái)的結(jié)論采取行動(dòng)之前，你也許要驗(yàn)證一下如果采取這樣的行動(dòng)會(huì)給公司帶來(lái)什么樣的影響，那么OLAP工具能回答你的這些問(wèn)題。而且在知識(shí)發(fā)現(xiàn)的早期階段，OLAP工具還有其他一些用途。可以幫你探索數(shù)據(jù)，找到哪些是對(duì)一個(gè)問(wèn)題比較重要的變量，發(fā)現(xiàn)異常數(shù)據(jù)和互相影響的變量。這都能幫你更好的理解你的數(shù)據(jù)，加快知識(shí)發(fā)現(xiàn)的過(guò)程。相關(guān)技術(shù) 數(shù)據(jù)挖掘利用了人工智能（AI）和統(tǒng)計(jì)分析的進(jìn)步所帶來(lái)的好處。這兩門學(xué)科都致力于模式發(fā)現(xiàn)和預(yù)測(cè)。數(shù)據(jù)挖掘不是為了替代傳統(tǒng)的統(tǒng)計(jì)分析技術(shù)。相反，他是統(tǒng)計(jì)分析方法學(xué)的延伸和擴(kuò)展。大多數(shù)的統(tǒng)計(jì)分析技術(shù)都基于完善的數(shù)學(xué)理論和高超的技巧，預(yù)測(cè)的準(zhǔn)確度還是令人滿意的，但對(duì)使用者的要求很高。而隨著計(jì)算機(jī)計(jì)算能力的不斷增強(qiáng)，我們有可能利用計(jì)算機(jī)強(qiáng)大的計(jì)算能力只通過(guò)相對(duì)簡(jiǎn)單和固定的方法完成同樣的功能。一些新興的技術(shù)同樣在知識(shí)發(fā)現(xiàn)領(lǐng)域取得了很好的效果，如神經(jīng)元網(wǎng)絡(luò)和決策樹(shù)，在足夠多的數(shù)據(jù)和計(jì)算能力下，他們幾乎不用人的關(guān)照自動(dòng)就能完成許多有價(jià)值的功能。數(shù)據(jù)挖掘就是利用了統(tǒng)計(jì)和人工智能技術(shù)的應(yīng)用程序，他把這些高深復(fù)雜的技術(shù)封裝起來(lái)，使人們不用自己掌握這些技術(shù)也能完成同樣的功能，并且更專注于自己所要解決的問(wèn)題。相關(guān)影響使數(shù)據(jù)挖掘這件事情成為可能的關(guān)鍵一點(diǎn)是計(jì)算機(jī)性能價(jià)格比的巨大進(jìn)步。在過(guò)去的幾年里磁盤存儲(chǔ)器的價(jià)格幾乎降低了99%，這在很大程度上改變了企業(yè)界對(duì)數(shù)據(jù)收集和存儲(chǔ)的態(tài)度。如果每兆的價(jià)格是￥10，那存放1TB的價(jià)格是￥10,000,000，但當(dāng)每兆的價(jià)格降為1毛錢時(shí)，存儲(chǔ)同樣的數(shù)據(jù)只有￥100,000！計(jì)算機(jī)計(jì)算能力價(jià)格的降低同樣非常顯著。每一代芯片的誕生都會(huì)把CPU的計(jì)算能力提高一大步。內(nèi)存RAM也同樣降價(jià)迅速，幾年之內(nèi)每兆內(nèi)存的價(jià)格由幾百塊錢降到現(xiàn)在只要幾塊錢。通常PC都有64M內(nèi)存，工作站達(dá)到了256M，擁有上G內(nèi)存的服務(wù)器已經(jīng)不是什么新鮮事了。在單個(gè)CPU計(jì)算能力大幅提升的同時(shí)，基于多個(gè)CPU的并行系統(tǒng)也取得了很大的進(jìn)步。目前幾乎所有的服務(wù)器都支持多個(gè)CPU，這些SMP服務(wù)器簇甚至能讓成百上千個(gè)CPU同時(shí)工作。基于并行系統(tǒng)的數(shù)據(jù)庫(kù)管理系統(tǒng)也給數(shù)據(jù)挖掘技術(shù)的應(yīng)用帶來(lái)了便利。如果你有一個(gè)龐大而復(fù)雜的數(shù)據(jù)挖掘問(wèn)題要求通過(guò)訪問(wèn)數(shù)據(jù)庫(kù)取得數(shù)據(jù)，那么效率最高的辦法就是利用一個(gè)本地的并行數(shù)據(jù)庫(kù)。所有這些都為數(shù)據(jù)挖掘的實(shí)施掃清了道路，隨著時(shí)間的延續(xù)，我們相信這條道路會(huì)越來(lái)越平坦。相關(guān)問(wèn)題 NO.1 Data Mining 和統(tǒng)計(jì)分析有什么不同？ 硬要去區(qū)分Data Mining和Statistics的差異其實(shí)是沒(méi)有太大意義的。一般將之定義為Data Mining技術(shù)的CART、CHAID或模糊計(jì)算等等理論方法，也都是由統(tǒng)計(jì)學(xué)者根據(jù)統(tǒng)計(jì)理論所發(fā)展衍生，換另一個(gè)角度看，Data Mining有相當(dāng)大的比重是由高等統(tǒng)計(jì)學(xué)中的多變量分析所支撐。但是為什么Data Mining的出現(xiàn)會(huì)引發(fā)各領(lǐng)域的廣泛注意呢？主要原因在相較于傳統(tǒng)統(tǒng)計(jì)分析而言，Data Mining有下列幾項(xiàng)特性： 1.處理大量實(shí)際數(shù)據(jù)更強(qiáng)勢(shì)，且無(wú)須太專業(yè)的統(tǒng)計(jì)背景去使用Data Mining的工具； 2.數(shù)據(jù)分析趨勢(shì)為從大型數(shù)據(jù)庫(kù)抓取所需數(shù)據(jù)并使用專屬計(jì)算機(jī)分析軟件，Data Mining的工具更符合企業(yè)需求； 3. 純就理論的基礎(chǔ)點(diǎn)來(lái)看，Data Mining和統(tǒng)計(jì)分析有應(yīng)用上的差別，畢竟Data Mining目的是方便企業(yè)終端用戶使用而非給統(tǒng)計(jì)學(xué)家檢測(cè)用的。 NO.2 數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘的關(guān)系為何？ 若將Data Warehousing（數(shù)據(jù)倉(cāng)庫(kù)）比喻作礦坑，Data Mining就是深入礦坑采礦的工作。畢竟Data Mining不是一種無(wú)中生有的魔術(shù)，也不是點(diǎn)石成金的煉金術(shù)，若沒(méi)有夠豐富完整的數(shù)據(jù)，是很難期待Data Mining能挖掘出什么有意義的信息的。要將龐大的數(shù)據(jù)轉(zhuǎn)換成為有用的信息，必須先有效率地收集信息。隨著科技的進(jìn)步，功能完善的數(shù)據(jù)庫(kù)系統(tǒng)就成了最好的收集數(shù)據(jù)的工具。數(shù)據(jù)倉(cāng)庫(kù)，簡(jiǎn)單地說(shuō)，就是搜集來(lái)自其它系統(tǒng)的有用數(shù)據(jù)，存放在一整合的儲(chǔ)存區(qū)內(nèi)。所以其實(shí)就是一個(gè)經(jīng)過(guò)處理整合，且容量特別大的關(guān)系型數(shù)據(jù)庫(kù)，用以儲(chǔ)存決策支持系統(tǒng)（Decision Support System）所需的數(shù)據(jù)，供決策支持或數(shù)據(jù)分析使用。從信息技術(shù)的角度來(lái)看，數(shù)據(jù)倉(cāng)庫(kù)的目標(biāo)是在組織中，在正確的時(shí)間，將正確的數(shù)據(jù)交給正確的人。許多人對(duì)于Data Warehousing和Data Mining時(shí)常混淆，不知如何分辨。其實(shí)，數(shù)據(jù)倉(cāng)庫(kù)是數(shù)據(jù)庫(kù)技術(shù)的一個(gè)新主題，利用計(jì)算機(jī)系統(tǒng)幫助我們操作、計(jì)算和思考，讓作業(yè)方式改變，決策方式也跟著改變。數(shù)據(jù)倉(cāng)庫(kù)本身是一個(gè)非常大的數(shù)據(jù)庫(kù)，它儲(chǔ)存著由組織作業(yè)數(shù)據(jù)庫(kù)中整合而來(lái)的數(shù)據(jù)，特別是指事務(wù)處理系統(tǒng)OLTP（On-Line Transactional Processing）所得來(lái)的數(shù)據(jù)。將這些整合過(guò)的數(shù)據(jù)置放于數(shù)據(jù)倉(cāng)庫(kù)中，而公司的決策者則利用這些數(shù)據(jù)作決策；但是，這個(gè)轉(zhuǎn)換及整合數(shù)據(jù)的過(guò)程，是建立一個(gè)數(shù)據(jù)倉(cāng)庫(kù)最大的挑戰(zhàn)。因?yàn)閷⒆鳂I(yè)中的數(shù)據(jù)轉(zhuǎn)換成有用的的策略性信息是整個(gè)數(shù)據(jù)倉(cāng)庫(kù)的重點(diǎn)。綜上所述，數(shù)據(jù)倉(cāng)庫(kù)應(yīng)該具有這些數(shù)據(jù)：整合性數(shù)據(jù)（integrated data）、詳細(xì)和匯總性的數(shù)據(jù)(detailed and summarized data)、歷史數(shù)據(jù)、解釋數(shù)據(jù)的數(shù)據(jù)。從數(shù)據(jù)倉(cāng)庫(kù)挖掘出對(duì)決策有用的信息與知識(shí)，是建立數(shù)據(jù)倉(cāng)庫(kù)與使用Data Mining的最大目的，兩者的本質(zhì)與過(guò)程是兩回事。換句話說(shuō)，數(shù)據(jù)倉(cāng)庫(kù)應(yīng)先行建立完成，Data mining才能有效率的進(jìn)行，因?yàn)閿?shù)據(jù)倉(cāng)庫(kù)本身所含數(shù)據(jù)是干凈(不會(huì)有錯(cuò)誤的數(shù)據(jù)參雜其中)、完備，且經(jīng)過(guò)整合的。因此兩者關(guān)系或許可解讀為Data Mining是從巨大數(shù)據(jù)倉(cāng)庫(kù)中找出有用信息的一種過(guò)程與技術(shù)。大部分情況下，數(shù)據(jù)挖掘都要先把數(shù)據(jù)從數(shù)據(jù)倉(cāng)庫(kù)中拿到數(shù)據(jù)挖掘庫(kù)或數(shù)據(jù)集市中（見(jiàn)圖1）。從數(shù)據(jù)倉(cāng)庫(kù)中直接得到進(jìn)行數(shù)據(jù)挖掘的數(shù)據(jù)有許多好處。就如我們后面會(huì)講到的，數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)清理和數(shù)據(jù)挖掘的數(shù)據(jù)清理差不多，如果數(shù)據(jù)在導(dǎo)入數(shù)據(jù)倉(cāng)庫(kù)時(shí)已經(jīng)清理過(guò)，那很可能在做數(shù)據(jù)挖掘時(shí)就沒(méi)必要在清理一次了，而且所有的數(shù)據(jù)不一致的問(wèn)題都已經(jīng)被你解決了。數(shù)據(jù)挖掘庫(kù)可能是你的數(shù)據(jù)倉(cāng)庫(kù)的一個(gè)邏輯上的子集，而不一定非得是物理上單獨(dú)的數(shù)據(jù)庫(kù)。但如果你的數(shù)據(jù)倉(cāng)庫(kù)的計(jì)算資源已經(jīng)很緊張，那你最好還是建立一個(gè)單獨(dú)的數(shù)據(jù)挖掘庫(kù)。當(dāng)然為了數(shù)據(jù)挖掘你也不必非得建立一個(gè)數(shù)據(jù)倉(cāng)庫(kù)，數(shù)據(jù)倉(cāng)庫(kù)不是必需的。建立一個(gè)巨大的數(shù)據(jù)倉(cāng)庫(kù)，把各個(gè)不同源的數(shù)據(jù)統(tǒng)一在一起，解決所有的數(shù)據(jù)沖突問(wèn)題，然后把所有的數(shù)據(jù)導(dǎo)到一個(gè)數(shù)據(jù)倉(cāng)庫(kù)內(nèi)，是一項(xiàng)巨大的工程，可能要用幾年的時(shí)間花上百萬(wàn)的錢才能完成。只是為了數(shù)據(jù)挖掘，你可以把一個(gè)或幾個(gè)事務(wù)數(shù)據(jù)庫(kù)導(dǎo)到一個(gè)只讀的數(shù)據(jù)庫(kù)中，就把它當(dāng)作數(shù)據(jù)集市，然后在他上面進(jìn)行數(shù)據(jù)挖掘。 NO.3 OLAP 能不能代替 Data Mining？ 所謂OLAP（Online Analytical Process）意指由數(shù)據(jù)庫(kù)所連結(jié)出來(lái)的在線分析處理程序。有些人會(huì)說(shuō)：「我已經(jīng)有OLAP的工具了，所以我不需要Data Mining。」事實(shí)上兩者間是截然不同的，主要差異在于Data Mining用在產(chǎn)生假設(shè)，OLAP則用于查證假設(shè)。簡(jiǎn)單來(lái)說(shuō)，OLAP是由使用者所主導(dǎo)，使用者先有一些假設(shè)，然后利用OLAP來(lái)查證假設(shè)是否成立；而 Data Mining則是用來(lái)幫助使用者產(chǎn)生假設(shè)。所以在使用OLAP或其它Query的工具時(shí)，使用者是自己在做探索（Exploration），但Data Mining是用工具在幫助做探索。舉個(gè)例子來(lái)看，一市場(chǎng)分析師在為超市規(guī)劃貨品架柜擺設(shè)時(shí)，可能會(huì)先假設(shè)嬰兒尿布和嬰兒奶粉會(huì)是常被一起購(gòu)買的產(chǎn)品，接著便可利用OLAP的工具去驗(yàn)證此假設(shè)是否為真，又成立的證據(jù)有多明顯；但Data Mining則不然，執(zhí)行Data Mining的人將龐大的結(jié)帳數(shù)據(jù)整理后，并不需要假設(shè)或期待可能的結(jié)果，透過(guò)Mining技術(shù)可找出存在于數(shù)據(jù)中的潛在規(guī)則，于是我們可能得到例如尿布和啤酒常被同時(shí)購(gòu)買的意料外之發(fā)現(xiàn)，這是OLAP所做不到的。 Data Mining常能挖掘出超越歸納范圍的關(guān)系，但OLAP僅能利用人工查詢及可視化的報(bào)表來(lái)確認(rèn)某些關(guān)系，是以Data Mining此種自動(dòng)找出甚至不會(huì)被懷疑過(guò)的數(shù)據(jù)模型與關(guān)系的特性，事實(shí)上已超越了我們經(jīng)驗(yàn)、教育、想象力的限制，OLAP可以和Data Mining互補(bǔ)，但這項(xiàng)特性是Data Mining無(wú)法被OLAP取代的。 NO.4 完整的Data Mining 包含哪些步驟？ 1、數(shù)據(jù)挖掘環(huán)境數(shù)據(jù)挖掘是指一個(gè)完整的過(guò)程,該過(guò)程從大型數(shù)據(jù)庫(kù)中挖掘先前未知的,有效的,可實(shí)用的信息,并使用這些信息做出決策或豐富知識(shí). 　數(shù)據(jù)挖掘環(huán)境可示意如下圖: 數(shù)據(jù)挖掘環(huán)境框圖.gif 2、數(shù)據(jù)挖掘過(guò)程圖下圖描述了數(shù)據(jù)挖掘的基本過(guò)程和主要步驟數(shù)據(jù)挖掘的基本過(guò)程和主要步驟 3、數(shù)據(jù)挖掘過(guò)程工作量在數(shù)據(jù)挖掘中被研究的業(yè)務(wù)對(duì)象是整個(gè)過(guò)程的基礎(chǔ),它驅(qū)動(dòng)了整個(gè)數(shù)據(jù)挖掘過(guò) 程,也是檢驗(yàn)最后結(jié)果和指引分析人員完成數(shù)據(jù)挖掘的依據(jù)和顧問(wèn).圖2各步驟是按一定順序完成的,當(dāng)然整個(gè)過(guò)程中還會(huì)存在步驟間的反饋.數(shù)據(jù)挖掘的過(guò)程并不是自動(dòng)的,絕大多數(shù)的工作需要人工完成.圖3給出了各步驟在整個(gè)過(guò)程中的工作量之比.可以看到,60%的時(shí)間用在數(shù)據(jù)準(zhǔn)備上,這說(shuō)明了數(shù)據(jù)挖掘?qū)?shù)據(jù)的嚴(yán) 格要求,而后挖掘工作僅占總工作量的10%. 圖3數(shù)據(jù)挖掘過(guò)程工作量比例 4、數(shù)據(jù)挖掘過(guò)程簡(jiǎn)介過(guò)程中各步驟的大體內(nèi)容如下: (1). 確定業(yè)務(wù)對(duì)象清晰地定義出業(yè)務(wù)問(wèn)題,認(rèn)清數(shù)據(jù)挖掘的目的是數(shù)據(jù)挖掘的重要一步.挖掘的最后結(jié)構(gòu)是不可預(yù)測(cè)的,但要探索的問(wèn)題應(yīng)是有預(yù)見(jiàn)的,為了數(shù)據(jù)挖掘而數(shù)據(jù)挖掘則帶有盲目性,是不會(huì)成功的. (2). 數(shù)據(jù)準(zhǔn)備 1)、數(shù)據(jù)的選擇搜索所有與業(yè)務(wù)對(duì)象有關(guān)的內(nèi)部和外部數(shù)據(jù)信息,并從中選擇出適用于數(shù)據(jù)挖掘應(yīng)用的數(shù)據(jù). 2)、數(shù)據(jù)的預(yù)處理研究數(shù)據(jù)的質(zhì)量,為進(jìn)一步的分析作準(zhǔn)備.并確定將要進(jìn)行的挖掘操作的類型. 3)、數(shù)據(jù)的轉(zhuǎn)換將數(shù)據(jù)轉(zhuǎn)換成一個(gè)分析模型.這個(gè)分析模型是針對(duì)挖掘算法建立的.建立一個(gè)真正適合挖掘算法的分析模型是數(shù)據(jù)挖掘成功的關(guān)鍵. (3). 數(shù)據(jù)挖掘對(duì)所得到的經(jīng)過(guò)轉(zhuǎn)換的數(shù)據(jù)進(jìn)行挖掘.除了完善從選擇合適的挖掘算法外,其余一切工作都能自動(dòng)地完成. (4). 結(jié)果分析解釋并評(píng)估結(jié)果.其使用的分析方法一般應(yīng)作數(shù)據(jù)挖掘操作而定,通常會(huì)用到可視化技術(shù). (5). 知識(shí)的同化將分析所得到的知識(shí)集成到業(yè)務(wù)信息系統(tǒng)的組織結(jié)構(gòu)中去. 5、數(shù)據(jù)挖掘需要的人員數(shù)據(jù)挖掘過(guò)程的分步實(shí)現(xiàn),不同的步會(huì)需要是有不同專長(zhǎng)的人員,他們大體可以分為三類. 業(yè)務(wù)分析人員:要求精通業(yè)務(wù),能夠解釋業(yè)務(wù)對(duì)象,并根據(jù)各業(yè)務(wù)對(duì)象確定出用于數(shù)據(jù)定義和挖掘算法的業(yè)務(wù)需求. 數(shù)據(jù)分析人員:精通數(shù)據(jù)分析技術(shù),并對(duì)統(tǒng)計(jì)學(xué)有較熟練的掌握,有能力把業(yè)務(wù)需求轉(zhuǎn)化為數(shù)據(jù)挖掘的各步操作,并為每步操作選擇合適的技術(shù). 數(shù)據(jù)管理人員:精通數(shù)據(jù)管理技術(shù),并從數(shù)據(jù)庫(kù)或數(shù)據(jù)倉(cāng)庫(kù)中收集數(shù)據(jù). 從上可見(jiàn),數(shù)據(jù)挖掘是一個(gè)多種專家合作的過(guò)程,也是一個(gè)在資金上和技術(shù)上高投入的過(guò)程.這一過(guò)程要反復(fù)進(jìn)行牞在反復(fù)過(guò)程中，不斷地趨近事物的本質(zhì)，不斷地優(yōu)先問(wèn)題的解決方案。數(shù)據(jù)重組和細(xì)分添加和拆分記錄選取數(shù)據(jù)樣本可視化數(shù)據(jù)探索聚類分析神經(jīng)網(wǎng)絡(luò)、決策樹(shù)數(shù)理統(tǒng)計(jì)、時(shí)間序列結(jié)論綜合解釋評(píng)價(jià)數(shù)據(jù)知識(shí)數(shù)據(jù)取樣數(shù)據(jù)探索數(shù)據(jù)調(diào)整模型化評(píng)價(jià)。 NO.5 Data Mining 運(yùn)用了哪些理論與技術(shù)？ Data Mining是近年來(lái)數(shù)據(jù)庫(kù)應(yīng)用技術(shù)中相當(dāng)熱門的議題，看似神奇、聽(tīng)來(lái)時(shí)髦，實(shí)際上卻也不是什么新東西，因其所用之諸如預(yù)測(cè)模型、數(shù)據(jù)分割，連結(jié)分析（Link Analysis）、偏差偵測(cè)（Deviation Detection）等，美國(guó)早在二次世界大戰(zhàn)前就已應(yīng)用運(yùn)用在人口普查及軍事等方面。隨著信息科技超乎想象的進(jìn)展，許多新的計(jì)算機(jī)分析工具問(wèn)世，例如關(guān)系型數(shù)據(jù)庫(kù)、模糊計(jì)算理論、基因算法則以及類神經(jīng)網(wǎng)絡(luò)等，使得從數(shù)據(jù)中發(fā)掘?qū)毑爻蔀橐环N系統(tǒng)性且可實(shí)行的程序。一般而言，Data Mining的理論技術(shù)可分為傳統(tǒng)技術(shù)與改良技術(shù)兩支。傳統(tǒng)技術(shù)以統(tǒng)計(jì)分析為代表，統(tǒng)計(jì)學(xué)內(nèi)所含序列統(tǒng)計(jì)、概率論、回歸分析、類別數(shù)據(jù)分析等都屬于傳統(tǒng)數(shù)據(jù)挖掘技術(shù)，尤其 Data Mining 對(duì)象多為變量繁多且樣本數(shù)龐大的數(shù)據(jù)，是以高等統(tǒng)計(jì)學(xué)里所含括之多變量分析中用來(lái)精簡(jiǎn)變量的因素分析（Factor Analysis）、用來(lái)分類的判別分析（Discriminant Analysis），以及用來(lái)區(qū)隔群體的分群分析（Cluster Analysis）等，在Data Mining過(guò)程中特別常用。在改良技術(shù)方面，應(yīng)用較普遍的有決策樹(shù)理論（Decision Trees）、類神經(jīng)網(wǎng)絡(luò)（Neural Network）以及規(guī)則歸納法（Rules Induction）等。決策樹(shù)是一種用樹(shù)枝狀展現(xiàn)數(shù)據(jù)受各變量的影響情形之預(yù)測(cè)模型，根據(jù)對(duì)目標(biāo)變量產(chǎn)生之效應(yīng)的不同而建構(gòu)分類的規(guī)則，一般多運(yùn)用在對(duì)客戶數(shù)據(jù)的分析上，例如針對(duì)有回函與未回含的郵寄對(duì)象找出影響其分類結(jié)果的變量組合，常用分類方法為CART（Classification and Regression Trees）及CHAID（Chi-Square Automatic Interaction Detector）兩種。類神經(jīng)網(wǎng)絡(luò)是一種仿真人腦思考結(jié)構(gòu)的數(shù)據(jù)分析模式，由輸入之變量與數(shù)值中自我學(xué)習(xí)并根據(jù)學(xué)習(xí)經(jīng)驗(yàn)所得之知識(shí)不斷調(diào)整參數(shù)以期建構(gòu)數(shù)據(jù)的型樣(patterns)。類神經(jīng)網(wǎng)絡(luò)為非線性的設(shè)計(jì)，與傳統(tǒng)回歸分析相比，好處是在進(jìn)行分析時(shí)無(wú)須限定模式，特別當(dāng)數(shù)據(jù)變量間存有交互效應(yīng)時(shí)可自動(dòng)偵測(cè)出；缺點(diǎn)則在于其分析過(guò)程為一黑盒子，故常無(wú)法以可讀之模型格式展現(xiàn)，每階段的加權(quán)與轉(zhuǎn)換亦不明確，是故類神經(jīng)網(wǎng)絡(luò)多利用于數(shù)據(jù)屬于高度非線性且?guī)в邢喈?dāng)程度的變量交感效應(yīng)時(shí)。規(guī)則歸納法是知識(shí)發(fā)掘的領(lǐng)域中最常用的格式，這是一種由一連串的「如果…/則…（If / Then）」之邏輯規(guī)則對(duì)數(shù)據(jù)進(jìn)行細(xì)分的技術(shù)，在實(shí)際運(yùn)用時(shí)如何界定規(guī)則為有效是最大的問(wèn)題，通常需先將數(shù)據(jù)中發(fā)生數(shù)太少的項(xiàng)目先剔除，以避免產(chǎn)生無(wú)意義的邏輯規(guī)則。 NO.6 Data Mining包含哪些主要功能？ Data Mining實(shí)際應(yīng)用功能可分為三大類六分項(xiàng)來(lái)說(shuō)明：Classification和Clustering屬于分類區(qū)隔類；Regression和Time-series屬于推算預(yù)測(cè)類；Association和Sequence則屬于序列規(guī)則類。 Classification是根據(jù)一些變量的數(shù)值做計(jì)算，再依照結(jié)果作分類。（計(jì)算的結(jié)果最后會(huì)被分類為幾個(gè)少數(shù)的離散數(shù)值，例如將一組數(shù)據(jù)分為 "可能會(huì)響應(yīng)" 或是 "可能不會(huì)響應(yīng)" 兩類）。Classification常被用來(lái)處理如前所述之郵寄對(duì)象篩選的問(wèn)題。我們會(huì)用一些根據(jù)歷史經(jīng)驗(yàn)已經(jīng)分類好的數(shù)據(jù)來(lái)研究它們的特征，然后再根據(jù)這些特征對(duì)其他未經(jīng)分類或是新的數(shù)據(jù)做預(yù)測(cè)。這些我們用來(lái)尋找特征的已分類數(shù)據(jù)可能是來(lái)自我們的現(xiàn)有的客戶數(shù)據(jù)，或是將一個(gè)完整數(shù)據(jù)庫(kù)做部份取樣，再經(jīng)由實(shí)際的運(yùn)作來(lái)測(cè)試；譬如利用一個(gè)大型郵寄對(duì)象數(shù)據(jù)庫(kù)的部份取樣來(lái)建立一個(gè)Classification Model，再利用這個(gè)Model來(lái)對(duì)數(shù)據(jù)庫(kù)的其它數(shù)據(jù)或是新的數(shù)據(jù)作分類預(yù)測(cè)。 Clustering用在將數(shù)據(jù)分群，其目的在于將群間的差異找出來(lái)，同時(shí)也將群內(nèi)成員的相似性找出來(lái)。Clustering與Classification不同的是，在分析前并不知道會(huì)以何種方式或根據(jù)來(lái)分類。所以必須要配合專業(yè)領(lǐng)域知識(shí)來(lái)解讀這些分群的意義。 Regression是使用一系列的現(xiàn)有數(shù)值來(lái)預(yù)測(cè)一個(gè)連續(xù)數(shù)值的可能值。若將范圍擴(kuò)大亦可利用Logistic Regression來(lái)預(yù)測(cè)類別變量，特別在廣泛運(yùn)用現(xiàn)代分析技術(shù)如類神經(jīng)網(wǎng)絡(luò)或決策樹(shù)理論等分析工具，推估預(yù)測(cè)的模式已不在止于傳統(tǒng)線性的局限，在預(yù)測(cè) 的功能上大大增加了選擇工具的彈性與應(yīng)用范圍的廣度。 Time-Series Forecasting與Regression功能類似，只是它是用現(xiàn)有的數(shù)值來(lái)預(yù)測(cè)未來(lái)的數(shù)值。兩者最大差異在于Time-Series所分析的數(shù)值都與時(shí)間有關(guān)。Time-Series Forecasting的工具可以處理有關(guān)時(shí)間的一些特性，譬如時(shí)間的周期性、階層性、季節(jié)性以及其它的一些特別因素（如過(guò)去與未來(lái)的關(guān)連性）。 Association是要找出在某一事件或是數(shù)據(jù)中會(huì)同時(shí)出現(xiàn)的東西。舉例而言，如果A是某一事件的一種選擇，則B也出現(xiàn)在該事件中的機(jī)率有多少。（例如：如果顧客買了火腿和柳橙汁，那么這個(gè)顧客同時(shí)也會(huì)買牛奶的機(jī)率是85%。） Sequence Discovery與Association關(guān)系很密切，所不同的是Sequence Discovery中事件的相關(guān)是以時(shí)間因素來(lái)作區(qū)隔（例如：如果A股票在某一天上漲12%，而且當(dāng)天股市加權(quán)指數(shù)下降，則B股票在兩天之內(nèi)上漲的機(jī)率是 68%）。 NO.7 Data Mining在各領(lǐng)域的應(yīng)用情形為何？ Data Mining在各領(lǐng)域的應(yīng)用非常廣泛，只要該產(chǎn)業(yè)擁有具分析價(jià)值與需求的數(shù)據(jù)倉(cāng)儲(chǔ)或數(shù)據(jù)庫(kù)，皆可利用Mining工具進(jìn)行有目的的挖掘分析。一般較常見(jiàn)的應(yīng)用案例多發(fā)生在零售業(yè)、直效行銷界、制造業(yè)、財(cái)務(wù)金融保險(xiǎn)、通訊業(yè)以及醫(yī)療服務(wù)等。于銷售數(shù)據(jù)中發(fā)掘顧客的消費(fèi)習(xí)性，并可藉由交易紀(jì)錄找出顧客偏好的產(chǎn)品組合，其它包括找出流失顧客的特征與推出新產(chǎn)品的時(shí)機(jī)點(diǎn)等等都是零售業(yè)常見(jiàn)的實(shí)例；直效行銷強(qiáng)調(diào)的分眾概念與數(shù)據(jù)庫(kù)行銷方式在導(dǎo)入Data Mining的技術(shù)后，使直效行銷的發(fā)展性更為強(qiáng)大，例如利用Data Mining分析顧客群之消費(fèi)行為與交易紀(jì)錄，結(jié)合基本數(shù)據(jù)，并依其對(duì)品牌價(jià)值等級(jí)的高低來(lái)區(qū)隔顧客，進(jìn)而達(dá)到差異化行銷的目的；制造業(yè)對(duì)Data Mining的需求多運(yùn)用在品質(zhì)控管方面，由制造過(guò)程中找出影響產(chǎn)品品質(zhì)最重要的因素，以期提高作業(yè)流程的效率。近來(lái)電話公司、信用卡公司、保險(xiǎn)公司以及股票交易商對(duì)于詐欺行為的偵測(cè) （Fraud Detection）都很有興趣，這些行業(yè)每年因?yàn)樵p欺行為而造成的損失都非常可觀，Data Mining可以從一些信用不良的客戶數(shù)據(jù)中找出相似特征并預(yù)測(cè)可能的詐欺交易，達(dá)到減少損失的目的。財(cái)務(wù)金融業(yè)可以利用 Data Mining來(lái)分析市場(chǎng)動(dòng)向，并預(yù)測(cè)個(gè)別公司的營(yíng)運(yùn)以及股價(jià)走向。Data Mining的另一個(gè)獨(dú)特的用法是在醫(yī)療業(yè)，用來(lái)預(yù)測(cè)手術(shù)、用藥、診斷、或是流程控制的效率。 NO.8 Web Mining 和數(shù)據(jù)挖掘有什么不同？ 如果將Web視為CRM的一個(gè)新的Channel，則Web Mining便可單純看做Data Mining應(yīng)用在網(wǎng)絡(luò)數(shù)據(jù)的泛稱。該如何測(cè)量一個(gè)網(wǎng)站是否成功？哪些內(nèi)容、優(yōu)惠、廣告是人氣最旺的？主要訪客是哪些人？什么原因吸引他們前來(lái)？如何從堆積如山之大量由網(wǎng)絡(luò)所得數(shù)據(jù)中找出讓網(wǎng)站運(yùn)作更有效率的操作因素？以上種種皆屬Web Mining 分析之范疇。Web Mining 不僅只限于一般較為人所知的log file分析，除了計(jì)算網(wǎng)頁(yè)瀏覽率以及訪客人次外，舉凡網(wǎng)絡(luò)上的零售、財(cái)務(wù)服務(wù)、通訊服務(wù)、政府機(jī)關(guān)、醫(yī)療咨詢、遠(yuǎn)距教學(xué)等等，只要由網(wǎng)絡(luò)連結(jié)出的數(shù)據(jù)庫(kù) 夠大夠完整，所有Off-Line可進(jìn)行的分析，Web Mining都可以做，甚或更可整合Off-Line及On-Line的數(shù)據(jù)庫(kù)，實(shí)施更大規(guī)模的模型預(yù)測(cè)與推估，畢竟憑借網(wǎng)際網(wǎng)絡(luò)的便利性與滲透力再配合網(wǎng)絡(luò)行為的可追蹤性與高互動(dòng)特質(zhì)，一對(duì)一行銷的理念是最有機(jī)會(huì)在網(wǎng)絡(luò)世界里完全落實(shí)的。整體而言，Web Mining具有以下特性：1.數(shù)據(jù)收集容易且不引人注意，所謂凡走過(guò)必留下痕跡，當(dāng)訪客進(jìn)入網(wǎng)站后的一切瀏覽行為與歷程都是可以立即被紀(jì)錄的；2. 以交互式個(gè)人化服務(wù)為終極目標(biāo)，除了因應(yīng)不同訪客呈現(xiàn)專屬設(shè)計(jì)的網(wǎng)頁(yè)之外，不同的訪客也會(huì)有不同的服務(wù)；3. 可整合外部來(lái)源數(shù)據(jù)讓分析功能發(fā)揮地更深更廣，除了log file、cookies、會(huì)員填表數(shù)據(jù)、線上調(diào)查數(shù)據(jù)、線上交易數(shù)據(jù)等由網(wǎng)絡(luò)直接取得的資源外，結(jié)合實(shí)體世界累積時(shí)間更久、范圍更廣的資源，將使分析的結(jié)果更準(zhǔn)確也更深入。利用Data Mining技術(shù)建立更深入的訪客數(shù)據(jù)剖析，并賴以架構(gòu)精準(zhǔn)的預(yù)測(cè)模式，以期呈現(xiàn)真正智能型個(gè)人化的網(wǎng)絡(luò)服務(wù)，是Web Mining努力的方向。 NO.9 數(shù)據(jù)挖掘在 CRM 中扮演的角色為何？ CRM（Customer Relationship Management）是近來(lái)引起熱烈討論與高度關(guān)切的議題，尤其在直效行銷的崛起與網(wǎng)絡(luò)的快速發(fā)展帶動(dòng)下，跟不上CRM的腳步如同跟不上時(shí)代。事實(shí)上 CRM并不算新發(fā)明，奧美直效行銷推動(dòng)十?dāng)?shù)年的CO（Customer Ownership）就是現(xiàn)在大家談的CRM—客戶關(guān)系管理。 Data Mining應(yīng)用在CRM的主要方式可對(duì)應(yīng)在Gap Analysis之三個(gè)部分：針對(duì)Acquisition Gap，可利用Customer Profiling找出客戶的一些共同的特征，希望能藉此深入了解客戶，藉由Cluster Analysis對(duì)客戶進(jìn)行分群后再通過(guò)Pattern Analysis預(yù)測(cè)哪些人可能成為我們的客戶，以幫助行銷人員找到正確的行銷對(duì)象，進(jìn)而降低成本，也提高行銷的成功率。針對(duì)Sales Gap，可利用Basket Analysis幫助了解客戶的產(chǎn)品消費(fèi)模式，找出哪些產(chǎn)品客戶最容易一起購(gòu)買，或是利用Sequence Discovery預(yù)測(cè)客戶在買了某一樣產(chǎn)品之后，在多久之內(nèi)會(huì)買另一樣產(chǎn)品等等。利用 Data Mining可以更有效的決定產(chǎn)品組合、產(chǎn)品推薦、進(jìn)貨量或庫(kù)存量，甚或是在店里要如何擺設(shè)貨品等，同時(shí)也可以用來(lái)評(píng)估促銷活動(dòng)的成效。針對(duì)Retention Gap，可以由原客戶后來(lái)卻轉(zhuǎn)成競(jìng)爭(zhēng)對(duì)手的客戶群中，分析其特征，再根據(jù)分析結(jié)果到現(xiàn)有客戶數(shù)據(jù)中找出可能轉(zhuǎn)向的客戶，然后設(shè)計(jì)一些方法預(yù)防客戶流失；更有系統(tǒng)的做法是藉由Neural Network根據(jù)客戶的消費(fèi)行為與交易紀(jì)錄對(duì)客戶忠誠(chéng)度進(jìn)行Scoring的排序，如此則可區(qū)隔流失率的等級(jí)進(jìn)而配合不同的策略。 CRM不是設(shè)一個(gè)（800）客服專線就算了，更不僅只是把一堆客戶基本數(shù)據(jù)輸入計(jì)算機(jī)就夠，完整的CRM運(yùn)作機(jī)制在相關(guān)的硬軟件系統(tǒng)能健全的支持之前，有太多的數(shù)據(jù)準(zhǔn)備工作與分析需要推動(dòng)。企業(yè)透過(guò)Data Mining可以分別針對(duì)策略、目標(biāo)定位、操作效能與測(cè)量評(píng)估等四個(gè)切面之相關(guān)問(wèn)題，有效率地從市場(chǎng)與顧客所搜集累積之大量數(shù)據(jù)中挖掘出對(duì)消費(fèi)者而言最關(guān) 鍵、最重要的答案，并賴以建立真正由客戶需求點(diǎn)出發(fā)的客戶關(guān)系管理。 NO.10 目前業(yè)界常用的數(shù)據(jù)挖掘分析工具？ Data Mining工具市場(chǎng)大致可分為三類：

一般分析目的用的軟件包

K-Miner（神通數(shù)據(jù)挖掘分析系統(tǒng)，MPP+SMP并行計(jì)算架構(gòu)） AlpineMiner(AlpineDataLabs) TipDM(頂尖數(shù)據(jù)挖掘平臺(tái)) GDM（Geni-Sage Data Mining Analysis System，博通數(shù)據(jù)挖掘分析系統(tǒng)） SAS Enterprise Miner KXEN(凱森) IBM Intelligent Miner Unica PRW SPSS Clementine SGI MineSet Oracle Darwin Angoss KnowledgeSeeker 2. 針對(duì)特定功能或產(chǎn)業(yè)而研發(fā)的軟件 KD1（針對(duì)零售業(yè)） Options & Choices（針對(duì)保險(xiǎn)業(yè)） HNC（針對(duì)信用卡詐欺或呆帳偵測(cè)） Unica Model 1（針對(duì)行銷業(yè)） iEM System （針對(duì)流程行業(yè)的實(shí)時(shí)歷史數(shù)據(jù)） 3. 整合DSS（Decision Support Systems）/OLAP/Data Mining的大型分析系統(tǒng) Cognos Scenario and Business Objects 國(guó)際相關(guān) [Journals] 1.ACM Transactions on Knowledge Discovery from Data (TKDD) 2.IEEE Transactions on Knowledge and Data Engineering (TKDE) 3.Data Mining and Knowledge Discovery 4.Knowledge and Information Systems 5.Data & Knowledge Engineering [Conferences] 1.SIGMOD:ACM Conference on Management of Data (ACM) 2.VLDB:International Conference on Very Large Data Bases (Morgan Kaufmann/ACM) 3.ICDE:IEEE International Conference on Data Engineering (IEEE Computer Society) 4.SIGKDD:ACM Knowledge Discovery and Data Mining (ACM) 5.WWW:International World Wide Web Conferences (W3C) 6.CIKM:ACM International Conference on Information and Knowledge Management (ACM) 7.PKDD:European Conference on Principles and Practice of Knowledge Discovery in Databases (Springer-VerlagLNAI) 國(guó)內(nèi)期刊 數(shù)據(jù)挖掘研究 Hans Journal of Data Mining 是一本關(guān)注數(shù)據(jù)挖掘領(lǐng)域最新進(jìn)展的國(guó)際中文期刊，由漢斯出版社發(fā)行，主要刊登數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)安全、知識(shí)工程等計(jì)算機(jī)信息系統(tǒng)建設(shè)相關(guān)內(nèi)容的學(xué)術(shù)論文和成果評(píng)述。本刊支持思想創(chuàng)新、學(xué)術(shù)創(chuàng)新，倡導(dǎo)科學(xué)，繁榮學(xué)術(shù)，集學(xué)術(shù)性、思想性為一體，旨在為了給世界范圍內(nèi)的科學(xué)家、學(xué)者、科研人員提供一個(gè)傳播、分享和討論數(shù)據(jù)挖掘領(lǐng)域內(nèi)不同方向問(wèn)題與發(fā)展的交流平臺(tái)。研究領(lǐng)域：數(shù)據(jù)挖掘 · 數(shù)據(jù)結(jié)構(gòu) · 數(shù)據(jù)安全與計(jì)算機(jī)安全 · 數(shù)據(jù)庫(kù) · 數(shù)據(jù)處理 · 知識(shí)工程 · 計(jì)算機(jī)信息管理系統(tǒng) · 計(jì)算機(jī)決策支持系統(tǒng) · 計(jì)算機(jī)應(yīng)用其他學(xué)科 · 模式識(shí)別 · 人工智能其他學(xué)科編委信息主編丁曉青教授清華大學(xué) 編委會(huì) 蔣嶷川教授東南大學(xué) 李道亮教授中國(guó)農(nóng)業(yè)大學(xué) 賴劍煌教授中山大學(xué) 劉金山教授華南農(nóng)業(yè)大學(xué) 李紹滋教授廈門大學(xué) 呂紹高副教授西南財(cái)經(jīng)大學(xué) 馬懋德副教授新加坡南洋理工大學(xué) 莫宏偉教授哈爾濱工程大學(xué) 樸昌浩教授重慶郵電大學(xué) 譚文安教授南京航空航天大學(xué) 王加陽(yáng) 教授中南大學(xué) 汪衛(wèi) 教授復(fù)旦大學(xué) 楊力華教授中山大學(xué) 楊曉忠教授華北電力大學(xué) 張道強(qiáng) 教授南京航空航天大學(xué) 檢索《數(shù)據(jù)挖掘》期刊論文已被以下數(shù)據(jù)庫(kù)收錄：維普萬(wàn)方全國(guó)期刊聯(lián)合目錄數(shù)據(jù)庫(kù)(UNICAT) 中國(guó)科學(xué)院國(guó)家科學(xué)圖書(shū)館讀秀學(xué)術(shù) DOAJ Open J-Gate Google Scholar Academic Journals Database The Elektronische Zeitschriftenbibliothek(EZB) NewJour SJSU Worldwidescience Ulrichsweb Washington trueserials WorldCat NYULibraries Scirus Journalseek Index Copernicus Cornell University Library Open Access Library

隱私

編輯與數(shù)據(jù)挖掘有關(guān)的，還牽扯到隱私問(wèn)題，例如：一個(gè)雇主可以通過(guò)訪問(wèn)醫(yī)療記錄來(lái)篩選出那些有糖尿病或者嚴(yán)重心臟病的人，從而意圖削減保險(xiǎn)支出。然而，這種做法會(huì)導(dǎo)致倫理和法律問(wèn)題。對(duì)于政府和商業(yè)數(shù)據(jù)的挖掘，可能會(huì)涉及到的，是國(guó)家安全或者商業(yè)機(jī)密之類的問(wèn)題。這對(duì)于保密也是個(gè)不小的挑戰(zhàn)。數(shù)據(jù)挖掘有很多合法的用途，例如可以在患者群的數(shù)據(jù)庫(kù)中查出某藥物和其副作用的關(guān)系。這種關(guān)系可能在1000人中也不會(huì)出現(xiàn)一例，但藥物學(xué)相關(guān)的項(xiàng)目就可以運(yùn)用此方法減少對(duì)藥物有不良反應(yīng)的病人數(shù)量，還有可能挽救生命；但這當(dāng)中還是存在著數(shù)據(jù)庫(kù)可能被濫用的問(wèn)題。數(shù)據(jù)挖掘?qū)崿F(xiàn)了用其他方法不可能實(shí)現(xiàn)的方法來(lái)發(fā)現(xiàn)信息，但它必須受到規(guī)范，應(yīng)當(dāng)在適當(dāng)?shù)恼f(shuō)明下使用。如果數(shù)據(jù)是收集自特定的個(gè)人，那么就會(huì)出現(xiàn)一些涉及保密、法律和倫理的問(wèn)題。

總結(jié)

以上是生活随笔為你收集整理的数据挖掘的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

数据挖掘

上一篇： IT男着装bug修复，下一个业界男神就是
下一篇：使用ICAP原语实现SPI-Multib