日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

数据挖掘

發(fā)布時(shí)間:2023/12/8 编程问答 37 豆豆
生活随笔 收集整理的這篇文章主要介紹了 数据挖掘 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.
數(shù)據(jù)挖掘(英語(yǔ):Data mining),又譯為資料探勘、數(shù)據(jù)采礦。它是數(shù)據(jù)庫(kù)知識(shí)發(fā)現(xiàn)(英語(yǔ):Knowledge-Discovery in Databases,簡(jiǎn)稱:KDD)中的一個(gè)步驟。數(shù)據(jù)挖掘一般是指從大量的數(shù)據(jù)中通過(guò)算法搜索隱藏于其中信息的過(guò)程。數(shù)據(jù)挖掘通常與計(jì)算機(jī)科學(xué)有關(guān),并 通過(guò)統(tǒng)計(jì)、在線分析處理、情報(bào)檢索、機(jī)器學(xué)習(xí)、專家系統(tǒng)(依靠過(guò)去的經(jīng)驗(yàn)法則)和模式識(shí)別等諸多方法來(lái)實(shí)現(xiàn)上述目標(biāo)。 中文名
數(shù)據(jù)挖掘
外文名
Data mining
別????名
資料探勘、數(shù)據(jù)采礦
所屬學(xué)科
計(jì)算機(jī)科學(xué)
應(yīng)用領(lǐng)域
情報(bào)檢索、數(shù)據(jù)分析、模式識(shí)別等
相關(guān)領(lǐng)域
人工智能、數(shù)據(jù)庫(kù)

目錄

  • 1 起源
  • 2 發(fā)展階段
  • 3 使用
  • 4 經(jīng)驗(yàn)之談
  • 5 成功案例
  • 6 經(jīng)典算法
  • 7 過(guò)程
  • ? 算法
  • ? 應(yīng)用
  • ? 研究
  • 8 隱私
  • 起源

    編輯 數(shù)據(jù)挖掘 需要是發(fā)明之母。近年來(lái),數(shù)據(jù)挖掘引起了信息產(chǎn)業(yè)界的極大關(guān)注,其主要原因是存在大量數(shù)據(jù),可以廣泛使用,并且迫切需要將這些數(shù)據(jù)轉(zhuǎn)換成有用的信息和知識(shí)。獲取的信息和知識(shí)可以廣泛用于各種應(yīng)用,包括商務(wù)管理,生產(chǎn)控制,市場(chǎng)分析,工程設(shè)計(jì)和科學(xué)探索等。 數(shù)據(jù)挖掘利用了來(lái)自如下一些領(lǐng)域的思想:(1) 來(lái)自統(tǒng)計(jì)學(xué)的抽樣、估計(jì)和假設(shè)檢驗(yàn),(2)人工智能、模式識(shí)別和機(jī)器學(xué)習(xí)的搜索算法、建模技術(shù)和學(xué)習(xí)理論。數(shù)據(jù)挖掘也迅速地接納了來(lái)自其他領(lǐng)域的思想,這些領(lǐng)域包括最優(yōu)化、進(jìn)化計(jì)算、信息論、信號(hào)處理、可視化和信息檢索。一些其他領(lǐng)域也起到重要的支撐作用。特別地,需要數(shù)據(jù)庫(kù)系統(tǒng)提供有效的存儲(chǔ)、索引和查詢處理支持。源于高性能(并行)計(jì)算的技術(shù)在處理海量數(shù)據(jù)集方面常常是重要的。分布式技術(shù)也能幫助處理海量數(shù)據(jù),并且當(dāng)數(shù)據(jù)不能集中到一起處理時(shí)更是至關(guān)重要。

    發(fā)展階段

    編輯 第一階段:電子郵件階段 這個(gè)階段可以認(rèn)為是從70年代開(kāi)始,平均的通訊量以每年幾倍的速度增長(zhǎng)。 第二階段:信息發(fā)布階段 從1995年起,以Web技術(shù)為代表的信息發(fā)布系統(tǒng),爆炸式地成長(zhǎng)起來(lái),成為目前Internet的主要應(yīng)用。中小企業(yè)如何把握好從“粗放型”到“精準(zhǔn)型”營(yíng)銷時(shí)代的電子商務(wù)。 第三階段: EC(Electronic Commerce),即電子商務(wù)階段 EC在美國(guó)也才剛剛開(kāi)始,之所以把EC列為一個(gè)劃時(shí)代的東西,是因?yàn)?Internet的最終主要商業(yè)用途,就是電子商務(wù)。同時(shí)反過(guò)來(lái)也可以說(shuō),若干年后的商業(yè)信息,主要是通過(guò)Internet傳遞。Internet即將成 為我們這個(gè)商業(yè)信息社會(huì)的神經(jīng)系統(tǒng)。1997年底在加拿大溫哥華舉行的第五次亞太經(jīng)合組織非正式首腦會(huì)議(APEC)上美國(guó)總統(tǒng)克林頓提出敦促各國(guó)共同促 進(jìn)電子商務(wù)發(fā)展的議案,其引起了全球首腦的關(guān)注,IBM、HP和Sun等國(guó)際著名的信息技術(shù)廠商已經(jīng)宣布1998年為電子商務(wù)年。 第四階段:全程電子商務(wù)階段 隨著SaaS(Software as a service)軟件服務(wù)模式的出現(xiàn),軟件紛紛登陸互聯(lián)網(wǎng)[5],延長(zhǎng)了電子商務(wù)鏈條,形成了當(dāng)下最新的“全程電子商務(wù)”概念模式。也因此形成了一門獨(dú)立的學(xué)科——數(shù)據(jù)挖掘與客戶關(guān)系管理碩士。

    使用

    編輯 分析方法: 數(shù)據(jù)挖掘 · 分類 (Classification) · 估計(jì)(Estimation) · 預(yù)測(cè)(Prediction) · 相關(guān)性分組或關(guān)聯(lián)規(guī)則(Affinity grouping or association rules) · 聚類(Clustering) · 復(fù)雜數(shù)據(jù)類型挖掘(Text, Web ,圖形圖像,視頻,音頻等) 方法簡(jiǎn)介: ·分類 (Classification) 首先從數(shù)據(jù)中選出已經(jīng)分好類的訓(xùn)練集,在該訓(xùn)練集上運(yùn)用數(shù)據(jù)挖掘分類的技術(shù),建立分類模型,對(duì)于沒(méi)有分類的數(shù)據(jù)進(jìn)行分類。 例子: a. 信用卡申請(qǐng)者,分類為低、中、高風(fēng)險(xiǎn) b. 故障診斷:中國(guó)寶鋼集團(tuán)與上海天律信息技術(shù)有限公司合作,采用數(shù)據(jù)挖掘技術(shù)對(duì)鋼材生產(chǎn)的全流程進(jìn)行質(zhì)量監(jiān)控和分析,構(gòu)建故障地圖,實(shí)時(shí)分析產(chǎn)品出現(xiàn)瑕疵的原因,有效提高了產(chǎn)品的優(yōu)良率。 注意: 類的個(gè)數(shù)是確定的,預(yù)先定義好的 · 估計(jì)(Estimation) 估計(jì)與分類類似,不同之處在于,分類描述的是離散型變量的輸出,而估值處理連續(xù)值的輸出;分類 數(shù)據(jù)挖掘 的類別是確定數(shù)目的,估值的量是不確定的。 例子: a. 根據(jù)購(gòu)買模式,估計(jì)一個(gè)家庭的孩子個(gè)數(shù) b. 根據(jù)購(gòu)買模式,估計(jì)一個(gè)家庭的收入 c. 估計(jì)real estate的價(jià)值 一般來(lái)說(shuō),估值可以作為分類的前一步工作。給定一些輸入數(shù)據(jù),通過(guò)估值,得到未知的連續(xù)變量的值,然后,根據(jù)預(yù)先設(shè)定的閾值,進(jìn)行分類。例如:銀行對(duì)家庭貸款業(yè)務(wù),運(yùn)用估值,給各個(gè)客戶記分(Score 0~1)。然后,根據(jù)閾值,將貸款級(jí)別分類。 · 預(yù)測(cè)(Prediction) 通常,預(yù)測(cè)是通過(guò)分類或估值起作用的,也就是說(shuō),通過(guò)分類或估值得出模型,該模型用于對(duì)未知變量的預(yù)言。從這種意義上說(shuō),預(yù)言其實(shí)沒(méi)有必要分為一個(gè)單獨(dú)的類。預(yù)言其目的是對(duì)未來(lái)未知變量的預(yù)測(cè),這種預(yù)測(cè)是需要時(shí)間來(lái)驗(yàn)證的,即必須經(jīng)過(guò)一定時(shí)間后,才知道預(yù)言準(zhǔn)確性是多少。 · 相關(guān)性分組或關(guān)聯(lián)規(guī)則(Affinity grouping or association rules) 決定哪些事情將一起發(fā)生。 例子: a. 超市中客戶在購(gòu)買A的同時(shí),經(jīng)常會(huì)購(gòu)買B,即A => B(關(guān)聯(lián)規(guī)則) b. 客戶在購(gòu)買A后,隔一段時(shí)間,會(huì)購(gòu)買B (序列分析) · 聚類(Clustering) 聚類是對(duì)記錄分組,把相似的記錄在一個(gè)聚集里。聚類和分類的區(qū)別是聚集不依賴于預(yù)先定義好的類,不需要訓(xùn)練集。 例子: a. 一些特定癥狀的聚集可能預(yù)示了一個(gè)特定的疾病 b. 租VCD類型不相似的客戶聚集,可能暗示成員屬于不同的亞文化群 聚集通常作為數(shù)據(jù)挖掘的第一步。例如,"哪一種類的促銷對(duì)客戶響應(yīng)最好?",對(duì)于這一 類問(wèn)題,首先對(duì)整個(gè)客戶做聚集,將客戶分組在各自的聚集里,然后對(duì)每個(gè)不同的聚集,回答問(wèn)題,可能效果更好。 · 描述和可視化(Description and Visualization) 是對(duì)數(shù)據(jù)挖掘結(jié)果的表示方式。一般只是指數(shù)據(jù)可視化工具,包含報(bào)表工具和商業(yè)智能分析產(chǎn)品(BI)的統(tǒng)稱。譬如通過(guò)Yonghong Z-Suite等工具進(jìn)行數(shù)據(jù)的展現(xiàn),分析,鉆取,將數(shù)據(jù)挖掘的分析結(jié)果更形象,深刻的展現(xiàn)出來(lái)。

    經(jīng)驗(yàn)之談

    編輯 第一,目標(biāo)律:業(yè)務(wù)目標(biāo)是所有數(shù)據(jù)解決方案的源頭。 第二,知識(shí)律:業(yè)務(wù)知識(shí)是數(shù)據(jù)挖掘過(guò)程每一步的核心。 第三,準(zhǔn)備律:數(shù)據(jù)預(yù)處理比數(shù)據(jù)挖掘其他任何一個(gè)過(guò)程都重要。 第四,試驗(yàn)律(NFL律:No Free Lunch):對(duì)于數(shù)據(jù)挖掘者來(lái)說(shuō),天下沒(méi)有免費(fèi)的午餐,一個(gè)正確的模型只有通過(guò)試驗(yàn)(experiment)才能被發(fā)現(xiàn)。 第五,模式律(大衛(wèi)律):數(shù)據(jù)中總含有模式。 第六,洞察律:數(shù)據(jù)挖掘增大對(duì)業(yè)務(wù)的認(rèn)知。 第七,預(yù)測(cè)律:預(yù)測(cè)提高了信息泛化能力。 第八,價(jià)值律:數(shù)據(jù)挖掘的結(jié)果的價(jià)值不取決于模型的穩(wěn)定性或預(yù)測(cè)的準(zhǔn)確性。 第九,變化律:所有的模式因業(yè)務(wù)變化而變化。

    成功案例

    編輯 數(shù)據(jù)挖掘幫助Credilogros Cía Financiera S.A.改善客戶信用評(píng)分 Credilogros Cía Financiera S.A. 是阿根廷第五大信貸公司,資產(chǎn)估計(jì)價(jià)值為9570萬(wàn)美元,對(duì)于Credilogros而言,重要的是識(shí)別與潛在預(yù)先付款客戶相關(guān)的潛在風(fēng)險(xiǎn),以便將承擔(dān)的風(fēng)險(xiǎn)最小化。 該公司的第一個(gè)目標(biāo)是創(chuàng)建一個(gè)與公司核心系統(tǒng)和兩家信用報(bào)告公司系統(tǒng)交互 的決策引擎來(lái)處理信貸申請(qǐng)。同時(shí),Credilogros還在尋找針對(duì)它所服務(wù)的低收入客戶群體的自定義風(fēng)險(xiǎn)評(píng)分工具。除這些之外,其他需求還包括解決方 案能在其35個(gè)分支辦公地點(diǎn)和200多個(gè)相關(guān)的銷售點(diǎn)中的任何一個(gè)實(shí)時(shí)操作,包括零售家電連鎖店和手機(jī)銷售公司。 最終Credilogros 選擇了SPSS Inc.的數(shù)據(jù)挖掘軟件PASWModeler,因?yàn)樗軌蜢`活并輕松地整合到 Credilogros 的核心信息系統(tǒng)中。通過(guò)實(shí)現(xiàn)PASW Modeler,Credilogros將用于處理信用數(shù)據(jù)和提供最終信用評(píng)分的時(shí)間縮短到了8秒以內(nèi)。這使該組織能夠迅速批準(zhǔn)或拒絕信貸請(qǐng)求。該決策引 擎還使 Credilogros 能夠最小化每個(gè)客戶必須提供的身份證明文檔,在一些特殊情況下,只需提供一份身份證明即可批準(zhǔn)信貸。此外,該系統(tǒng)還提供監(jiān)控功能。Credilogros 目前平均每月使用PASW Modeler處理35000份申請(qǐng)。僅在實(shí)現(xiàn) 3 個(gè)月后就幫助Credilogros 將貸款支付失職減少了 20%. 數(shù)據(jù)挖掘幫助DHL實(shí)時(shí)跟蹤貨箱溫度 DHL是國(guó)際快遞和物流行業(yè)的全球市場(chǎng)領(lǐng)先者,它提供快遞、水陸空三路運(yùn) 輸、合同物流解決方案,以及國(guó)際郵件服務(wù)。DHL的國(guó)際網(wǎng)絡(luò)將超過(guò)220個(gè)國(guó)家及地區(qū)聯(lián)系起來(lái),員工總數(shù)超過(guò)28.5萬(wàn)人。在美國(guó) FDA 要求確保運(yùn)送過(guò)程中藥品裝運(yùn)的溫度達(dá)標(biāo)這一壓力之下,DHL的醫(yī)藥客戶強(qiáng)烈要求提供更可靠且更實(shí)惠的選擇。這就要求DHL在遞送的各個(gè)階段都要實(shí)時(shí)跟蹤集 裝箱的溫度。 雖然由記錄器方法生成的信息準(zhǔn)確無(wú)誤,但是無(wú)法實(shí)時(shí)傳遞數(shù)據(jù),客戶和 DHL都無(wú)法在發(fā)生溫度偏差時(shí)采取任何預(yù)防和糾正措施。因此,DHL的母公司德國(guó)郵政世界網(wǎng)(DPWN)通過(guò)技術(shù)與創(chuàng)新管理(TIM)集團(tuán)明確擬定了一個(gè) 計(jì)劃,準(zhǔn)備使用RFID技術(shù)在不同時(shí)間點(diǎn)全程跟蹤裝運(yùn)的溫度。通過(guò)IBM全球企業(yè)咨詢服務(wù)部繪制決定服務(wù)的關(guān)鍵功能參數(shù)的流程框架。DHL獲得了兩方面的 收益:對(duì)于最終客戶來(lái)說(shuō),能夠使醫(yī)藥客戶對(duì)運(yùn)送過(guò)程中出現(xiàn)的裝運(yùn)問(wèn)題提前做出響應(yīng),并以引人注目的低成本全面切實(shí)地增強(qiáng)了運(yùn)送可靠性。對(duì)于DHL來(lái)說(shuō),提 高了客戶滿意度和忠實(shí)度;為保持競(jìng)爭(zhēng)差異奠定堅(jiān)實(shí)的基礎(chǔ);并成為重要的新的收入增長(zhǎng)來(lái)源。 行業(yè)應(yīng)用 價(jià)格競(jìng)爭(zhēng)空前激烈,語(yǔ)音業(yè)務(wù)增長(zhǎng)趨緩,快速增長(zhǎng)的中國(guó)移動(dòng)通信市場(chǎng)正面臨 著前所未有的生存壓力。中國(guó)電信業(yè)改革的加速推進(jìn)形成了新的競(jìng)爭(zhēng)態(tài)勢(shì),移動(dòng)運(yùn)營(yíng)市場(chǎng)的競(jìng)爭(zhēng)廣度和強(qiáng)度將進(jìn)一步加大,這特別表現(xiàn)在集團(tuán)客戶領(lǐng)域。移動(dòng)信息化 和集團(tuán)客戶已然成為未來(lái)各運(yùn)營(yíng)商應(yīng)對(duì)競(jìng)爭(zhēng)、獲取持續(xù)增長(zhǎng)的新引擎。 隨著國(guó)內(nèi)三足鼎立全業(yè)務(wù)競(jìng)爭(zhēng)態(tài)勢(shì)和3G牌照發(fā)放,各運(yùn)營(yíng)商為集團(tuán)客戶提供 融合的信息化解決方案將是大勢(shì)所趨,而移動(dòng)信息化將成為全面進(jìn)入信息化服務(wù)領(lǐng)域的先導(dǎo)力量。傳統(tǒng)移動(dòng)運(yùn)營(yíng)商因此面臨著從傳統(tǒng)個(gè)人業(yè)務(wù)轉(zhuǎn)向同時(shí)拓展集團(tuán)客戶 信息化業(yè)務(wù)領(lǐng)域的挑戰(zhàn)。如何應(yīng)對(duì)來(lái)自內(nèi)外部的挑戰(zhàn),迅速以移動(dòng)信息化業(yè)務(wù)作為融合業(yè)務(wù)的競(jìng)爭(zhēng)利器之一拓展集團(tuán)客戶市場(chǎng),在新興市場(chǎng)中立于不敗之地,是傳統(tǒng) 移動(dòng)運(yùn)營(yíng)商需要解決的緊迫問(wèn)題。 從目前網(wǎng)絡(luò)招聘的信息來(lái)看,大小公司對(duì)數(shù)據(jù)挖掘的需求有50多個(gè)方面(來(lái)源見(jiàn)參考資料): 1、數(shù)據(jù)統(tǒng)計(jì)分析 2、預(yù)測(cè)預(yù)警模型 3、數(shù)據(jù)信息闡釋 4、數(shù)據(jù)采集評(píng)估 5、數(shù)據(jù)加工倉(cāng)庫(kù) 6、品類數(shù)據(jù)分析 7、銷售數(shù)據(jù)分析 8、網(wǎng)絡(luò)數(shù)據(jù)分析 9、流量數(shù)據(jù)分析 10、交易數(shù)據(jù)分析 11、媒體數(shù)據(jù)分析 12、情報(bào)數(shù)據(jù)分析 13、金融產(chǎn)品設(shè)計(jì) 14、日常數(shù)據(jù)分析 15、總裁萬(wàn)事通 16、數(shù)據(jù)變化趨勢(shì) 17、預(yù)測(cè)預(yù)警模型 18、運(yùn)營(yíng)數(shù)據(jù)分析 19、商業(yè)機(jī)遇挖掘 20、風(fēng)險(xiǎn)數(shù)據(jù)分析 21、缺陷信息挖掘 22、決策數(shù)據(jù)支持 23、運(yùn)營(yíng)優(yōu)化與成本控制 24、質(zhì)量控制與預(yù)測(cè)預(yù)警 25、系統(tǒng)工程數(shù)學(xué)技術(shù) 26、用戶行為分析/客戶需求模型 27、產(chǎn)品銷售預(yù)測(cè)(熱銷特征) 28、商場(chǎng)整體利潤(rùn)最大化系統(tǒng)設(shè)計(jì) 29、市場(chǎng)數(shù)據(jù)分析 30、綜合數(shù)據(jù)關(guān)聯(lián)系統(tǒng)設(shè)計(jì) 31、行業(yè)/企業(yè)指標(biāo)設(shè)計(jì) 32、企業(yè)發(fā)展關(guān)鍵點(diǎn)分析 33、資金鏈管理設(shè)計(jì)與風(fēng)險(xiǎn)控制 34、用戶需求挖掘 35、產(chǎn)品數(shù)據(jù)分析 36、銷售數(shù)據(jù)分析 37、異常數(shù)據(jù)分析 38、數(shù)學(xué)規(guī)劃與數(shù)學(xué)方案 39、數(shù)據(jù)實(shí)驗(yàn)?zāi)M 40、數(shù)學(xué)建模與分析 41、呼叫中心數(shù)據(jù)分析 42、貿(mào)易/進(jìn)出口數(shù)據(jù)分析 43、海量數(shù)據(jù)分析系統(tǒng)設(shè)計(jì)、關(guān)鍵技術(shù)研究 44、數(shù)據(jù)清洗、分析、建模、調(diào)試、優(yōu)化 45、數(shù)據(jù)挖掘算法的分析研究、建模、實(shí)驗(yàn)?zāi)M 46、組織機(jī)構(gòu)運(yùn)營(yíng)監(jiān)測(cè)、評(píng)估、預(yù)測(cè)預(yù)警 47、經(jīng)濟(jì)數(shù)據(jù)分析、預(yù)測(cè)、預(yù)警 48、金融數(shù)據(jù)分析、預(yù)測(cè)、預(yù)警 49、科研數(shù)學(xué)建模與數(shù)據(jù)分析:社會(huì)科學(xué),自然科學(xué),醫(yī)藥,農(nóng)學(xué),計(jì)算機(jī),工程,信息,軍事,圖書(shū)情報(bào)等 50、數(shù)據(jù)指標(biāo)開(kāi)發(fā)、分析與管理 51、產(chǎn)品數(shù)據(jù)挖掘與分析 52、商業(yè)數(shù)學(xué)與數(shù)據(jù)技術(shù) 53、故障預(yù)測(cè)預(yù)警技術(shù) 54、數(shù)據(jù)自動(dòng)分析技術(shù) 55、泛工具分析 56、互譯 57、指數(shù)化 其中,互譯與指數(shù)化是數(shù)據(jù)挖掘除計(jì)算機(jī)技術(shù)之外最核心的兩大技術(shù)。

    經(jīng)典算法

    編輯 1. C4.5:是機(jī)器學(xué)習(xí)算法中的一種分類決策樹(shù)算法,其核心算法是ID3算法。 2. K-means算法:是一種聚類算法。 3.SVM:一種監(jiān)督式學(xué)習(xí)的方法,廣泛運(yùn)用于統(tǒng)計(jì)分類以及回歸分析中 4.Apriori :是一種最有影響的挖掘布爾關(guān)聯(lián)規(guī)則頻繁項(xiàng)集的算法。 5.EM:最大期望值法。 6.pagerank:是google算法的重要內(nèi)容。 7. Adaboost:是一種迭代算法,其核心思想是針對(duì)同一個(gè)訓(xùn)練集訓(xùn)練不同的分類器然后把弱分類器集合起來(lái),構(gòu)成一個(gè)更強(qiáng)的最終分類器。 8.KNN:是一個(gè)理論上比較成熟的的方法,也是最簡(jiǎn)單的機(jī)器學(xué)習(xí)方法之一。 9.Naive Bayes:在眾多分類方法中,應(yīng)用最廣泛的有決策樹(shù)模型和樸素貝葉斯(Naive Bayes) 10.Cart:分類與回歸樹(shù),在分類樹(shù)下面有兩個(gè)關(guān)鍵的思想,第一個(gè)是關(guān)于遞歸地劃分自變量空間的想法,第二個(gè)是用驗(yàn)證數(shù)據(jù)進(jìn)行減枝。 關(guān)聯(lián)規(guī)則規(guī)則定義 在描述有關(guān)關(guān)聯(lián)規(guī)則的一些細(xì)節(jié)之前,我們先來(lái)看一個(gè)有趣的故事: "尿布與啤酒"的故事。 在一家超市里,有一個(gè)有趣的現(xiàn)象:尿布和啤酒赫然擺在一起出售。但是這個(gè)奇怪的舉措?yún)s使尿布和 數(shù)據(jù)挖掘 啤酒的銷量雙雙增加了。這不是一個(gè)笑話,而是發(fā)生在美國(guó)沃爾瑪連鎖店超市的真實(shí)案例,并一直為商家所津津樂(lè)道。沃爾瑪擁有世界上最大的數(shù)據(jù)倉(cāng)庫(kù)系 統(tǒng),為了能夠準(zhǔn)確了解顧客在其門店的購(gòu)買習(xí)慣,沃爾瑪對(duì)其顧客的購(gòu)物行為進(jìn)行購(gòu)物籃分析,想知道顧客經(jīng)常一起購(gòu)買的商品有哪些。沃爾瑪數(shù)據(jù)倉(cāng)庫(kù)里集中了其 各門店的詳細(xì)原始交易數(shù)據(jù)。在這些原始交易數(shù)據(jù)的基礎(chǔ)上,沃爾瑪利用數(shù)據(jù)挖掘方法對(duì)這些數(shù)據(jù)進(jìn)行分析和挖掘。一個(gè)意外的發(fā)現(xiàn)是:"跟尿布一起購(gòu)買最多的商 品竟是啤酒!經(jīng)過(guò)大量實(shí)際調(diào)查和分析,揭示了一個(gè)隱藏在"尿布與啤酒"背后的美國(guó)人的一種行為模式:在美國(guó),一些年輕的父親下班后經(jīng)常要到超市去買嬰兒尿 布,而他們中有30%~40%的人同時(shí)也為自己買一些啤酒。產(chǎn)生這一現(xiàn)象的原因是:美國(guó)的太太們常叮囑她們的丈夫下班后為小孩買尿布,而丈夫們?cè)谫I尿布后 又隨手帶回了他們喜歡的啤酒。 按常規(guī)思維,尿布與啤酒風(fēng)馬牛不相及,若不是借助數(shù)據(jù)挖掘技術(shù)對(duì)大量交易數(shù)據(jù)進(jìn)行挖掘分析,沃爾瑪是不可能發(fā)現(xiàn)數(shù)據(jù)內(nèi)在這一有價(jià)值的規(guī)律的。 數(shù)據(jù)關(guān)聯(lián)是數(shù)據(jù)庫(kù)中存在的一類重要的可被發(fā)現(xiàn)的知識(shí)。若兩個(gè)或多個(gè)變量的取值之間存在某種規(guī)律性,就稱為關(guān)聯(lián)。關(guān)聯(lián)可分為簡(jiǎn)單關(guān)聯(lián)、時(shí)序關(guān)聯(lián)、因果關(guān)聯(lián)。關(guān)聯(lián)分析的目的是找出數(shù)據(jù)庫(kù)中隱藏的關(guān)聯(lián)網(wǎng)。有時(shí)并不知道數(shù)據(jù)庫(kù)中數(shù)據(jù)的關(guān)聯(lián)函數(shù), 即使知道也是不確定的,因此關(guān)聯(lián)分析生成的規(guī)則帶有可信度。關(guān)聯(lián)規(guī)則挖掘發(fā)現(xiàn)大量數(shù)據(jù)中項(xiàng)集之間有趣的關(guān)聯(lián)或相關(guān)聯(lián)系。Agrawal等于1993年首先 提出了挖掘顧客交易數(shù)據(jù)庫(kù)中項(xiàng)集間的關(guān)聯(lián)規(guī)則問(wèn)題,以后諸多的研究人員對(duì)關(guān)聯(lián)規(guī)則的挖掘問(wèn)題進(jìn)行了大量的研究。他們的工作包括對(duì)原有的算法進(jìn)行優(yōu)化,如引入隨機(jī)采樣、并行的思想等,以提高算法挖掘規(guī)則的效率;對(duì)關(guān)聯(lián)規(guī)則的應(yīng)用進(jìn)行推廣。關(guān)聯(lián)規(guī)則挖掘在數(shù)據(jù)挖掘中是一個(gè)重要的課題,最近幾年已被業(yè)界所廣泛研究。

    過(guò)程

    編輯 關(guān)聯(lián)規(guī)則挖掘過(guò)程主要包含兩個(gè)階段:第一階段必須先從資料集合中找出所有的高頻項(xiàng)目組(Frequent 數(shù)據(jù)挖掘 Itemsets),第二階段再由這些高頻項(xiàng)目組中產(chǎn)生關(guān)聯(lián)規(guī)則(Association Rules)。 關(guān)聯(lián)規(guī)則挖掘的第一階段必須從原始資料集合中,找出所有高頻項(xiàng)目組(Large Itemsets)。高頻的意思是指某一項(xiàng)目組出現(xiàn)的頻率相對(duì)于所有記錄而言,必須達(dá)到某一水平。一項(xiàng)目組出現(xiàn)的頻率稱為支持度(Support),以一個(gè)包含A與B兩個(gè)項(xiàng)目的2-itemset為例,我們可以經(jīng)由公式(1) 求得包含{A,B}項(xiàng)目組的支持度,若支持度大于等于所設(shè)定的最小支持度(Minimum Support)門檻值時(shí),則{A,B}稱為高頻項(xiàng)目組。一個(gè)滿足最小支持度的k-itemset,則稱為高頻k-項(xiàng)目組(Frequent k-itemset),一般表示為L(zhǎng)arge k或Frequent k。算法并從Large k的項(xiàng)目組中再產(chǎn)生Large k+1,直到無(wú)法再找到更長(zhǎng)的高頻項(xiàng)目組為止。 關(guān)聯(lián)規(guī)則挖掘的第二階段是要產(chǎn)生關(guān)聯(lián)規(guī)則(Association Rules)。從高頻項(xiàng)目組產(chǎn)生關(guān)聯(lián)規(guī)則,是利用前一步驟的高頻k-項(xiàng)目組來(lái)產(chǎn)生規(guī)則,在最小信賴度(Minimum Confidence)的條件門檻下,若一規(guī)則所求得的信賴度滿足最小信賴度,稱此規(guī)則為關(guān)聯(lián)規(guī)則。例如:經(jīng)由高頻k-項(xiàng)目組{A,B}所產(chǎn)生的規(guī)則 AB,其信賴度可經(jīng)由公式(2)求得,若信賴度大于等于最小信賴度,則稱AB為關(guān)聯(lián)規(guī)則。 就沃爾瑪案例而言,使用關(guān)聯(lián)規(guī)則挖掘技術(shù),對(duì)交易資料庫(kù)中的紀(jì)錄進(jìn)行資料挖掘,首先必須要設(shè)定最小支持度與最小信賴度兩個(gè)門檻值,在此假設(shè)最小支持度min_support=5% 且最小信賴度min_confidence=70%。因此符合此該超市需求的 關(guān)聯(lián)規(guī)則將必須同時(shí)滿足以上兩個(gè)條件。若經(jīng)過(guò)挖掘過(guò)程所找到的關(guān)聯(lián)規(guī)則「尿布,啤酒」,滿足下列條件,將可接受「尿布,啤酒」的關(guān)聯(lián)規(guī)則。用公式可以描述 Support(尿布,啤酒)>=5%且Confidence(尿布,啤酒)>=70%。其中,Support(尿布,啤酒)>=5% 于此應(yīng)用范例中的意義為:在所有的交易紀(jì)錄資料中,至少有5%的交易呈現(xiàn)尿布與啤酒這兩項(xiàng)商品被同時(shí)購(gòu)買的交易行為。Confidence(尿布,啤 酒)>=70%于此應(yīng)用范例中的意義為:在所有包含尿布的交易紀(jì)錄資料中,至少有70%的交易會(huì)同時(shí)購(gòu)買啤酒。因此,今后若有某消費(fèi)者出現(xiàn)購(gòu)買尿布 的行為,超市將可推薦該消費(fèi)者同時(shí)購(gòu)買啤酒。這個(gè)商品推薦的行為則是根據(jù)「尿布,啤酒」關(guān)聯(lián)規(guī)則,因?yàn)榫驮摮羞^(guò)去的交易紀(jì)錄而言,支持了“大部份購(gòu)買尿 布的交易,會(huì)同時(shí)購(gòu)買啤酒”的消費(fèi)行為。 從上面的介紹還可以看出,關(guān)聯(lián)規(guī)則挖掘通常比較適用與記錄中的指標(biāo)取離散值的情況。如果原始數(shù)據(jù)庫(kù)中的指標(biāo)值是取連續(xù)的數(shù)據(jù),則在關(guān)聯(lián)規(guī)則挖掘之前應(yīng)該進(jìn)行適當(dāng)?shù)臄?shù)據(jù)離散化(實(shí)際上就是將某個(gè)區(qū)間的值對(duì)應(yīng)于某個(gè)值),數(shù)據(jù)的離散化是數(shù)據(jù)挖掘前的重要環(huán)節(jié),離散化的過(guò)程是否合理將直接影響關(guān)聯(lián)規(guī)則的挖掘結(jié)果。 分類 按照不同情況,關(guān)聯(lián)規(guī)則可以進(jìn)行分類如下: 1.基于規(guī)則中處理的變量的類別,關(guān)聯(lián)規(guī)則可以分為布爾型和數(shù)值型。 布爾型關(guān)聯(lián)規(guī)則處理的值都是離散的、種類化的,它顯示了這些變量之間的關(guān)系;而數(shù)值型關(guān)聯(lián)規(guī)則可以和多維關(guān)聯(lián)或多層關(guān)聯(lián)規(guī)則結(jié)合起來(lái),對(duì)數(shù)值型字段進(jìn)行處理,將其進(jìn)行動(dòng)態(tài)的分割,或者直接對(duì)原始的數(shù)據(jù)進(jìn)行處理,當(dāng)然數(shù)值型關(guān)聯(lián)規(guī)則中也可以包含種類變量。例如:性別=“女”=>職業(yè)=“秘書(shū)” ,是布爾型關(guān)聯(lián)規(guī)則;性別=“女”=>avg(收入)=2300,涉及的收入是數(shù)值類型,所以是一個(gè)數(shù)值型關(guān)聯(lián)規(guī)則。 2.基于規(guī)則中數(shù)據(jù)的抽象層次,可以分為單層關(guān)聯(lián)規(guī)則和多層關(guān)聯(lián)規(guī)則。 在單層的關(guān)聯(lián)規(guī)則中,所有的變量都沒(méi)有考慮到現(xiàn)實(shí)的數(shù)據(jù)是具有多個(gè)不同的層次的;而在多層的關(guān) 數(shù)據(jù)挖掘 聯(lián)規(guī)則中,對(duì)數(shù)據(jù)的多層性已經(jīng)進(jìn)行了充分的考慮。例如:IBM臺(tái)式機(jī)=>Sony打印機(jī),是一個(gè)細(xì)節(jié)數(shù)據(jù)上的單層關(guān)聯(lián)規(guī)則;臺(tái)式機(jī)=>Sony打印機(jī),是一個(gè)較高層次和細(xì)節(jié)層次之間的多層關(guān)聯(lián)規(guī)則。 3.基于規(guī)則中涉及到的數(shù)據(jù)的維數(shù),關(guān)聯(lián)規(guī)則可以分為單維的和多維的。 在單維的關(guān)聯(lián)規(guī)則中,我們只涉及到數(shù)據(jù)的一個(gè)維,如用戶購(gòu)買的物品;而在 多維的關(guān)聯(lián)規(guī)則中,要處理的數(shù)據(jù)將會(huì)涉及多個(gè)維。換成另一句話,單維關(guān)聯(lián)規(guī)則是處理單個(gè)屬性中的一些關(guān)系;多維關(guān)聯(lián)規(guī)則是處理各個(gè)屬性之間的某些關(guān)系。例 如:啤酒=>尿布,這條規(guī)則只涉及到用戶的購(gòu)買的物品;性別=“女”=>職業(yè)=“秘書(shū)”,這條規(guī)則就涉及到兩個(gè)字段的信息,是兩個(gè)維上的一條關(guān)聯(lián)規(guī)則。

    算法

    1.Apriori算法:使用候選項(xiàng)集找頻繁項(xiàng)集 Apriori算法是一種最有影響的挖掘布爾關(guān)聯(lián)規(guī)則頻繁項(xiàng)集的算法。其核心是基于兩階段頻集思想的遞推算法。該關(guān)聯(lián)規(guī)則在分類上屬于單維、單層、布爾關(guān)聯(lián)規(guī)則。在這里,所有支持度大于最小支持度的項(xiàng)集稱為頻繁項(xiàng)集,簡(jiǎn)稱頻集。 該算法的基本思想是:首先找出所有的頻集,這些項(xiàng)集出現(xiàn)的頻繁性至少和預(yù) 定義的最小支持度一樣。然后由頻集產(chǎn)生強(qiáng)關(guān)聯(lián)規(guī)則,這些規(guī)則必須滿足最小支持度和最小可信度。然后使用第1步找到的頻集產(chǎn)生期望的規(guī)則,產(chǎn)生只包含集合的 項(xiàng)的所有規(guī)則,其中每一條規(guī)則的右部只有一項(xiàng),這里采用的是中規(guī)則的定義。一旦這些規(guī)則被生成,那么只有那些大于用戶給定的最小可信度的規(guī)則才被留下來(lái)。 為了生成所有頻集,使用了遞推的方法。 可能產(chǎn)生大量的候選集,以及可能需要重復(fù)掃描數(shù)據(jù)庫(kù),是Apriori算法的兩大缺點(diǎn)。 2.基于劃分的算法 Savasere等設(shè)計(jì)了一個(gè)基于劃分的算法。這個(gè)算法先 把數(shù)據(jù)庫(kù)從邏輯上分成幾個(gè)互不相交的塊,每次單獨(dú)考慮一個(gè)分塊并對(duì)它生成所有的頻集,然后把產(chǎn)生的頻集合并,用來(lái)生成所有可能的頻集,最后計(jì)算這些項(xiàng)集的 支持度。這里分塊的大小選擇要使得每個(gè)分塊可以被放入主存,每個(gè)階段只需被掃描一次。而算法的正確性是由每一個(gè)可能的頻集至少在某一個(gè)分塊中是頻集保證 的。該算法是可以高度并行的,可以把每一分塊分別分配給某一個(gè)處理器生成頻集。產(chǎn)生頻集的每一個(gè)循環(huán)結(jié)束后,處理器之間進(jìn)行通信來(lái)產(chǎn)生全局的候選k-項(xiàng) 集。通常這里的通信過(guò)程是算法執(zhí)行時(shí)間的主要瓶頸;而另一方面,每個(gè)獨(dú)立的處理器生成頻集的時(shí)間也是一個(gè)瓶頸。 3.FP-樹(shù)頻集算法 針對(duì)Apriori算法的固有缺陷,J. Han等提出了不產(chǎn)生候選挖掘頻繁項(xiàng)集的方法:FP-樹(shù)頻集算法。采用分而治之的策略,在經(jīng)過(guò)第一遍掃描之后,把數(shù)據(jù)庫(kù)中的頻集壓縮進(jìn)一棵頻繁模式樹(shù)(FP-tree),同時(shí)依然保留其中的關(guān)聯(lián)信息,隨后再將FP-tree分化成一些條件庫(kù),每個(gè)庫(kù)和一個(gè)長(zhǎng)度為1的頻集相關(guān),然后再對(duì)這些條件庫(kù)分別進(jìn)行挖掘。當(dāng)原始數(shù)據(jù)量很大的時(shí)候,也可以結(jié)合劃分的方法,使得一個(gè)FP-tree可以放入主存中。實(shí)驗(yàn)表明,FP-growth對(duì)不同長(zhǎng)度的規(guī)則都有很好的適應(yīng)性,同時(shí)在效率上較之Apriori算法有巨大的提高。

    應(yīng)用

    就目前而言,關(guān)聯(lián)規(guī)則挖掘技術(shù)已經(jīng)被廣泛應(yīng)用在西方金融行業(yè)企業(yè)中,它可 以成功預(yù)測(cè)銀行客戶需求。一旦獲得了這些信息,銀行就可以改善自身營(yíng)銷。現(xiàn)在銀行天天都在開(kāi)發(fā)新的溝通客戶的方法。各銀行在自己的ATM機(jī)上就捆綁了顧客 可能感興趣的本行產(chǎn)品信息,供使用本行ATM機(jī)的用戶了解。如果數(shù)據(jù)庫(kù)中顯示,某個(gè)高信用限額的客戶更換了地址,這個(gè)客戶很有可能新近購(gòu)買了一棟更大的住 宅,因此會(huì)有可能需要更高信用限額,更高端的新信用卡,或者需要一個(gè)住房改善貸款,這些產(chǎn)品都可以通過(guò)信用卡賬單郵寄給客戶。當(dāng)客戶打電話咨詢的時(shí)候,數(shù) 據(jù)庫(kù)可以有力地幫助電話銷售代表。銷售代表的電腦屏幕上可以顯示出客戶的特點(diǎn),同時(shí)也可以顯示出顧客會(huì)對(duì)什么產(chǎn)品感興趣。 同時(shí),一些知名的電子商務(wù)站點(diǎn)也從強(qiáng)大的關(guān)聯(lián)規(guī)則挖掘中的受益。這些電子購(gòu)物網(wǎng)站使用關(guān)聯(lián)規(guī)則中規(guī)則進(jìn)行挖掘,然后設(shè)置用戶有意要一起購(gòu)買的捆綁包。也有一些購(gòu)物網(wǎng)站使用它們?cè)O(shè)置相應(yīng)的交叉銷售,也就是購(gòu)買某種商品的顧客會(huì)看到相關(guān)的另外一種商品的廣告。 但是目前在我國(guó),“數(shù)據(jù)海量,信息缺乏”是商業(yè)銀行在數(shù)據(jù)大集中之后普遍所面對(duì)的尷尬。目前金融業(yè)實(shí)施的大多數(shù)數(shù)據(jù)庫(kù)只能實(shí)現(xiàn)數(shù)據(jù)的錄入、查詢、統(tǒng)計(jì)等較低層次的功能,卻無(wú)法發(fā)現(xiàn)數(shù)據(jù)中存在的各種有用的信息,譬如對(duì)這些數(shù)據(jù)進(jìn)行分析,發(fā)現(xiàn)其數(shù)據(jù)模式及特征,然后可能發(fā)現(xiàn)某個(gè)客戶、消費(fèi)群體或組織的金融和商業(yè)興趣,并可觀察金融市場(chǎng)的變化趨勢(shì)。可以說(shuō),關(guān)聯(lián)規(guī)則挖掘的技術(shù)在我國(guó)的研究與應(yīng)用并不是很廣泛深入。 近年來(lái),電信業(yè)從單純的語(yǔ)音服務(wù)演變?yōu)樘峁┒喾N服務(wù)的綜合信息服務(wù)商。隨 著網(wǎng)絡(luò)技術(shù)和電信業(yè)務(wù)的發(fā)展,電信市場(chǎng)競(jìng)爭(zhēng)也日趨激烈,電信業(yè)務(wù)的發(fā)展提出了對(duì)數(shù)據(jù)挖掘技術(shù)的迫切需求,以便幫助理解商業(yè)行為,識(shí)別電信模式,捕捉盜用行 為,更好地利用資源,提高服務(wù)質(zhì)量并增強(qiáng)自身的競(jìng)爭(zhēng)力。下面運(yùn)用一些簡(jiǎn)單的實(shí)例說(shuō)明如何在電信行業(yè)使用數(shù)據(jù)挖掘技術(shù)。可以使用上面提到的K 均值、EM 等聚類算法,針對(duì)運(yùn)營(yíng)商積累的大量用戶消費(fèi)數(shù)據(jù)建立客戶分群模型,通過(guò)客戶分群模型對(duì)客戶進(jìn)行細(xì)分,找出有相同特征的目標(biāo)客戶群,然后有針對(duì)性地進(jìn)行營(yíng) 銷。而且,聚類算法也可以實(shí)現(xiàn)離群點(diǎn)檢測(cè),即在對(duì)用戶消費(fèi)數(shù)據(jù)進(jìn)行聚類的過(guò)程中,發(fā)現(xiàn)一些用戶的異常消費(fèi)行為,據(jù)此判斷這些用戶是否存在欺詐行為,決定是 否采取防范措施。可以使用上面提到的C4.5、SVM 和貝葉斯等分類算法,針對(duì)用戶的行為數(shù)據(jù),對(duì)用戶進(jìn)行信用等級(jí)評(píng)定,對(duì)于信用等級(jí)好的客戶可以給予某些優(yōu)惠服務(wù)等,對(duì)于信用等級(jí)差的用戶不能享受促銷等優(yōu) 惠。可以使用預(yù)測(cè)相關(guān)的算法,對(duì)電信客戶的網(wǎng)絡(luò)使用和客戶投訴數(shù)據(jù)進(jìn)行建模,建立預(yù)測(cè)模型,預(yù)測(cè)大客戶離網(wǎng)風(fēng)險(xiǎn),采取激勵(lì)和挽留措施防止客戶流失。可以使 用相關(guān)分析找出選擇了多個(gè)套餐的客戶在套餐組合中的潛在規(guī)律,哪些套餐容易被客戶同時(shí)選取,例如,選擇了流量套餐的客戶中大部分選擇了彩鈴業(yè)務(wù),然后基于 相關(guān)性的法則,對(duì)選擇流量但是沒(méi)有選擇彩鈴的客戶進(jìn)行交叉營(yíng)銷,向他們推銷彩鈴業(yè)務(wù)。

    研究

    由于許多應(yīng)用問(wèn)題往往比超市購(gòu)買問(wèn)題更復(fù)雜,大量研究從不同的角度對(duì)關(guān)聯(lián) 規(guī)則做了擴(kuò)展,將更多的因素集成到關(guān)聯(lián)規(guī)則挖掘方法之中,以此豐富關(guān)聯(lián)規(guī)則的應(yīng)用領(lǐng)域,拓寬支持管理決策的范圍。如考慮屬性之間的類別層次關(guān)系,時(shí)態(tài)關(guān) 系,多表挖掘等。近年來(lái)圍繞關(guān)聯(lián)規(guī)則的研究主要集中于兩個(gè)方面,即擴(kuò)展經(jīng)典關(guān)聯(lián)規(guī)則能夠解決問(wèn)題的范圍,改善經(jīng)典關(guān)聯(lián)規(guī)則挖掘算法效率和規(guī)則興趣性。 類似區(qū)別 一個(gè)經(jīng)常問(wèn)的問(wèn)題是,數(shù)據(jù)挖掘和OLAP到底有何不同。下面將會(huì)解釋,他們是完全不同的工具,基于的技術(shù)也大相徑庭。 OLAP是決策支持領(lǐng)域的一部分。傳統(tǒng)的查詢和報(bào)表工具是告訴你數(shù)據(jù)庫(kù)中 都有什么(what happened),OLAP則更進(jìn)一步告訴你下一步會(huì)怎么樣(What next)、和如果我采取這樣的措施又會(huì)怎么樣(What if)。用戶首先建立一個(gè)假設(shè),然后用OLAP檢索數(shù)據(jù)庫(kù)來(lái)驗(yàn)證這個(gè)假設(shè)是否正確。比如,一個(gè)分析師想找到什么原因?qū)е铝速J款拖欠,他可能先做一個(gè)初始的 假定,認(rèn)為低收入的人信用度也低,然后用OLAP來(lái)驗(yàn)證他這個(gè)假設(shè)。如果這個(gè)假設(shè)沒(méi)有被證實(shí),他可能去察看那些高負(fù)債的賬戶,如果還不行,他也許要把收入 和負(fù)債一起考慮,一直進(jìn)行下去,直到找到他想要的結(jié)果或放棄。 也就是說(shuō),OLAP分析師是建立一系列的假設(shè),然后通過(guò)OLAP來(lái)證實(shí)或推翻這些假設(shè)來(lái)最終得到自己的結(jié)論。OLAP分析過(guò)程在本質(zhì)上是一個(gè)演繹推理的過(guò)程。但是如果分析的變量達(dá)到幾十或上百個(gè),那么再用OLAP手動(dòng)分析驗(yàn)證這些假設(shè)將是一件非常困難和痛苦的事情。 數(shù)據(jù)挖掘與OLAP不同的地方是,數(shù)據(jù)挖掘不是用于驗(yàn)證某個(gè)假定的模式 (模型)的正確性,而是在數(shù)據(jù)庫(kù)中自己尋找模型。他在本質(zhì)上是一個(gè)歸納的過(guò)程。比如,一個(gè)用數(shù)據(jù)挖掘工具的分析師想找到引起貸款拖欠的風(fēng)險(xiǎn)因素。數(shù)據(jù)挖掘 工具可能幫他找到高負(fù)債和低收入是引起這個(gè)問(wèn)題的因素,甚至還可能發(fā)現(xiàn)一些分析師從來(lái)沒(méi)有想過(guò)或試過(guò)的其他因素,比如年齡。 數(shù)據(jù)挖掘和OLAP具有一定的互補(bǔ)性。在利用數(shù)據(jù)挖掘出來(lái)的結(jié)論采取行動(dòng)之前,你也許要驗(yàn)證一下如果采取這樣的行動(dòng)會(huì)給公司帶來(lái)什么樣的影響,那么OLAP工具能回答你的這些問(wèn)題。 而且在知識(shí)發(fā)現(xiàn)的早期階段,OLAP工具還有其他一些用途。可以幫你探索數(shù)據(jù),找到哪些是對(duì)一個(gè)問(wèn)題比較重要的變量,發(fā)現(xiàn)異常數(shù)據(jù)和互相影響的變量。這都能幫你更好的理解你的數(shù)據(jù),加快知識(shí)發(fā)現(xiàn)的過(guò)程。 相關(guān)技術(shù) 數(shù)據(jù)挖掘利用了人工智能(AI)和統(tǒng)計(jì)分析的進(jìn)步所帶來(lái)的好處。這兩門學(xué)科都致力于模式發(fā)現(xiàn)和預(yù)測(cè)。 數(shù)據(jù)挖掘不是為了替代傳統(tǒng)的統(tǒng)計(jì)分析技術(shù)。相反,他是統(tǒng)計(jì)分析方法學(xué)的延 伸和擴(kuò)展。大多數(shù)的統(tǒng)計(jì)分析技術(shù)都基于完善的數(shù)學(xué)理論和高超的技巧,預(yù)測(cè)的準(zhǔn)確度還是令人滿意的,但對(duì)使用者的要求很高。而隨著計(jì)算機(jī)計(jì)算能力的不斷增 強(qiáng),我們有可能利用計(jì)算機(jī)強(qiáng)大的計(jì)算能力只通過(guò)相對(duì)簡(jiǎn)單和固定的方法完成同樣的功能。 一些新興的技術(shù)同樣在知識(shí)發(fā)現(xiàn)領(lǐng)域取得了很好的效果,如神經(jīng)元網(wǎng)絡(luò)和決策樹(shù),在足夠多的數(shù)據(jù)和計(jì)算能力下,他們幾乎不用人的關(guān)照自動(dòng)就能完成許多有價(jià)值的功能。 數(shù)據(jù)挖掘就是利用了統(tǒng)計(jì)和人工智能技術(shù)的應(yīng)用程序,他把這些高深復(fù)雜的技術(shù)封裝起來(lái),使人們不用自己掌握這些技術(shù)也能完成同樣的功能,并且更專注于自己所要解決的問(wèn)題。 相關(guān)影響 使數(shù)據(jù)挖掘這件事情成為可能的關(guān)鍵一點(diǎn)是計(jì)算機(jī)性能價(jià)格比的巨大進(jìn)步。在 過(guò)去的幾年里磁盤存儲(chǔ)器的價(jià)格幾乎降低了99%,這在很大程度上改變了企業(yè)界對(duì)數(shù)據(jù)收集和存儲(chǔ)的態(tài)度。如果每兆的價(jià)格是¥10,那存放1TB的價(jià)格是 ¥10,000,000,但當(dāng)每兆的價(jià)格降為1毛錢時(shí),存儲(chǔ)同樣的數(shù)據(jù)只有¥100,000! 計(jì)算機(jī)計(jì)算能力價(jià)格的降低同樣非常顯著。每一代芯片的誕生都會(huì)把CPU的計(jì)算能力提高一大步。內(nèi)存RAM也同樣降價(jià)迅速,幾年之內(nèi)每兆內(nèi)存的價(jià)格由幾百塊錢降到現(xiàn)在只要幾塊錢。通常PC都有64M內(nèi)存,工作站達(dá)到了256M,擁有上G內(nèi)存的服務(wù)器已經(jīng)不是什么新鮮事了。 在單個(gè)CPU計(jì)算能力大幅提升的同時(shí),基于多個(gè)CPU的并行系統(tǒng)也取得了很大的進(jìn)步。目前幾乎所有的服務(wù)器都支持多個(gè)CPU,這些SMP服務(wù)器簇甚至能讓成百上千個(gè)CPU同時(shí)工作。 基于并行系統(tǒng)的數(shù)據(jù)庫(kù)管理系統(tǒng)也給數(shù)據(jù)挖掘技術(shù)的應(yīng)用帶來(lái)了便利。如果你有一個(gè)龐大而復(fù)雜的數(shù)據(jù)挖掘問(wèn)題要求通過(guò)訪問(wèn)數(shù)據(jù)庫(kù)取得數(shù)據(jù),那么效率最高的辦法就是利用一個(gè)本地的并行數(shù)據(jù)庫(kù)。 所有這些都為數(shù)據(jù)挖掘的實(shí)施掃清了道路,隨著時(shí)間的延續(xù),我們相信這條道路會(huì)越來(lái)越平坦。 相關(guān)問(wèn)題 NO.1 Data Mining 和統(tǒng)計(jì)分析有什么不同? 硬要去區(qū)分Data Mining和Statistics的差異其實(shí)是沒(méi)有太大意義的。一般將之定義為Data Mining技術(shù)的CART、CHAID或模糊計(jì)算等 等理論方法,也都是由統(tǒng)計(jì)學(xué)者根據(jù)統(tǒng)計(jì)理論所發(fā)展衍生,換另一個(gè)角度看,Data Mining有相當(dāng)大的比重是由高等統(tǒng)計(jì)學(xué)中的多變量分析所支撐。但是為什么Data Mining的出現(xiàn)會(huì)引發(fā)各領(lǐng)域的廣泛注意呢?主要原因在相較于傳統(tǒng)統(tǒng)計(jì)分析而言,Data Mining有下列幾項(xiàng)特性: 1.處理大量實(shí)際數(shù)據(jù)更強(qiáng)勢(shì),且無(wú)須太專業(yè)的統(tǒng)計(jì)背景去使用Data Mining的工具; 2.數(shù)據(jù)分析趨勢(shì)為從大型數(shù)據(jù)庫(kù)抓取所需數(shù)據(jù)并使用專屬計(jì)算機(jī)分析軟件,Data Mining的工具更符合企業(yè)需求; 3. 純就理論的基礎(chǔ)點(diǎn)來(lái)看,Data Mining和統(tǒng)計(jì)分析有應(yīng)用上的差別,畢竟Data Mining目的是方便企業(yè)終端用戶使用而非給統(tǒng)計(jì)學(xué)家檢測(cè)用的。 NO.2 數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘的關(guān)系為何? 若將Data Warehousing(數(shù)據(jù)倉(cāng)庫(kù))比喻作礦坑,Data Mining就是深入礦坑采 礦的工作。畢竟Data Mining不是一種無(wú)中生有的魔術(shù),也不是點(diǎn)石成金的煉金術(shù),若沒(méi)有夠豐富完整的數(shù)據(jù),是很難期待Data Mining能挖掘出什么有意義的信息的。 要將龐大的數(shù)據(jù)轉(zhuǎn)換成為有用的信息,必須先有效率地收集信息。隨著科技的 進(jìn)步,功能完善的數(shù)據(jù)庫(kù)系統(tǒng)就成了最好的收集數(shù)據(jù)的工具。數(shù)據(jù)倉(cāng)庫(kù),簡(jiǎn)單地說(shuō),就是搜集來(lái)自其它系統(tǒng)的有用數(shù)據(jù),存放在一整合的儲(chǔ)存區(qū)內(nèi)。所以其實(shí)就是一 個(gè)經(jīng)過(guò)處理整合,且容量特別大的關(guān)系型數(shù)據(jù)庫(kù),用以儲(chǔ)存決策支持系統(tǒng)(Decision Support System)所需的數(shù)據(jù),供決策支持或數(shù)據(jù)分析使用。從信息技術(shù)的角度來(lái)看,數(shù)據(jù)倉(cāng)庫(kù)的目標(biāo)是在組織中,在正確的時(shí)間,將正確的數(shù)據(jù)交給正確的人。 許多人對(duì)于Data Warehousing和Data Mining時(shí)常混淆,不知如何分辨。其實(shí),數(shù)據(jù)倉(cāng)庫(kù)是數(shù)據(jù)庫(kù)技術(shù)的一個(gè)新主題,利用計(jì)算機(jī)系統(tǒng)幫助我們操作、計(jì)算和思考,讓作業(yè)方式改變,決策方式也跟著改變。 數(shù)據(jù)倉(cāng)庫(kù)本身是一個(gè)非常大的數(shù)據(jù)庫(kù),它儲(chǔ)存著由組織作業(yè)數(shù)據(jù)庫(kù)中整合而來(lái)的數(shù)據(jù),特別是指事務(wù)處理系統(tǒng)OLTP(On-Line Transactional Processing)所得來(lái)的數(shù)據(jù)。將這些整合過(guò)的數(shù)據(jù)置放于數(shù)據(jù)倉(cāng)庫(kù)中,而公司的決策者則利用這些數(shù)據(jù)作決策;但是,這個(gè)轉(zhuǎn)換及整合數(shù)據(jù)的過(guò)程,是建立一個(gè)數(shù)據(jù)倉(cāng)庫(kù)最大的挑戰(zhàn)。因?yàn)閷⒆鳂I(yè)中的數(shù)據(jù)轉(zhuǎn)換成 有用的的策略性信息是整個(gè)數(shù)據(jù)倉(cāng)庫(kù)的重點(diǎn)。綜上所述,數(shù)據(jù)倉(cāng)庫(kù)應(yīng)該具有這些數(shù)據(jù):整合性數(shù)據(jù)(integrated data)、詳細(xì)和匯總性的數(shù)據(jù)(detailed and summarized data)、歷史數(shù)據(jù)、解釋數(shù)據(jù)的數(shù)據(jù)。從數(shù)據(jù)倉(cāng)庫(kù)挖掘出對(duì)決策有用的信息與知識(shí),是建立數(shù)據(jù)倉(cāng)庫(kù)與使用Data Mining的最大目的,兩者的本質(zhì)與過(guò)程是兩回事。換句話說(shuō),數(shù)據(jù)倉(cāng)庫(kù)應(yīng)先行建立完成,Data mining才能有效率的進(jìn)行,因?yàn)閿?shù)據(jù)倉(cāng)庫(kù)本身所含數(shù)據(jù)是干凈(不會(huì)有錯(cuò)誤的數(shù)據(jù)參雜其中)、完備,且經(jīng)過(guò)整合的。因此兩者關(guān)系或許可解讀為Data Mining是從巨大數(shù)據(jù)倉(cāng)庫(kù)中找出有用信息的一種過(guò)程與技術(shù)。 大部分情況下,數(shù)據(jù)挖掘都要先把數(shù)據(jù)從數(shù)據(jù)倉(cāng)庫(kù)中拿到數(shù)據(jù)挖掘庫(kù)或數(shù)據(jù)集市中(見(jiàn)圖1)。 從數(shù)據(jù)倉(cāng)庫(kù)中直接得到進(jìn)行數(shù)據(jù)挖掘的數(shù)據(jù)有許多好處。就如我們后面會(huì)講到的,數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)清理和數(shù)據(jù)挖掘的數(shù)據(jù)清理差不多,如果數(shù)據(jù)在導(dǎo)入數(shù)據(jù)倉(cāng)庫(kù)時(shí)已經(jīng)清理過(guò),那很可能在做數(shù)據(jù)挖掘時(shí)就沒(méi)必要在清理一次了,而且所有的數(shù)據(jù)不一致的問(wèn)題都已經(jīng)被你解決了。 數(shù)據(jù)挖掘庫(kù)可能是你的數(shù)據(jù)倉(cāng)庫(kù)的一個(gè)邏輯上的子集,而不一定非得是物理上單獨(dú)的數(shù)據(jù)庫(kù)。但如果你的數(shù)據(jù)倉(cāng)庫(kù)的計(jì)算資源已經(jīng)很緊張,那你最好還是建立一個(gè)單獨(dú)的數(shù)據(jù)挖掘庫(kù)。 當(dāng)然為了數(shù)據(jù)挖掘你也不必非得建立一個(gè)數(shù)據(jù)倉(cāng)庫(kù),數(shù)據(jù)倉(cāng)庫(kù)不是必需的。建 立一個(gè)巨大的數(shù)據(jù)倉(cāng)庫(kù),把各個(gè)不同源的數(shù)據(jù)統(tǒng)一在一起,解決所有的數(shù)據(jù)沖突問(wèn)題,然后把所有的數(shù)據(jù)導(dǎo)到一個(gè)數(shù)據(jù)倉(cāng)庫(kù)內(nèi),是一項(xiàng)巨大的工程,可能要用幾年的 時(shí)間花上百萬(wàn)的錢才能完成。只是為了數(shù)據(jù)挖掘,你可以把一個(gè)或幾個(gè)事務(wù)數(shù)據(jù)庫(kù)導(dǎo)到一個(gè)只讀的數(shù)據(jù)庫(kù)中,就把它當(dāng)作數(shù)據(jù)集市,然后在他上面進(jìn)行數(shù)據(jù)挖掘。 NO.3 OLAP 能不能代替 Data Mining? 所謂OLAP(Online Analytical Process)意指由數(shù)據(jù)庫(kù)所連結(jié)出來(lái)的在線分析處理程序。有些人會(huì)說(shuō):「我已經(jīng)有OLAP的工具了,所以我不需要Data Mining。」事實(shí)上兩者間是截然不同的,主要差異在于Data Mining用在產(chǎn)生假設(shè),OLAP則用于查證假設(shè)。簡(jiǎn)單來(lái)說(shuō),OLAP是由使用者所主導(dǎo),使用者先有一些假設(shè),然后利用OLAP來(lái)查證假設(shè)是否成立;而 Data Mining則是用來(lái)幫助使用者產(chǎn)生假設(shè)。所以在使用OLAP或其它Query的工具時(shí),使用者是自己在做探索(Exploration),但Data Mining是用工具在幫助做探索。 舉個(gè)例子來(lái)看,一市場(chǎng)分析師在為超市規(guī)劃貨品架柜擺設(shè)時(shí),可能會(huì)先假設(shè)嬰兒尿布和嬰兒奶粉會(huì)是常被一起購(gòu)買的產(chǎn)品,接著便可利用OLAP的工具去驗(yàn)證此假設(shè)是否為真,又成立的證據(jù)有多明顯;但Data Mining則不然,執(zhí)行Data Mining的人將龐大的結(jié)帳數(shù)據(jù)整理后,并不需要假設(shè)或期待可能的結(jié)果,透過(guò)Mining技術(shù)可找出存在于數(shù)據(jù)中的潛在規(guī)則,于是我們可能得到例如尿布和啤酒常被同時(shí)購(gòu)買的意料外之發(fā)現(xiàn),這是OLAP所做不到的。 Data Mining常能挖掘出超越歸納范圍的關(guān)系,但OLAP僅能利用人工查詢及可視化的報(bào)表來(lái)確認(rèn)某些關(guān)系,是以Data Mining此種自動(dòng)找出甚至不會(huì)被懷疑過(guò)的數(shù)據(jù)模型與關(guān)系的特性,事實(shí)上已超越了我們經(jīng)驗(yàn)、教育、想象力的限制,OLAP可以和Data Mining互補(bǔ),但這項(xiàng)特性是Data Mining無(wú)法被OLAP取代的。 NO.4 完整的Data Mining 包含哪些步驟? 1、數(shù)據(jù)挖掘環(huán)境 數(shù)據(jù)挖掘是指一個(gè)完整的過(guò)程,該過(guò)程從大型數(shù)據(jù)庫(kù)中挖掘先前未知的,有效的,可實(shí)用的信息,并使用這些信息做出決策或豐富知識(shí).  數(shù)據(jù)挖掘環(huán)境可示意如下圖: 數(shù)據(jù)挖掘環(huán)境框圖.gif 2、數(shù)據(jù)挖掘過(guò)程圖 下圖描述了數(shù)據(jù)挖掘的基本過(guò)程和主要步驟 數(shù)據(jù)挖掘的基本過(guò)程和主要步驟 3、數(shù)據(jù)挖掘過(guò)程工作量 在數(shù)據(jù)挖掘中被研究的業(yè)務(wù)對(duì)象是整個(gè)過(guò)程的基礎(chǔ),它驅(qū)動(dòng)了整個(gè)數(shù)據(jù)挖掘過(guò) 程,也是檢驗(yàn)最后結(jié)果和指引分析人員完成數(shù)據(jù)挖掘的依據(jù)和顧問(wèn).圖2各步驟是按一定順序完成的,當(dāng)然整個(gè)過(guò)程中還會(huì)存在步驟間的反饋.數(shù)據(jù)挖掘的過(guò)程并不 是自動(dòng)的,絕大多數(shù)的工作需要人工完成.圖3給出了各步驟在整個(gè)過(guò)程中的工作量之比.可以看到,60%的時(shí)間用在數(shù)據(jù)準(zhǔn)備上,這說(shuō)明了數(shù)據(jù)挖掘?qū)?shù)據(jù)的嚴(yán) 格要求,而后挖掘工作僅占總工作量的10%. 圖3數(shù)據(jù)挖掘過(guò)程工作量比例 4、數(shù)據(jù)挖掘過(guò)程簡(jiǎn)介 過(guò)程中各步驟的大體內(nèi)容如下: (1). 確定業(yè)務(wù)對(duì)象 清晰地定義出業(yè)務(wù)問(wèn)題,認(rèn)清數(shù)據(jù)挖掘的目的是數(shù)據(jù)挖掘的重要一步.挖掘的最后結(jié)構(gòu)是不可預(yù)測(cè)的,但要探索的問(wèn)題應(yīng)是有預(yù)見(jiàn)的,為了數(shù)據(jù)挖掘而數(shù)據(jù)挖掘則帶有盲目性,是不會(huì)成功的. (2). 數(shù)據(jù)準(zhǔn)備 1)、數(shù)據(jù)的選擇 搜索所有與業(yè)務(wù)對(duì)象有關(guān)的內(nèi)部和外部數(shù)據(jù)信息,并從中選擇出適用于數(shù)據(jù)挖掘應(yīng)用的數(shù)據(jù). 2)、數(shù)據(jù)的預(yù)處理 研究數(shù)據(jù)的質(zhì)量,為進(jìn)一步的分析作準(zhǔn)備.并確定將要進(jìn)行的挖掘操作的類型. 3)、數(shù)據(jù)的轉(zhuǎn)換 將數(shù)據(jù)轉(zhuǎn)換成一個(gè)分析模型.這個(gè)分析模型是針對(duì)挖掘算法建立的.建立一個(gè)真正適合挖掘算法的分析模型是數(shù)據(jù)挖掘成功的關(guān)鍵. (3). 數(shù)據(jù)挖掘 對(duì)所得到的經(jīng)過(guò)轉(zhuǎn)換的數(shù)據(jù)進(jìn)行挖掘.除了完善從選擇合適的挖掘算法外,其余一切工作都能自動(dòng)地完成. (4). 結(jié)果分析 解釋并評(píng)估結(jié)果.其使用的分析方法一般應(yīng)作數(shù)據(jù)挖掘操作而定,通常會(huì)用到可視化技術(shù). (5). 知識(shí)的同化 將分析所得到的知識(shí)集成到業(yè)務(wù)信息系統(tǒng)的組織結(jié)構(gòu)中去. 5、數(shù)據(jù)挖掘需要的人員 數(shù)據(jù)挖掘過(guò)程的分步實(shí)現(xiàn),不同的步會(huì)需要是有不同專長(zhǎng)的人員,他們大體可以分為三類. 業(yè)務(wù)分析人員:要求精通業(yè)務(wù),能夠解釋業(yè)務(wù)對(duì)象,并根據(jù)各業(yè)務(wù)對(duì)象確定出用于數(shù)據(jù)定義和挖掘算法的業(yè)務(wù)需求. 數(shù)據(jù)分析人員:精通數(shù)據(jù)分析技術(shù),并對(duì)統(tǒng)計(jì)學(xué)有較熟練的掌握,有能力把業(yè)務(wù)需求轉(zhuǎn)化為數(shù)據(jù)挖掘的各步操作,并為每步操作選擇合適的技術(shù). 數(shù)據(jù)管理人員:精通數(shù)據(jù)管理技術(shù),并從數(shù)據(jù)庫(kù)或數(shù)據(jù)倉(cāng)庫(kù)中收集數(shù)據(jù). 從上可見(jiàn),數(shù)據(jù)挖掘是一個(gè)多種專家合作的過(guò)程,也是一個(gè)在資金上和技術(shù)上高投入的過(guò)程.這一過(guò)程要反復(fù)進(jìn)行牞在反復(fù)過(guò)程中,不斷地趨近事物的本質(zhì),不斷地優(yōu)先問(wèn)題的解決方案。數(shù)據(jù)重組和細(xì)分添加和拆分記錄選取數(shù)據(jù)樣本可視化數(shù)據(jù)探索聚類分析神經(jīng)網(wǎng)絡(luò)、決策樹(shù)數(shù)理統(tǒng)計(jì)、時(shí)間序列結(jié)論綜合解釋評(píng)價(jià)數(shù)據(jù)知識(shí)數(shù)據(jù)取樣數(shù)據(jù)探索數(shù)據(jù)調(diào)整模型化評(píng)價(jià)。 NO.5 Data Mining 運(yùn)用了哪些理論與技術(shù)? Data Mining是近年來(lái)數(shù)據(jù)庫(kù)應(yīng)用技術(shù)中相當(dāng)熱門的議題,看似神奇、聽(tīng)來(lái)時(shí)髦,實(shí)際上卻也不是什么新東西,因其所用之諸如預(yù)測(cè)模型、數(shù)據(jù)分割,連結(jié)分析(Link Analysis)、偏差偵測(cè)(Deviation Detection)等,美國(guó)早在二次世界大戰(zhàn)前就已應(yīng)用運(yùn)用在人口普查及軍事等方面。 隨著信息科技超乎想象的進(jìn)展,許多新的計(jì)算機(jī)分析工具問(wèn)世,例如關(guān)系型數(shù)據(jù)庫(kù)、模糊計(jì)算理論、基因算法則以及類神經(jīng)網(wǎng)絡(luò)等,使得從數(shù)據(jù)中發(fā)掘?qū)毑爻蔀橐环N系統(tǒng)性且可實(shí)行的程序。 一般而言,Data Mining的理論技術(shù)可分為傳統(tǒng)技術(shù)與改良技術(shù)兩支。傳統(tǒng)技術(shù)以統(tǒng)計(jì)分析為代表,統(tǒng)計(jì)學(xué)內(nèi)所含序列統(tǒng)計(jì)、概率論、回歸分析、類別數(shù)據(jù)分析等都屬于傳統(tǒng)數(shù)據(jù)挖掘技術(shù),尤其 Data Mining 對(duì)象多為變量繁多且樣本數(shù)龐大的數(shù)據(jù),是以高等統(tǒng)計(jì)學(xué)里所含括之多變量分析中用來(lái)精簡(jiǎn)變量的因素分析(Factor Analysis)、用來(lái)分類的判別分析(Discriminant Analysis),以及用來(lái)區(qū)隔群體的分群分析(Cluster Analysis)等,在Data Mining過(guò)程中特別常用。 在改良技術(shù)方面,應(yīng)用較普遍的有決策樹(shù)理論(Decision Trees)、類神經(jīng)網(wǎng)絡(luò)(Neural Network)以及規(guī)則歸納法(Rules Induction)等。決策樹(shù)是一種用樹(shù)枝狀展現(xiàn)數(shù)據(jù)受各變量的影響情形之預(yù)測(cè)模型,根據(jù)對(duì)目標(biāo)變量產(chǎn)生之效應(yīng)的不同而建構(gòu)分類的規(guī)則,一般多運(yùn)用在對(duì)客戶數(shù)據(jù)的分析上,例如針對(duì)有回函與未回含的郵寄對(duì)象找出影響其分類結(jié)果的變量組合,常用分類方法為CART(Classification and Regression Trees)及CHAID(Chi-Square Automatic Interaction Detector)兩種。 類神經(jīng)網(wǎng)絡(luò)是一種仿真人腦思考結(jié)構(gòu)的數(shù)據(jù)分析模式,由輸入之變量與數(shù)值中自我學(xué)習(xí)并根據(jù)學(xué)習(xí)經(jīng)驗(yàn)所得之知識(shí)不斷調(diào)整參數(shù)以期建構(gòu)數(shù)據(jù)的型樣(patterns)。類神經(jīng)網(wǎng)絡(luò)為非線性的設(shè)計(jì),與傳統(tǒng)回歸分析相比,好處是在進(jìn)行分析時(shí)無(wú)須限定模式,特別當(dāng)數(shù)據(jù)變量間存有交互效應(yīng)時(shí)可自動(dòng)偵測(cè)出;缺點(diǎn)則在于其分析過(guò)程為一黑盒子,故常無(wú)法以可讀之模型格式展現(xiàn),每階段的加權(quán)與轉(zhuǎn)換亦不明確,是故類神經(jīng)網(wǎng)絡(luò)多利用于數(shù)據(jù)屬于高度非線性且?guī)в邢喈?dāng)程度的變量交感效應(yīng)時(shí)。 規(guī)則歸納法是知識(shí)發(fā)掘的領(lǐng)域中最常用的格式,這是一種由一連串的「如果…/則…(If / Then)」之邏輯規(guī)則對(duì)數(shù)據(jù)進(jìn)行細(xì)分的技術(shù),在實(shí)際運(yùn)用時(shí)如何界定規(guī)則為有效是最大的問(wèn)題,通常需先將數(shù)據(jù)中發(fā)生數(shù)太少的項(xiàng)目先剔除,以避免產(chǎn)生無(wú)意義的邏輯規(guī)則。 NO.6 Data Mining包含哪些主要功能? Data Mining實(shí)際應(yīng)用功能可分為三大類六分項(xiàng)來(lái)說(shuō)明:Classification和Clustering屬于分類區(qū)隔類;Regression和Time-series屬于推算預(yù)測(cè)類;Association和Sequence則屬于序列規(guī)則類。 Classification是根據(jù)一些變量的數(shù)值做計(jì)算,再依照結(jié)果作 分類。(計(jì)算的結(jié)果最后會(huì)被分類為幾個(gè)少數(shù)的離散數(shù)值,例如將一組數(shù)據(jù)分為 "可能會(huì)響應(yīng)" 或是 "可能不會(huì)響應(yīng)" 兩類)。Classification常被用來(lái)處理如前所述之郵寄對(duì)象篩選的問(wèn)題。我們會(huì)用一些根據(jù)歷史經(jīng)驗(yàn)已經(jīng)分類好的數(shù)據(jù)來(lái)研究它們的特征,然后再根 據(jù)這些特征對(duì)其他未經(jīng)分類或是新的數(shù)據(jù)做預(yù)測(cè)。這些我們用來(lái)尋找特征的已分類數(shù)據(jù)可能是來(lái)自我們的現(xiàn)有的客戶數(shù)據(jù),或是將一個(gè)完整數(shù)據(jù)庫(kù)做部份取樣,再經(jīng)由實(shí)際的運(yùn)作來(lái)測(cè)試;譬如利用一個(gè)大型郵寄對(duì)象數(shù)據(jù)庫(kù)的部份取樣來(lái)建立一個(gè)Classification Model,再利用這個(gè)Model來(lái)對(duì)數(shù)據(jù)庫(kù)的其它數(shù)據(jù)或是新的數(shù)據(jù)作分類預(yù)測(cè)。 Clustering用在將數(shù)據(jù)分群,其目的在于將群間的差異找出來(lái),同時(shí)也將群內(nèi)成員的相似性找出來(lái)。Clustering與Classification不同的是,在分析前并不知道會(huì)以何種方式或根據(jù)來(lái)分類。所以必須要配合專業(yè)領(lǐng)域知識(shí)來(lái)解讀這些分群的意義。 Regression是使用一系列的現(xiàn)有數(shù)值來(lái)預(yù)測(cè)一個(gè)連續(xù)數(shù)值的可能 值。若將范圍擴(kuò)大亦可利用Logistic Regression來(lái)預(yù)測(cè)類別變量,特別在廣泛運(yùn)用現(xiàn)代分析技術(shù)如類神經(jīng)網(wǎng)絡(luò)或決策樹(shù)理論等分析工具,推估預(yù)測(cè)的模式已不在止于傳統(tǒng)線性的局限,在預(yù)測(cè) 的功能上大大增加了選擇工具的彈性與應(yīng)用范圍的廣度。 Time-Series Forecasting與Regression功能類似,只是它是用現(xiàn)有的數(shù)值來(lái)預(yù)測(cè)未來(lái)的數(shù)值。兩者最大差異在于Time-Series所分析的數(shù)值都 與時(shí)間有關(guān)。Time-Series Forecasting的工具可以處理有關(guān)時(shí)間的一些特性,譬如時(shí)間的周期性、階層性、季節(jié)性以及其它的一些特別因素(如過(guò)去與未來(lái)的關(guān)連性)。 Association是要找出在某一事件或是數(shù)據(jù)中會(huì)同時(shí)出現(xiàn)的東西。舉例而言,如果A是某一事件的一種選擇,則B也出現(xiàn)在該事件中的機(jī)率有多少。(例如:如果顧客買了火腿和柳橙汁,那么這個(gè)顧客同時(shí)也會(huì)買牛奶的機(jī)率是85%。) Sequence Discovery與Association關(guān)系很密切,所不同的是Sequence Discovery中事件的相關(guān)是以時(shí)間因素來(lái)作區(qū)隔(例如:如果A股票在某一天上漲12%,而且當(dāng)天股市加權(quán)指數(shù)下降,則B股票在兩天之內(nèi)上漲的機(jī)率是 68%)。 NO.7 Data Mining在各領(lǐng)域的應(yīng)用情形為何? Data Mining在各領(lǐng)域的應(yīng)用非常廣泛,只要該產(chǎn)業(yè)擁有具分析價(jià)值與需求的數(shù)據(jù)倉(cāng)儲(chǔ)或數(shù)據(jù)庫(kù),皆可利用Mining工具進(jìn)行有目的的挖掘分析。一般較常見(jiàn)的應(yīng)用案例多發(fā)生在零售業(yè)、直效行銷界、制造業(yè)、財(cái)務(wù)金融保險(xiǎn)、通訊業(yè)以及醫(yī)療服務(wù)等。 于銷售數(shù)據(jù)中發(fā)掘顧客的消費(fèi)習(xí)性,并可藉由交易紀(jì)錄找出顧客偏好的產(chǎn)品組 合,其它包括找出流失顧客的特征與推出新產(chǎn)品的時(shí)機(jī)點(diǎn)等等都是零售業(yè)常見(jiàn)的實(shí)例;直效行銷強(qiáng)調(diào)的分眾概念與數(shù)據(jù)庫(kù)行銷方式在導(dǎo)入Data Mining的技術(shù)后,使直效行銷的發(fā)展性更為強(qiáng)大,例如利用Data Mining分析顧客群之消費(fèi)行為與交易紀(jì)錄,結(jié)合基本數(shù)據(jù),并依其對(duì)品牌價(jià)值等級(jí)的高低來(lái)區(qū)隔顧客,進(jìn)而達(dá)到差異化行銷的目的;制造業(yè)對(duì)Data Mining的需求多運(yùn)用在品質(zhì)控管方面,由制造過(guò)程中找出影響產(chǎn)品品質(zhì)最重要的因素,以期提高作業(yè)流程的效率。 近來(lái)電話公司、信用卡公司、保險(xiǎn)公司以及股票交易商對(duì)于詐欺行為的偵測(cè) (Fraud Detection)都很有興趣,這些行業(yè)每年因?yàn)樵p欺行為而造成的損失都非常可觀,Data Mining可以從一些信用不良的客戶數(shù)據(jù)中找出相似特征并預(yù)測(cè)可能的詐欺交易,達(dá)到減少損失的目的。財(cái)務(wù)金融業(yè)可以利用 Data Mining來(lái)分析市場(chǎng)動(dòng)向,并預(yù)測(cè)個(gè)別公司的營(yíng)運(yùn)以及股價(jià)走向。Data Mining的另一個(gè)獨(dú)特的用法是在醫(yī)療業(yè),用來(lái)預(yù)測(cè)手術(shù)、用藥、診斷、或是流程控制的效率。 NO.8 Web Mining 和數(shù)據(jù)挖掘有什么不同? 如果將Web視為CRM的一個(gè)新的Channel,則Web Mining便可單純看做Data Mining應(yīng)用在網(wǎng)絡(luò)數(shù)據(jù)的泛稱。 該如何測(cè)量一個(gè)網(wǎng)站是否成功?哪些內(nèi)容、優(yōu)惠、廣告是人氣最旺的?主要訪 客是哪些人?什么原因吸引他們前來(lái)?如何從堆積如山之大量由網(wǎng)絡(luò)所得數(shù)據(jù)中找出讓網(wǎng)站運(yùn)作更有效率的操作因素?以上種種皆屬Web Mining 分析之范疇。Web Mining 不僅只限于一般較為人所知的log file分析,除了計(jì)算網(wǎng)頁(yè)瀏覽率以及訪客人次外,舉凡網(wǎng)絡(luò)上的零售、財(cái)務(wù)服務(wù)、通訊服務(wù)、政府機(jī)關(guān)、醫(yī)療咨詢、遠(yuǎn)距教學(xué)等等,只要由網(wǎng)絡(luò)連結(jié)出的數(shù)據(jù)庫(kù) 夠大夠完整,所有Off-Line可進(jìn)行的分析,Web Mining都可以做,甚或更可整合Off-Line及On-Line的數(shù)據(jù)庫(kù),實(shí)施更大規(guī)模的模型預(yù)測(cè)與推估,畢竟憑借網(wǎng)際網(wǎng)絡(luò)的便利性與滲透力再配合網(wǎng)絡(luò)行為的可追蹤性與高互動(dòng)特質(zhì),一對(duì)一行銷的理念是最有機(jī)會(huì)在網(wǎng)絡(luò)世界里完全落實(shí)的。 整體而言,Web Mining具有以下特性:1.數(shù)據(jù)收集容 易且不引人注意,所謂凡走過(guò)必留下痕跡,當(dāng)訪客進(jìn)入網(wǎng)站后的一切瀏覽行為與歷程都是可以立即被紀(jì)錄的;2. 以交互式個(gè)人化服務(wù)為終極目標(biāo),除了因應(yīng)不同訪客呈現(xiàn)專屬設(shè)計(jì)的網(wǎng)頁(yè)之外,不同的訪客也會(huì)有不同的服務(wù);3. 可整合外部來(lái)源數(shù)據(jù)讓分析功能發(fā)揮地更深更廣,除了log file、cookies、會(huì)員填表數(shù)據(jù)、線上調(diào)查數(shù)據(jù)、線上交易數(shù)據(jù)等由網(wǎng)絡(luò)直接取得的資源外,結(jié)合實(shí)體世界累積時(shí)間更久、范圍更廣的資源,將使分析的 結(jié)果更準(zhǔn)確也更深入。 利用Data Mining技術(shù)建立更深入的訪客數(shù)據(jù)剖析,并賴以架構(gòu)精準(zhǔn)的預(yù)測(cè)模式,以期呈現(xiàn)真正智能型個(gè)人化的網(wǎng)絡(luò)服務(wù),是Web Mining努力的方向。 NO.9 數(shù)據(jù)挖掘在 CRM 中扮演的角色為何? CRM(Customer Relationship Management)是近來(lái)引起熱烈討論與高度關(guān)切的議題,尤其在直效行銷的崛起與網(wǎng)絡(luò)的快速發(fā)展帶動(dòng)下,跟不上CRM的腳步如同跟不上時(shí)代。事實(shí)上 CRM并不算新發(fā)明,奧美直效行銷推動(dòng)十?dāng)?shù)年的CO(Customer Ownership)就是現(xiàn)在大家談的CRM—客戶關(guān)系管理。 Data Mining應(yīng)用在CRM的主要方式可對(duì)應(yīng)在Gap Analysis之三個(gè)部分: 針對(duì)Acquisition Gap,可利用Customer Profiling找出客戶的一些共同的特征,希望能藉此深入了解客戶,藉由Cluster Analysis對(duì)客戶進(jìn)行分群后再通過(guò)Pattern Analysis預(yù)測(cè)哪些人可能成為我們的客戶,以幫助行銷人員找到正確的行銷對(duì)象,進(jìn)而降低成本,也提高行銷的成功率。 針對(duì)Sales Gap,可利用Basket Analysis幫助了解客戶的產(chǎn)品消費(fèi)模式,找出哪些產(chǎn)品客戶最容易一起購(gòu)買,或是利用Sequence Discovery預(yù)測(cè)客戶在買了某一樣產(chǎn)品之后,在多久之內(nèi)會(huì)買另一樣產(chǎn)品等等。利用 Data Mining可以更有效的決定產(chǎn)品組合、產(chǎn)品推薦、進(jìn)貨量或庫(kù)存量,甚或是在店里要如何擺設(shè)貨品等,同時(shí)也可以用來(lái)評(píng)估促銷活動(dòng)的成效。 針對(duì)Retention Gap,可以由原客戶后來(lái)卻轉(zhuǎn)成競(jìng)爭(zhēng)對(duì)手的客戶群中,分析其特征,再根據(jù)分析結(jié)果到現(xiàn)有客戶數(shù)據(jù)中找出可能轉(zhuǎn)向的客戶,然后設(shè)計(jì)一些方法預(yù)防客戶流失;更有系統(tǒng)的做法是藉由Neural Network根據(jù)客戶的消費(fèi)行為與交易紀(jì)錄對(duì)客戶忠誠(chéng)度進(jìn)行Scoring的排序,如此則可區(qū)隔流失率的等級(jí)進(jìn)而配合不同的策略。 CRM不是設(shè)一個(gè)(800)客服專線就算了,更不僅只是把一堆客戶基本數(shù)據(jù)輸入計(jì)算機(jī)就夠,完整的CRM運(yùn)作機(jī)制在相關(guān)的硬軟件系統(tǒng)能 健全的支持之前,有太多的數(shù)據(jù)準(zhǔn)備工作與分析需要推動(dòng)。企業(yè)透過(guò)Data Mining可以分別針對(duì)策略、目標(biāo)定位、操作效能與測(cè)量評(píng)估等四個(gè)切面之相關(guān)問(wèn)題,有效率地從市場(chǎng)與顧客所搜集累積之大量數(shù)據(jù)中挖掘出對(duì)消費(fèi)者而言最關(guān) 鍵、最重要的答案,并賴以建立真正由客戶需求點(diǎn)出發(fā)的客戶關(guān)系管理。 NO.10 目前業(yè)界常用的數(shù)據(jù)挖掘分析工具? Data Mining工具市場(chǎng)大致可分為三類:
  • 一般分析目的用的軟件包
  • K-Miner(神通數(shù)據(jù)挖掘分析系統(tǒng),MPP+SMP并行計(jì)算架構(gòu)) AlpineMiner(AlpineDataLabs) TipDM(頂尖數(shù)據(jù)挖掘平臺(tái)) GDM(Geni-Sage Data Mining Analysis System,博通數(shù)據(jù)挖掘分析系統(tǒng)) SAS Enterprise Miner KXEN(凱森) IBM Intelligent Miner Unica PRW SPSS Clementine SGI MineSet Oracle Darwin Angoss KnowledgeSeeker 2. 針對(duì)特定功能或產(chǎn)業(yè)而研發(fā)的軟件 KD1(針對(duì)零售業(yè)) Options & Choices(針對(duì)保險(xiǎn)業(yè)) HNC(針對(duì)信用卡詐欺或呆帳偵測(cè)) Unica Model 1(針對(duì)行銷業(yè)) iEM System (針對(duì)流程行業(yè)的實(shí)時(shí)歷史數(shù)據(jù)) 3. 整合DSS(Decision Support Systems)/OLAP/Data Mining的大型分析系統(tǒng) Cognos Scenario and Business Objects 國(guó)際相關(guān) [Journals] 1.ACM Transactions on Knowledge Discovery from Data (TKDD) 2.IEEE Transactions on Knowledge and Data Engineering (TKDE) 3.Data Mining and Knowledge Discovery 4.Knowledge and Information Systems 5.Data & Knowledge Engineering [Conferences] 1.SIGMOD:ACM Conference on Management of Data (ACM) 2.VLDB:International Conference on Very Large Data Bases (Morgan Kaufmann/ACM) 3.ICDE:IEEE International Conference on Data Engineering (IEEE Computer Society) 4.SIGKDD:ACM Knowledge Discovery and Data Mining (ACM) 5.WWW:International World Wide Web Conferences (W3C) 6.CIKM:ACM International Conference on Information and Knowledge Management (ACM) 7.PKDD:European Conference on Principles and Practice of Knowledge Discovery in Databases (Springer-VerlagLNAI) 國(guó)內(nèi)期刊 數(shù)據(jù)挖掘研究 Hans Journal of Data Mining 是一本關(guān)注數(shù)據(jù)挖掘領(lǐng)域最新進(jìn)展的國(guó)際中文期刊,由漢斯出版社發(fā)行,主要刊登數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)安全、知識(shí)工程等計(jì)算機(jī)信息系統(tǒng)建設(shè)相關(guān)內(nèi)容的學(xué)術(shù)論文和成果 評(píng)述。本刊支持思想創(chuàng)新、學(xué)術(shù)創(chuàng)新,倡導(dǎo)科學(xué),繁榮學(xué)術(shù),集學(xué)術(shù)性、思想性為一體,旨在為了給世界范圍內(nèi)的科學(xué)家、學(xué)者、科研人員提供一個(gè)傳播、分享和討 論數(shù)據(jù)挖掘領(lǐng)域內(nèi)不同方向問(wèn)題與發(fā)展的交流平臺(tái)。 研究領(lǐng)域: 數(shù)據(jù)挖掘 · 數(shù)據(jù)結(jié)構(gòu) · 數(shù)據(jù)安全與計(jì)算機(jī)安全 · 數(shù)據(jù)庫(kù) · 數(shù)據(jù)處理 · 知識(shí)工程 · 計(jì)算機(jī)信息管理系統(tǒng) · 計(jì)算機(jī)決策支持系統(tǒng) · 計(jì)算機(jī)應(yīng)用其他學(xué)科 · 模式識(shí)別 · 人工智能其他學(xué)科 編委信息 主編 丁曉青 教授清華大學(xué) 編委會(huì) 蔣嶷川 教授東南大學(xué) 李道亮 教授中國(guó)農(nóng)業(yè)大學(xué) 賴劍煌 教授中山大學(xué) 劉金山 教授華南農(nóng)業(yè)大學(xué) 李紹滋 教授廈門大學(xué) 呂紹高 副教授西南財(cái)經(jīng)大學(xué) 馬懋德 副教授新加坡南洋理工大學(xué) 莫宏偉 教授哈爾濱工程大學(xué) 樸昌浩 教授重慶郵電大學(xué) 譚文安 教授南京航空航天大學(xué) 王加陽(yáng) 教授中南大學(xué) 汪衛(wèi) 教授復(fù)旦大學(xué) 楊力華 教授中山大學(xué) 楊曉忠 教授華北電力大學(xué) 張道強(qiáng) 教授南京航空航天大學(xué) 檢索 《數(shù)據(jù)挖掘》期刊論文已被以下數(shù)據(jù)庫(kù)收錄: 維普 萬(wàn)方 全國(guó)期刊聯(lián)合目錄數(shù)據(jù)庫(kù)(UNICAT) 中國(guó)科學(xué)院國(guó)家科學(xué)圖書(shū)館 讀秀學(xué)術(shù) DOAJ Open J-Gate Google Scholar Academic Journals Database The Elektronische Zeitschriftenbibliothek(EZB) NewJour SJSU Worldwidescience Ulrichsweb Washington trueserials WorldCat NYULibraries Scirus Journalseek Index Copernicus Cornell University Library Open Access Library

    隱私

    編輯 與數(shù)據(jù)挖掘有關(guān)的,還牽扯到隱私問(wèn)題,例如:一個(gè)雇主可以通過(guò)訪問(wèn)醫(yī)療記錄來(lái)篩選出那些有糖尿病或者嚴(yán)重心臟病的人,從而意圖削減保險(xiǎn)支出。然而,這種做法會(huì)導(dǎo)致倫理和法律問(wèn)題。 對(duì)于政府和商業(yè)數(shù)據(jù)的挖掘,可能會(huì)涉及到的,是國(guó)家安全或者商業(yè)機(jī)密之類的問(wèn)題。這對(duì)于保密也是個(gè)不小的挑戰(zhàn)。 數(shù)據(jù)挖掘有很多合法的用途,例如可以在患者群的數(shù)據(jù)庫(kù)中查出某藥物和其副作用的關(guān)系。這種關(guān)系可能在1000人中也不會(huì)出現(xiàn)一例,但藥物學(xué)相關(guān)的項(xiàng)目就可以運(yùn)用此方法減少對(duì)藥物有不良反應(yīng)的病人數(shù)量,還有可能挽救生命;但這當(dāng)中還是存在著數(shù)據(jù)庫(kù)可能被濫用的問(wèn)題。 數(shù)據(jù)挖掘?qū)崿F(xiàn)了用其他方法不可能實(shí)現(xiàn)的方法來(lái)發(fā)現(xiàn)信息,但它必須受到規(guī)范,應(yīng)當(dāng)在適當(dāng)?shù)恼f(shuō)明下使用。 如果數(shù)據(jù)是收集自特定的個(gè)人,那么就會(huì)出現(xiàn)一些涉及保密、法律和倫理的問(wèn)題。

    總結(jié)

    以上是生活随笔為你收集整理的数据挖掘的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

    如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。