日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

数据挖掘研究的机遇及挑战 洪胜宏

發(fā)布時(shí)間:2023/12/20 编程问答 33 豆豆
生活随笔 收集整理的這篇文章主要介紹了 数据挖掘研究的机遇及挑战 洪胜宏 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

? ?數(shù)據(jù)挖掘研究的機(jī)遇及挑戰(zhàn) 洪勝宏

? ?【摘要】:隨著計(jì)算機(jī)的大量應(yīng)用和數(shù)據(jù)量的急速增長(zhǎng),數(shù)據(jù)挖掘發(fā)揮著越來(lái)越重要的作用.數(shù)據(jù)挖掘經(jīng)過(guò)近二十年的 發(fā)展.取得了很大的突破,包括了數(shù)據(jù)庫(kù)技術(shù)、人工智能技術(shù)、數(shù)理統(tǒng)計(jì)、可視化技術(shù)等技術(shù)熱點(diǎn).其應(yīng)用也越來(lái)越廣泛,同時(shí)。 也面臨著技術(shù)上的一些難題,如流數(shù)據(jù)挖掘、分布式數(shù)據(jù)挖掘、基因數(shù)據(jù)挖掘等等.

? ?【關(guān)鍵詞】:數(shù)據(jù)挖掘應(yīng)用與機(jī)遇挑戰(zhàn) 隨著數(shù)據(jù)庫(kù)技術(shù)的迅速發(fā)展以及數(shù)據(jù)庫(kù)管理系統(tǒng)的廣泛應(yīng) 用,人們積累的數(shù)據(jù)越來(lái)越多.數(shù)據(jù)呈爆炸性增長(zhǎng)。各種數(shù)據(jù)廣 泛存在,數(shù)字。圖形、文字、表格、聲音等都是數(shù)據(jù)的種種表象,可 謂是數(shù)據(jù)的海洋.要從這數(shù)據(jù)的海洋中尋找有用的資料.就要靠 處理數(shù)據(jù)的手段來(lái)挖掘.人類分析數(shù)據(jù)到現(xiàn)在已經(jīng)有上千年的 歷史了.從遠(yuǎn)古時(shí)代人類開(kāi)始在木頭上計(jì)數(shù)開(kāi)始就是一個(gè)簡(jiǎn)單 的數(shù)據(jù)分析過(guò)程.但是近代數(shù)據(jù)分析是用統(tǒng)計(jì)學(xué)的概念去處理 數(shù)據(jù).隨著二戰(zhàn)的結(jié)束,一些非統(tǒng)計(jì)的數(shù)據(jù)分析工具.如人工智 能方面的技術(shù)開(kāi)始應(yīng)用到行業(yè)經(jīng)濟(jì)中.到了二十世紀(jì)九十年代. 美國(guó)的一些應(yīng)用者和學(xué)者把在數(shù)據(jù)海洋中尋找知識(shí)的過(guò)程叫 做”數(shù)據(jù)挖掘”.數(shù)據(jù)挖掘”(Data Mining)是一種新的信息處理技 術(shù),其主要特點(diǎn)是對(duì)數(shù)據(jù)庫(kù)中的大量業(yè)務(wù)數(shù)據(jù)進(jìn)行抽取、轉(zhuǎn)換、 分析和其他模型化處理.從中提取輔助決策的關(guān)鍵性數(shù)據(jù).數(shù)據(jù) 挖掘與傳統(tǒng)的數(shù)據(jù)分析,如查詢、報(bào)表、OLAP(聯(lián)機(jī)應(yīng)用分析)、 統(tǒng)計(jì)分析等數(shù)據(jù)分析技術(shù)的本質(zhì)區(qū)別是數(shù)據(jù)挖掘是在明確假設(shè) 的前提下去挖掘信息、發(fā)現(xiàn)知識(shí).

? ? 1、數(shù)據(jù)挖掘研究的起源 Usama Fayyadm是數(shù)據(jù)挖掘的開(kāi)山師祖.1987年就讀密西根 大學(xué)時(shí)參加通用的暑期工作.目的是從數(shù)以萬(wàn)計(jì)的維修記錄中 找出規(guī)則.協(xié)助維修人員迅速發(fā)現(xiàn)問(wèn)題.Fayyad發(fā)現(xiàn)的pattern算 法.不但成為他1991年論文的主題,也衍生出后來(lái)數(shù)據(jù)挖掘技 術(shù)的發(fā)展.離開(kāi)密西根后.Fayyad加入NASA的噴射推進(jìn)實(shí)驗(yàn) 室,他的算法在太空探測(cè)、地質(zhì)研究等工作中均展現(xiàn)出了非常驚 人的潛力.數(shù)據(jù)挖掘最早被應(yīng)用于天文學(xué).即由機(jī)器學(xué)習(xí)、類型 辯識(shí)及統(tǒng)計(jì)等技術(shù).在短短4小時(shí)內(nèi)所發(fā)現(xiàn)的行星勝過(guò)了20多 位天文學(xué)家4年的成果.現(xiàn)在連美國(guó)軍方也開(kāi)始應(yīng)用這樣的技 術(shù)增強(qiáng)雷達(dá)解讀與辯識(shí)數(shù)據(jù)的能力. 對(duì)數(shù)據(jù)挖掘的定義存在多種說(shuō)法:Groth啊認(rèn)為”數(shù)據(jù)挖掘” 就是”挖掘”出數(shù)據(jù)中隱藏的模式,趨勢(shì).關(guān)系的過(guò)程: Beryy&Lino樅為”數(shù)據(jù)挖掘”是通過(guò)自動(dòng)或半自動(dòng)的方式在海 量數(shù)據(jù)中發(fā)現(xiàn)有用的模式,規(guī)則的過(guò)程;Hand,Mannila&Smyth〔田 則認(rèn)為”數(shù)據(jù)挖掘”是分析普通的數(shù)據(jù)(通常是海量的)來(lái)發(fā)現(xiàn)數(shù) 據(jù)之間比較穩(wěn)定地關(guān)系.以易于理解的方式將數(shù)據(jù)總結(jié)出來(lái)向 數(shù)據(jù)所有者提供有價(jià)值的決策支持:Cabena etalm將”數(shù)據(jù)挖掘” 定義為從大量的數(shù)據(jù)庫(kù)中抽取出此前還沒(méi)發(fā)現(xiàn)的有效實(shí)用地的 信息,并且此后使用此信息來(lái)幫助制定關(guān)鍵的商業(yè)決策的過(guò)程.


? ? 綜合來(lái)說(shuō),數(shù)據(jù)挖掘就是從大量的、不完全的、有噪聲的、模 糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不 知道的、但又是潛在有用的信息和知識(shí)的過(guò)程.數(shù)據(jù)挖掘是一門 交叉學(xué)科。其技術(shù)歷經(jīng)了20多年的發(fā)展.包括了數(shù)據(jù)庫(kù)技術(shù)、人 工智能技術(shù)、數(shù)理統(tǒng)計(jì)、可視化技術(shù)、并行計(jì)算等技術(shù)熱點(diǎn).


? ?今天,這些成熟的技術(shù)。加上高性能的關(guān)系數(shù)據(jù)庫(kù)引擎 以及廣泛的數(shù)據(jù)集成.讓數(shù)據(jù)挖掘技術(shù)在當(dāng)前的數(shù)據(jù)倉(cāng)庫(kù)環(huán)境 中進(jìn)入了實(shí)用的階段. 在選擇數(shù)據(jù)挖掘的相關(guān)技術(shù)以及算法上.數(shù)據(jù)挖掘的理論 技術(shù)可分為傳統(tǒng)技術(shù)與改良技術(shù)兩類.傳統(tǒng)技術(shù)以統(tǒng)計(jì)分析為 代表.統(tǒng)計(jì)學(xué)內(nèi)所含序列統(tǒng)計(jì)、概率論、回歸分析、類別數(shù)據(jù)分析 等都屬于傳統(tǒng)數(shù)據(jù)挖掘技術(shù),尤其Data Mining對(duì)象多為變量繁 多且樣本數(shù)龐大的數(shù)據(jù).高等統(tǒng)計(jì)學(xué)里之多變量分析中用來(lái)精 簡(jiǎn)變量的因素分析(Factor Analysis)、用來(lái)分類的判別分析(D兇 criminant Analysis).以及用來(lái)區(qū)隔群體的分群分析(Cluster Analysis)等.在Data Mining過(guò)程中特別常用.在改良技術(shù)方面. 應(yīng)用較普遍的有決策樹(shù)理論(Decision Trees)、類神經(jīng)網(wǎng)絡(luò)(Neu. ral Network)以及規(guī)則歸納法(Rules Induction)等. 對(duì)數(shù)據(jù)挖掘而言.研究者必須考慮所要進(jìn)行挖掘分類領(lǐng)域的 一些相關(guān)同題:如研究領(lǐng)域的特性、數(shù)據(jù)的質(zhì)量、數(shù)據(jù)庫(kù)的組成是 否能表現(xiàn)這個(gè)議題、決策環(huán)境、人員因素以及這些因素間的潛在 互動(dòng)等等.都是需要考慮的因素.可以用圖2來(lái)表示這個(gè)概念.

? ?2、數(shù)據(jù)挖掘研究的應(yīng)用與機(jī)遇 作為應(yīng)用技術(shù).數(shù)據(jù)挖掘可謂涵蓋廣泛。尤其在發(fā)達(dá)國(guó) 家.數(shù)據(jù)挖掘技術(shù)的觸角已經(jīng)伸向了各行各業(yè).只要某產(chǎn)業(yè)擁有 具分析價(jià)值與需求的數(shù)據(jù)倉(cāng)儲(chǔ)或數(shù)據(jù)庫(kù).皆可利用挖掘工具進(jìn) 行有目的的挖掘分析.一般較常見(jiàn)的應(yīng)用案例多發(fā)生在零售業(yè)、 直效行銷界、制造業(yè)、財(cái)務(wù)金融保險(xiǎn)、通訊業(yè)以及醫(yī)療服務(wù)等.數(shù) 據(jù)挖掘的應(yīng)用領(lǐng)域具體可以分為三類:第一類.商業(yè)與電子商務(wù) 數(shù)據(jù).銀行、管理部門、網(wǎng)絡(luò)應(yīng)用在商業(yè)運(yùn)作過(guò)程中產(chǎn)生大量數(shù) 據(jù).這些行業(yè)需要通過(guò)數(shù)據(jù)分析做出有效的決策.第二類,科學(xué)、 工程學(xué)和衛(wèi)生保健數(shù)據(jù).工程領(lǐng)域的數(shù)據(jù)往往比商業(yè)數(shù)據(jù)更復(fù) 雜,此外.科學(xué)家和工程師越來(lái)越多地使用模擬系統(tǒng).第三類:網(wǎng) 絡(luò)數(shù)據(jù).網(wǎng)絡(luò)上的數(shù)據(jù)不僅在數(shù)量上日益膨脹,在內(nèi)容上也越來(lái) 越復(fù)雜.網(wǎng)絡(luò)數(shù)據(jù)已經(jīng)不僅僅包括圖象、文本,還包括數(shù)據(jù)流和 數(shù)值數(shù)據(jù).下面對(duì)每一類的具體應(yīng)用作一介紹.

? ?商業(yè)交易:國(guó)外的數(shù)據(jù)挖掘技術(shù)主要應(yīng)用在了銀行業(yè),典型 的例子就是信用卡,用數(shù)據(jù)挖掘技術(shù)來(lái)分析×××的信用等 級(jí)和資產(chǎn)發(fā)展趨勢(shì),用以規(guī)避銀行風(fēng)險(xiǎn).保險(xiǎn)業(yè)借以此技術(shù)來(lái)防 止保險(xiǎn)欺詐行為。并慢慢***到稅收、零售行業(yè)以及國(guó)家安全系 統(tǒng)的保障等等.

? ?電子商務(wù):電子商務(wù)的發(fā)展促使公司內(nèi)部收集了大量的數(shù) 據(jù)。并且迫切需要將這些數(shù)據(jù)轉(zhuǎn)換成有用的信息和知識(shí),為公司  萬(wàn)方數(shù)據(jù) 福建電腦 2009年第3期 創(chuàng)造更多潛在的利潤(rùn).數(shù)據(jù)挖掘在電子商務(wù)的應(yīng)用已進(jìn)入了實(shí) 用階段.并取得了良好的效果.

? ?基因數(shù)據(jù):基因組作序和作圖產(chǎn)生大量的數(shù)據(jù)庫(kù),這些數(shù)據(jù) 庫(kù)絕大部分尚未被挖掘。因?yàn)槿鄙倮硐氲臄?shù)據(jù)挖掘技術(shù),基因挖 掘容易被忽視.

? ?傳感器數(shù)據(jù):衛(wèi)星、浮標(biāo)、氣球還有許多其他傳感器產(chǎn)生關(guān) 于大氣層、海洋、和陸地的大量數(shù)據(jù).一個(gè)最大的挑戰(zhàn)就是研究 這些變量之間的關(guān)系,比如:工業(yè)污染影響全球氣候變暖嗎?

? ?模擬系統(tǒng)數(shù)據(jù):今天,模擬被認(rèn)為是繼理論和實(shí)驗(yàn)之后.科 學(xué)的第三種模式.模擬系統(tǒng)同實(shí)驗(yàn)一樣產(chǎn)生大量數(shù)據(jù).數(shù)據(jù)挖掘 被認(rèn)為是理論、模擬和實(shí)驗(yàn)之間一個(gè)關(guān)鍵的連接.

? ?衛(wèi)生保健數(shù)據(jù):衛(wèi)生保健日益成為國(guó)民生產(chǎn)總值中重要的 組成部分.醫(yī)院、衛(wèi)生組織和保險(xiǎn)公司擁有病人的大量信息:病 人的健康問(wèn)題、醫(yī)療程序、成本和收益,理解它們之間的關(guān)系相 當(dāng)重要.數(shù)據(jù)挖掘的一個(gè)獨(dú)特的用法就是用來(lái)預(yù)測(cè)手術(shù)、用藥、 診斷、或是流程控制的效率. 多媒體文本:文本的數(shù)量和使用文本的人日益增加,多媒體 技術(shù)也越來(lái)越容易接觸到.同時(shí)也越來(lái)越難以獲取有用的數(shù)據(jù). 文本數(shù)據(jù)挖掘并不是一件容易的事情。尤其是在分析方法方面。 還有很多需要研究的專題.

? ?Web數(shù)據(jù):今天.Web主要面向文本和多媒體設(shè)備.HTML 雖然已被認(rèn)為是最強(qiáng)大、最有力的工具。但也受到許多使用者的 批評(píng).未來(lái).Web將是數(shù)據(jù)處理最重要的工具,以xML為基礎(chǔ)的 新一代WWW環(huán)境是直接面對(duì)Web數(shù)據(jù)的.不僅可以很好地兼 容原有的Web應(yīng)用.而且可以更好地實(shí)現(xiàn)Web中的信息共享與 交換.隨著XML的發(fā)展.數(shù)據(jù)挖掘?qū)⒖沙蔀榫W(wǎng)絡(luò)數(shù)據(jù)的關(guān)鍵技 術(shù). 未來(lái)幾年.數(shù)據(jù)挖掘?qū)⑹菢O為重要的成長(zhǎng)領(lǐng)域,數(shù)據(jù)挖掘的 應(yīng)用越來(lái)越廣泛.

? ?研究結(jié)果顯示.企業(yè)所處理的數(shù)據(jù)每五年就會(huì) 璺現(xiàn)倍數(shù)增長(zhǎng).大部分的企業(yè)并沒(méi)有數(shù)據(jù)不足的問(wèn)題.過(guò)度的數(shù) 據(jù)重復(fù)與不一致才是大問(wèn)題.這使得企業(yè)無(wú)論在使用、有效管 理、以及將這些數(shù)據(jù)用于決策過(guò)程方面都遭遇到了問(wèn)題.因此市 場(chǎng)需要的是能夠?qū)?shù)據(jù)轉(zhuǎn)變成可靠與可用信息的系統(tǒng).不同領(lǐng) 域的專家對(duì)數(shù)據(jù)挖掘都表現(xiàn)出了極大的興趣.例如在信息服務(wù) 業(yè)中出現(xiàn)了一些應(yīng)用.在Internet之?dāng)?shù)據(jù)倉(cāng)儲(chǔ)和線上服務(wù)中也給 企業(yè)增加了許多生機(jī).同時(shí)在產(chǎn)學(xué)合作下.又發(fā)展出了許多實(shí)用 的系統(tǒng).例如MDT、Coverstory and Spotlight、Nieh work visualiza- tion system LBS、FALCON、FAIS、NYNEX、TASA等等.目前已 被許多研究者視為結(jié)合數(shù)據(jù)庫(kù)系統(tǒng)和機(jī)器學(xué)習(xí)技術(shù)的重要領(lǐng) 域.對(duì)于研究者來(lái)說(shuō).數(shù)據(jù)挖掘是個(gè)充滿潛力和機(jī)遇無(wú)限的研究 領(lǐng)域.

? ?3.數(shù)據(jù)挖掘研究面臨的挑戰(zhàn)

? ? 目前.數(shù)據(jù)挖掘算法雖然已經(jīng)取得了很大的突破,但在實(shí)際 應(yīng)用中.數(shù)據(jù)挖掘技術(shù)還存在相當(dāng)多的難題和困難,對(duì)于研究者 來(lái)說(shuō).數(shù)據(jù)挖掘是個(gè)充滿挑戰(zhàn)性的領(lǐng)域.

? ?3.1流數(shù)據(jù)挖掘. 一個(gè)重要的問(wèn)題是挖掘大數(shù)據(jù)庫(kù)(如100 TS)的數(shù)據(jù)流,這 些數(shù)據(jù)流廣泛存在互聯(lián)網(wǎng)、無(wú)線通信網(wǎng)絡(luò)、地質(zhì)測(cè)量、氣象、天文 觀測(cè)等方面,由于數(shù)據(jù)流迅速、大量、連續(xù)地到達(dá),因此現(xiàn)有的數(shù) 據(jù)挖掘算法在處理如此大量的數(shù)據(jù)方面速度太慢了,需要研究 新的算法.與此同時(shí).數(shù)據(jù)流需要以近實(shí)時(shí)的方式對(duì)更新流進(jìn)行 復(fù)雜分析.這對(duì)研究者來(lái)說(shuō)也是一個(gè)挑戰(zhàn).

? ? 3.2分布式數(shù)據(jù)挖掘. 出于對(duì)安全性、容錯(cuò)性、商業(yè)競(jìng)爭(zhēng)以及法律約束等多方面因 素的考慮.在許多情況下,將所有數(shù)據(jù)集中在一起進(jìn)行分析往往 是不可行的.隨著各相關(guān)學(xué)科的飛速發(fā)展。各種網(wǎng)絡(luò)尤其是In- temet的廣泛使用.同時(shí),實(shí)際應(yīng)用要求數(shù)據(jù)挖掘系統(tǒng)具有更好 的可擴(kuò)展性.分布式數(shù)據(jù)挖掘系統(tǒng)則可以充分利用分布式計(jì)算 的能力對(duì)相關(guān)的數(shù)據(jù)進(jìn)行分析與綜合.如研究某種疾病在某地 的發(fā)病情況與氣候的關(guān)系(疾病控制數(shù)據(jù)庫(kù)+環(huán)境數(shù)據(jù)庫(kù));金融 組織問(wèn)通過(guò)合作防止信用卡欺詐(數(shù)據(jù)共享);大型跨國(guó)公司營(yíng) 銷策略的制定(銷售點(diǎn)分散.數(shù)據(jù)倉(cāng)庫(kù)構(gòu)造十分耗時(shí)).分布式數(shù) 據(jù)挖掘正是在這一背景下產(chǎn)生的.它是數(shù)據(jù)挖掘技術(shù)與分布式 計(jì)算的有機(jī)結(jié)合.主要用于分布式環(huán)境下的數(shù)據(jù)模式發(fā)現(xiàn).分布 式數(shù)據(jù)挖掘面臨的問(wèn)題是研究算法.實(shí)現(xiàn)對(duì)不同數(shù)據(jù)源、多重?cái)?shù) 據(jù)庫(kù)間的挖掘.

? ?3.3時(shí)問(wèn)序列數(shù)據(jù)挖掘. 時(shí)問(wèn)序列是數(shù)據(jù)存在的特殊形式,序列的過(guò)去值會(huì)影響到 將來(lái)值。這種影響的大小以及影響的方式可由時(shí)間序列中的趨 勢(shì)周期及非平穩(wěn)等行為來(lái)刻畫(huà).一般來(lái)講,時(shí)間序列數(shù)據(jù)都具有 噪聲、不穩(wěn)定、隨機(jī)性等特點(diǎn),這就使得正確進(jìn)行短期和長(zhǎng)期的 預(yù)測(cè)都非常困難.如何解決時(shí)間序列數(shù)據(jù)的噪聲問(wèn)題。從而有效 地聚類、分類和預(yù)測(cè)數(shù)據(jù)趨勢(shì)仍然是個(gè)有待解決的問(wèn)題.對(duì)于這 類數(shù)據(jù)的預(yù)測(cè)方法目前主要有自動(dòng)回歸滑動(dòng)平均(ARMA)和神 經(jīng)網(wǎng)絡(luò)等,但這些方法有一些缺點(diǎn)是很難克服的.ARMA包含的 是線性行為,對(duì)于非線性的因素沒(méi)有包含;而神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)需 要事先指定或應(yīng)用啟發(fā)式算法在訓(xùn)練過(guò)程中修正:同時(shí)神經(jīng)網(wǎng) 絡(luò)得到的解是局部最優(yōu)而非全局最優(yōu).例如在金融時(shí)間序列預(yù) 測(cè)中,雖然小波分析可去掉噪聲。但通常會(huì)帶來(lái)滯后的問(wèn)題,從 而減低了預(yù)測(cè)的準(zhǔn)確程度.現(xiàn)今的數(shù)據(jù)挖掘方法在處理噪聲數(shù) 據(jù)方面仍然有很大的困難.

? ?3.4生物醫(yī)學(xué)或基因數(shù)據(jù)挖掘 目前.生物醫(yī)學(xué)或基因?qū)W領(lǐng)域的進(jìn)步產(chǎn)生了大量的數(shù)據(jù).對(duì) 于生物信息或基因的數(shù)據(jù)挖掘和通常的數(shù)據(jù)挖掘相比.無(wú)論在 數(shù)據(jù)的復(fù)雜程度、數(shù)據(jù)量還有分析和建立模型的算法而言。都要 復(fù)雜得多.例如:基因和蛋白質(zhì)在數(shù)量上巨大(DNA分子可以有 上億對(duì)),結(jié)構(gòu)非常復(fù)雜,彼此之間的作用善未被發(fā)現(xiàn);在生物醫(yī) 學(xué)的許多方面如進(jìn)化論、生物數(shù)據(jù)clean、生物序列分析、生物網(wǎng) 絡(luò)分析.生物圖象分析等等.從分析算法上講.更需要一些新的 和好的算法.現(xiàn)在很多廠商正在致力于這方面的研究.但就技術(shù) 和軟件而言.還遠(yuǎn)沒(méi)有達(dá)到成熟的地步.

? ?3.5可視化數(shù)據(jù)挖掘 目前.在可視化工具方面已經(jīng)有所發(fā)展.可視化工具除了較 常見(jiàn)的柱形或條形統(tǒng)計(jì)圖表、餅圖、曲線、柱狀圖、箱線圖等等, 還有其他工具如幾何圖形(如平行坐標(biāo))、分級(jí)技術(shù)、圖標(biāo)技術(shù). 可視化數(shù)據(jù)挖掘?qū)τ谘芯空呤莻€(gè)充滿吸引力的領(lǐng)域.因?yàn)榭梢?化技術(shù)可以幫助研究者更好地解釋數(shù)據(jù)、發(fā)現(xiàn)數(shù)據(jù)的模式.通過(guò) 發(fā)展技術(shù)和系統(tǒng)來(lái)尋求數(shù)據(jù)挖掘過(guò)程中的可視化方法.使知識(shí) 發(fā)現(xiàn)的過(guò)程易于被用戶理解和操縱.可使數(shù)據(jù)挖掘過(guò)程成為用 戶業(yè)務(wù)流程的一部分.也便于在知識(shí)發(fā)現(xiàn)的過(guò)程中進(jìn)行人機(jī)交 互:包括數(shù)據(jù)用戶化呈現(xiàn)與交互操縱兩部分.

? ?3.6過(guò)程數(shù)據(jù)挖掘 一個(gè)重要的問(wèn)題是如何使數(shù)據(jù)挖掘過(guò)程自動(dòng)化.在數(shù)據(jù)挖 掘系統(tǒng)里面建立一種方法來(lái)幫助用戶避免許多數(shù)據(jù)挖掘中的錯(cuò) 誤.如果我們能夠?qū)⒏鞣N數(shù)據(jù)挖掘過(guò)程自動(dòng)化,就可以大大地減 少勞力.莉用目前的技術(shù)雖然可以快速地建模和尋找模式.但 90%的成本浪費(fèi)在預(yù)處理上,減少這些成本將極大地降低建模 的成本.另一個(gè)重要的問(wèn)題是如何將可視化和自動(dòng)化數(shù)據(jù)挖掘 技術(shù)結(jié)合在一起,在很多應(yīng)用上,數(shù)據(jù)挖掘的目標(biāo)和任務(wù)不太明 確,特別是在實(shí)驗(yàn)性數(shù)據(jù)分析.可視化可以幫助我們獲取數(shù)據(jù)的 更多信息和明確數(shù)據(jù)挖掘的任務(wù).

? ? 3.7動(dòng)態(tài)數(shù)據(jù)、RFID數(shù)據(jù)和傳感器網(wǎng)絡(luò)數(shù)據(jù)挖掘 隨著傳感器網(wǎng)絡(luò)、GPS、手機(jī)和其他移動(dòng)設(shè)備和RFID技術(shù) 的普遍。大量動(dòng)態(tài)數(shù)據(jù)需要被分析.在動(dòng)態(tài)數(shù)據(jù)、RFID數(shù)據(jù)和傳 感器數(shù)據(jù)挖掘領(lǐng)域里,還有許多尚未被研究的問(wèn)題:例如。尋找 關(guān)聯(lián)和規(guī)則性來(lái)clean有噪音的傳感器網(wǎng)絡(luò)和RnD數(shù)據(jù)、如何 為這些數(shù)據(jù)構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)、如何對(duì)千兆字節(jié)的RFID數(shù)據(jù)進(jìn)行 挖掘、如何chesty多維軌道數(shù)據(jù)等等.


轉(zhuǎn)載于:https://blog.51cto.com/icbcchina/1205233

總結(jié)

以上是生活随笔為你收集整理的数据挖掘研究的机遇及挑战 洪胜宏的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。