数据挖掘论文matlab,数据挖掘论文3000字范文参考
數(shù)數(shù)據(jù)挖掘通常與計(jì)算機(jī)科學(xué)有關(guān),并通過統(tǒng)計(jì)、在線分析處理、情報(bào)檢索、機(jī)器學(xué)習(xí)、專家系統(tǒng)和模式識(shí)別等諸多方法來(lái)實(shí)現(xiàn)上述目標(biāo)。本文精選幾篇關(guān)于數(shù)據(jù)發(fā)掘論文范文供大家學(xué)習(xí)一下。
數(shù)據(jù)挖掘論文一:
《數(shù)據(jù)挖掘中的屬性選擇偏差抑制算法研究》
摘要:決策樹算法廣泛應(yīng)用于數(shù)據(jù)挖掘領(lǐng)域之中.屬性選擇是決策樹方法挖掘效率的關(guān)鍵,但I(xiàn)D3方法和C4.5方法在選擇屬性時(shí),都會(huì)產(chǎn)生一定程度的選擇偏差.據(jù)此,該文對(duì)信息增益模型進(jìn)行了改進(jìn),將多次對(duì)數(shù)運(yùn)算的信息熵求取過程簡(jiǎn)化為多值求和,從而規(guī)避了屬性選擇出現(xiàn)偏差的可能性,也加快了決策樹構(gòu)建的執(zhí)行速度.依托學(xué)生情況數(shù)據(jù)展開的實(shí)驗(yàn)研究表明,與經(jīng)典的ID3方法相比,該文方法構(gòu)建的決策樹更加簡(jiǎn)潔.同時(shí),隨著數(shù)據(jù)樣本數(shù)量的增大,該文方法的執(zhí)行時(shí)間大為降低.
關(guān)鍵詞:數(shù)據(jù)挖掘;決策樹;屬性選擇;偏差抑制
信息化技術(shù)的飛速發(fā)展,使得人們獲得信息的渠道日益豐富,來(lái)自生產(chǎn)生活各個(gè)領(lǐng)域的數(shù)據(jù)信息讓人們應(yīng)接不暇.對(duì)海量的數(shù)據(jù)信息進(jìn)行整理,并從中尋找到對(duì)自己有價(jià)值的信息至關(guān)重要,這就推動(dòng)了數(shù)據(jù)發(fā)掘技術(shù)的不斷進(jìn)步[1].近年來(lái),數(shù)據(jù)挖掘技術(shù)形成了重要的分支:基于決策樹的挖掘方法、基于貝葉斯分類的挖掘方法、基于遺傳算法的挖掘方法、基于神經(jīng)網(wǎng)絡(luò)的挖掘方法[2-4].
在這幾大類方法中,基于決策樹的挖掘方法應(yīng)用最為廣泛,這是因?yàn)闆Q策樹方法具有抑制噪聲的能力,執(zhí)行速度快,并且適合于各種規(guī)模的數(shù)據(jù)集合[5].決策樹算法根據(jù)不同的屬性對(duì)數(shù)據(jù)對(duì)象進(jìn)行分類或測(cè)試,其中ID3型決策樹算法是比較有代表性的挖掘算法之一[6].ID3型決策樹采用了一種分治策略,依托信息熵理論并通過迭代分類器實(shí)現(xiàn)數(shù)據(jù)自動(dòng)分類[7].
郭亦東等[8]在口令分析中使用了數(shù)據(jù)挖掘技術(shù),并構(gòu)建了一種基于剪枝決策樹的挖掘方法,此方法中設(shè)計(jì)了節(jié)點(diǎn)代價(jià)的目標(biāo)函數(shù),并詳細(xì)地設(shè)計(jì)了節(jié)點(diǎn)擴(kuò)展、剪枝規(guī)則,從而進(jìn)一步提升了ID3型決策樹挖掘方法的效率.Kumar等[9]采取二分挖掘策略代替?zhèn)鹘y(tǒng)的線性挖掘策略,并對(duì)決策判斷的局部閾值進(jìn)行了分級(jí)改進(jìn),從而大大提高了決策樹的構(gòu)建效率.Ramos等[10]將模糊決策理論引入數(shù)據(jù)挖掘領(lǐng)域中的決策樹構(gòu)建,并證實(shí)模糊決策可以進(jìn)一步提升決策樹的歸納和推理能力.
基于決策樹的數(shù)據(jù)挖掘方法依賴于準(zhǔn)確的屬性設(shè)置和表達(dá),為了進(jìn)一步提升決策樹挖掘方法的準(zhǔn)確率,本文對(duì)決策樹挖掘過程中的屬性選擇偏差抑制問題進(jìn)行探討,以期得到具有更優(yōu)秀性能的挖掘方法.
1、基于屬性選擇偏差抑制的決策樹挖掘算法
在一個(gè)挖掘算法中,決策樹的性能是否理想取決于屬性選擇得是否理想.選擇了合適的屬性,決策樹就可以精煉,其預(yù)測(cè)能力也會(huì)大大提升.選擇合適的屬性、設(shè)置最精簡(jiǎn)的決策樹是一個(gè)典型的NP問題(Non-Deterministic Polynomial,非確定多項(xiàng)式問題),已有的算法大都采取啟發(fā)式策略加以解決.這種做法的最大問題在于啟發(fā)式策略選擇的屬性,在數(shù)據(jù)分類過程中區(qū)分能力不能達(dá)到最準(zhǔn)確,并且啟發(fā)式策略執(zhí)行依靠的計(jì)算復(fù)雜程度過高.
這里,數(shù)據(jù)分類的信息量一共有n個(gè),分別用d1,d2,…,dn來(lái)表示.可見,公式(1)的計(jì)算過程涉及了多次對(duì)數(shù)運(yùn)算,當(dāng)參與挖掘的數(shù)據(jù)量過大時(shí),這種算法的計(jì)算成本和時(shí)間代價(jià)非常高.作為決策樹挖掘算法中的兩類代表性方法,ID3挖掘算法依靠信息熵來(lái)選擇屬性,選擇結(jié)果往往更傾向于取值較多的屬性;C4.5挖掘算法則根據(jù)信息熵的增益來(lái)選擇屬性,選擇結(jié)果往往更傾向于取值不均勻的屬性.本文構(gòu)建決策樹挖掘算法的思路是在信息熵理論的基礎(chǔ)上進(jìn)行改進(jìn),并對(duì)屬性選擇時(shí)的偏差進(jìn)行有效的抑制,同時(shí)兼顧屬性選擇的準(zhǔn)確性和算法的執(zhí)行速度.本文算法的首要工作是在信息熵和信息增益的基礎(chǔ)上建立新的屬性選擇標(biāo)準(zhǔn),抑制決策樹算法在屬性選擇過程中出現(xiàn)的偏差,提高屬性選擇的合理性、準(zhǔn)確性.
同時(shí),本文算法試圖構(gòu)建最精煉的決策樹,提高決策樹的構(gòu)建速度、提升決策樹分類的準(zhǔn)確率和效率.
2、實(shí)驗(yàn)結(jié)果與分析
為了驗(yàn)證本文在數(shù)據(jù)挖掘算法中提出的決策樹構(gòu)建方法的有效性,本文接下來(lái)的工作將針對(duì)具體的數(shù)據(jù)展開實(shí)驗(yàn)研究.實(shí)驗(yàn)中所用的計(jì)算機(jī)硬件配置為amd雙核、主頻2.0GHz的CPU,內(nèi)存大小為8GB,硬盤大小為500GB.實(shí)驗(yàn)中所用的計(jì)算機(jī)軟件配置為windows 7.0操作系統(tǒng),matlab程序設(shè)計(jì)語(yǔ)言及編譯環(huán)境.實(shí)驗(yàn)?zāi)康拇_立為驗(yàn)證本文方法構(gòu)建決策樹的精煉性和執(zhí)行速度.實(shí)驗(yàn)的數(shù)據(jù)對(duì)象為某高校的學(xué)生情況,數(shù)據(jù)屬性選擇了獎(jiǎng)學(xué)金情況、課程成績(jī)、性別.
實(shí)驗(yàn)中,總樣本數(shù)量為2 000個(gè),從15,30,60,120,240,480,960,1920這樣的順序逐步擴(kuò)大樣本量,以測(cè)試本文提出的方法的性能.如表1所示,包含了30個(gè)樣本的學(xué)生情況數(shù)據(jù).
表1 參與數(shù)據(jù)挖掘決策樹構(gòu)建的學(xué)生情況數(shù)據(jù)樣本
為了形成和本文方法執(zhí)行效果的直觀對(duì)照,筆者還選擇了經(jīng)典的ID3方法作為本文方法的比較算法.根據(jù)ID3方法以及表1中的樣本數(shù)據(jù),構(gòu)建的決策樹如圖1所示.
圖1 經(jīng)典的ID3方法獲得的決策樹
圖2 本文方法獲得的決策樹
對(duì)比圖2和圖1的決策樹構(gòu)建結(jié)果,可以明顯看出本文方法有效地避免了屬性選擇的多值傾向,從而有效地精簡(jiǎn)了決策樹的結(jié)構(gòu),優(yōu)于ID3方法.下面,筆者再?gòu)膱?zhí)行時(shí)間上比較本文方法和ID3方法的差異.實(shí)驗(yàn)對(duì)象的樣本數(shù)量從15個(gè)樣本開始,逐步翻倍到30,60,120,240,480,960,1920.2種方法構(gòu)建決策樹的時(shí)間對(duì)比,如圖3所示.
圖3 2種方法的執(zhí)行時(shí)間對(duì)比
從圖3中可知,本文構(gòu)建的方法因?yàn)楸苊饬硕啻螌?duì)數(shù)運(yùn)算,而代之以求和運(yùn)算,執(zhí)行速度明顯提升,大大優(yōu)于ID3算法.尤其是隨著數(shù)據(jù)集合規(guī)模不斷擴(kuò)大,這種優(yōu)勢(shì)更加明顯,這充分說(shuō)明了本文方法在速度上的優(yōu)勢(shì)。
3、結(jié)論
針對(duì)數(shù)據(jù)挖掘問題,本文對(duì)基于決策樹的挖掘方法展開了研究.經(jīng)典的ID3方法和C4.5方法在決策樹構(gòu)建的過程中存在屬性選擇多值傾向和不均勻傾向,具有一定的選擇偏差.為此,在信息增益模型的基礎(chǔ)上,筆者對(duì)信息熵的計(jì)算過程進(jìn)行了進(jìn)一步的改進(jìn)處理,用多值求和替代了多次對(duì)數(shù)運(yùn)算.這種計(jì)算原理上的改變,抑制了屬性選擇的偏差傾向,也提升了決策樹的構(gòu)建速度.實(shí)驗(yàn)結(jié)果表明,本文方法與經(jīng)典的ID3方法相比,構(gòu)建的決策樹更加精煉,執(zhí)行速度的優(yōu)勢(shì)也非常明顯。
總結(jié)
以上是生活随笔為你收集整理的数据挖掘论文matlab,数据挖掘论文3000字范文参考的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 第一百二十六期:代码以外的生存之道,献给
- 下一篇: matlab地球卫星模型,地球卫星三维运