日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

数据挖掘之监督学习篇

發(fā)布時(shí)間:2024/3/13 编程问答 30 豆豆
生活随笔 收集整理的這篇文章主要介紹了 数据挖掘之监督学习篇 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

本文的筆記來(lái)源于<<Web 數(shù)據(jù)挖掘>> Bing Liu著


監(jiān)督學(xué)習(xí):分類(Classification)或歸納學(xué)習(xí)(Inductive Learning)

1. 基本概念

屬性值(Attribute-Values): A = {A1, A2, ..., An}來(lái)描述

類標(biāo)(Class Label):C = {c1,c2,..., cn}

一個(gè)用于學(xué)習(xí)的數(shù)據(jù)集就是一張關(guān)系表,表里的每條記錄描述了一條“以往經(jīng)驗(yàn)”

一條數(shù)據(jù)記錄即一個(gè)case

給出一個(gè)DataSet,機(jī)器學(xué)習(xí)的目標(biāo) 即產(chǎn)生一個(gè)聯(lián)系屬性值集合A和類標(biāo)集合C的分類/預(yù)測(cè)函數(shù)(Classification/Predication Function),該函數(shù)可用于預(yù)測(cè)新的屬性集合(數(shù)據(jù)實(shí)例)的類標(biāo)。

該函數(shù)也被稱為分類模型(Classification Model)、預(yù)測(cè)模型(Predictive Model)或簡(jiǎn)稱淡分類器(Classifier).


監(jiān)督學(xué)習(xí)(Supervised Learning):所有數(shù)據(jù)已經(jīng)給出了類標(biāo)?

無(wú)監(jiān)督學(xué)習(xí)(Unsupervised Learning):所有的類屬性都是未知的

訓(xùn)練數(shù)據(jù)集(Training Data):算法用于進(jìn)行學(xué)習(xí)的數(shù)據(jù)集叫做訓(xùn)練數(shù)據(jù)集

測(cè)試數(shù)據(jù)集(Test Data):當(dāng)學(xué)習(xí)算法(Learning Algorithm)用訓(xùn)練數(shù)據(jù)學(xué)習(xí)得到一個(gè)模型后,使用測(cè)試數(shù)據(jù)集來(lái)評(píng)測(cè)該模型的精準(zhǔn)度。

分類精準(zhǔn)度 = 正確分類的測(cè)試用例個(gè)數(shù)/測(cè)試用的總數(shù)

訓(xùn)練過(guò)程(Training Step) -> 訓(xùn)練階段(Training Phase)

測(cè)試過(guò)程(Testing Step)-> 測(cè)試階段(Testing Phase)


2. 決策樹推理

得到的分類模型表示是一棵樹的形式,稱之為決策樹(Decision Tree)

決策節(jié)點(diǎn)(Decision Nodes中間節(jié)點(diǎn))

葉子節(jié)點(diǎn)(Leaf Nodes)

純的子集(Pure Subset):數(shù)據(jù)實(shí)例類標(biāo)全部一致

(1)學(xué)習(xí)算法

分治(Divide-and-Conquer)策略:遞歸的對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行分隔,從而構(gòu)造決策樹。

最開始的時(shí)候,所有的數(shù)據(jù)樣例都在根部,隨著決策樹的增長(zhǎng),樣例被不斷的遞歸的分隔。

遞歸的終止條件(Stopping Criteria):當(dāng)所有的當(dāng)前節(jié)點(diǎn)中的數(shù)據(jù)都屬于同一類時(shí),迭代終止。

在學(xué)習(xí)算法中,每一個(gè)后續(xù)的遞歸都選擇最佳分類屬性(Best Attribute)作為分隔當(dāng)前數(shù)據(jù)實(shí)例集的屬性。

最佳分類屬性的選擇是通過(guò)一個(gè)混雜度函數(shù)(Impurity Function)來(lái)實(shí)現(xiàn)的:這個(gè)函數(shù)反映了用該屬性進(jìn)行

數(shù)據(jù)分隔后的數(shù)據(jù)集的混雜度。

(2)混雜度函數(shù)

信息增益(Information Gain):

信息增益率(Information Gain Ratio):

(3)處理連續(xù)屬性

為將決策樹構(gòu)建算法應(yīng)用于連續(xù)屬性,在一個(gè)樹節(jié)點(diǎn)中可以將屬性Ai的值劃分成幾人上區(qū)間,每個(gè)區(qū)間可被視為一個(gè)離散值。

C4.5中采用了二元分割(Binary Split),可使用一個(gè)合適的分割閾值(Threshold)

(4)其他問(wèn)題

剪枝和過(guò)度擬合(Tree Pruning and Overfitting)

過(guò)度擬合:一個(gè)決策樹算法遞歸地劃分?jǐn)?shù)據(jù),直到不純凈度為0或沒(méi)有其他屬性。這個(gè)過(guò)程可能得到深度很大的樹,其中很多葉子節(jié)點(diǎn)只覆蓋很少數(shù)目的訓(xùn)練實(shí)例。若用這樣的一棵樹去預(yù)測(cè)訓(xùn)練集,其精度將非常高;但當(dāng)它用來(lái)對(duì)測(cè)試數(shù)據(jù)進(jìn)行分類時(shí),其精度可能會(huì)非常低。這樣的學(xué)習(xí)結(jié)果是意義不大的,也即決策樹不能很好地泛化到所有數(shù)據(jù)上。這種現(xiàn)象即為過(guò)度擬合(Overfitting)

為減少過(guò)度擬合,可對(duì)樹進(jìn)行剪枝,即刪除一些子樹或分支,用多個(gè)類的葉節(jié)點(diǎn)代替這些分支。一個(gè)是提早結(jié)束(Stopping Early)樹構(gòu)建過(guò)程(稱為預(yù)剪枝,Pre-pruning);另是在樹構(gòu)建完畢之后再剪枝(稱為后剪枝,Post-pruning)。一般認(rèn)為后剪枝比較有效,預(yù)剪枝會(huì)有危險(xiǎn),因不知道在算法停止前,當(dāng)樹進(jìn)一步擴(kuò)展后會(huì)發(fā)生什么。

驗(yàn)證集合(Validation Set):使用另一個(gè)在訓(xùn)練和測(cè)試過(guò)程中都未被使用的獨(dú)立數(shù)據(jù)集來(lái)進(jìn)行,這個(gè)獨(dú)立數(shù)據(jù)集通常稱為驗(yàn)證集合。在生成了一個(gè)決策樹后,首先使用它來(lái)對(duì)驗(yàn)證集合上的數(shù)據(jù)進(jìn)行分類。

規(guī)則剪枝(Rule Pruning):一棵決策樹可以被轉(zhuǎn)換成一組規(guī)則的結(jié)合,

泛化(Generalization):因剪枝命名得規(guī)則變得 更加一般(具有較少條件限制),即泛化。

特殊(Specific):具有較多條件限制的規(guī)則被稱為比具有較少條件限制的規(guī)則要特殊。

經(jīng)剪枝后所得到的規(guī)則集合可能不再是互不相交且完全覆蓋(Mutually Exclusive and Exhaustive)。

在處理那些不滿足任何一個(gè)規(guī)則條件的測(cè)試數(shù)據(jù)時(shí),可將它分類為一個(gè)默認(rèn)類別(Default Class),通常是數(shù)據(jù)點(diǎn)最多的類。

處理缺失屬性值(Handling Missing Attribute Values):eg:屬性缺失時(shí),離散屬性可采用使用屬性中出現(xiàn)最為頻繁的屬性值;連續(xù)值屬性,可使用屬性的平均值來(lái)填充缺失值。

處理偏斜類別分布(Handling Skewed Class Distribution):eg:對(duì)數(shù)據(jù)進(jìn)行排序,采用排名靠前的情況。


3.評(píng)估分類器

分類精度(Accuracy):即用在測(cè)試集中被正確分類的數(shù)據(jù)數(shù)量除以測(cè)試集中的數(shù)據(jù)數(shù)量得到。

錯(cuò)誤率(Error Rate):即1-accuracy

(1)評(píng)估方法

Holdout集合:測(cè)試集也被稱為holdout集。一般情況下采用50-50或三分之二用于訓(xùn)練,三分之一用于測(cè)試。

將D劃分成訓(xùn)練集和測(cè)試集:

從D 中隨機(jī)采樣一組數(shù)據(jù)作為學(xué)習(xí)所用,其余部分用于測(cè)試;若數(shù)據(jù)采集是不斷累積的,可使用采集時(shí)間較早的數(shù)據(jù)來(lái)進(jìn)行訓(xùn)練/學(xué)習(xí),用時(shí)間靠后的數(shù)據(jù)進(jìn)行訓(xùn)練。

多次隨機(jī)采樣:當(dāng)可用數(shù)據(jù)集比較小時(shí),測(cè)試數(shù)據(jù)集可能會(huì)太小而不具有代表性,解決這一問(wèn)題的方法是進(jìn)行n次隨機(jī)采樣過(guò)程,每次都產(chǎn)生一個(gè)不同的訓(xùn)練集合和一個(gè)不同的測(cè)試集合,同時(shí)產(chǎn)生n個(gè)測(cè)試精度。在數(shù)據(jù)上最終的估計(jì)精度值這n個(gè)測(cè)試精度的平均值。

交叉驗(yàn)證(cross-Validation):當(dāng)數(shù)據(jù)集合較小時(shí),n重交叉驗(yàn)證(n-fold Cross-Validation)是經(jīng)常被采用的方法。該方法中,可用數(shù)據(jù)集被分成n個(gè)不相交的等大數(shù)據(jù)子集。然后每個(gè)子集被當(dāng)作測(cè)試集,其余的n-1個(gè)子集合起來(lái)當(dāng)作是訓(xùn)練集用來(lái)學(xué)習(xí)得到分類器。

缺一交叉驗(yàn)證(Leave-One-Out Cross-Validation):在每次交叉驗(yàn)證中只有一個(gè)測(cè)試數(shù)據(jù),其余的數(shù)據(jù)被用于訓(xùn)練。即若初始數(shù)據(jù)共有m個(gè)數(shù)據(jù)點(diǎn),則這種方法就是一個(gè)m重交叉驗(yàn)證。該方法可用于數(shù)據(jù)很小的情況下,而對(duì)于大數(shù)據(jù)集來(lái)說(shuō)這這種驗(yàn)證驗(yàn)證過(guò)程中建立m個(gè)分類器往往是很低效的。

(2)查準(zhǔn)率、查全率、F-score 和平衡點(diǎn)(Breakeven Point)

正例類別(Postive Class):那些用戶感興趣的類別

負(fù)例類別(Negative Class):除正例類別外的

?分類為正例分類為負(fù)例
實(shí)際為正例TPFN
實(shí)際為負(fù)例FPTN

查準(zhǔn)率(p):正確分類的正例數(shù)量 / 被分類的正例數(shù)量 ? p = TP / (TP+ FP)

查全率(r):被正確分類的正例 / 測(cè)試數(shù)據(jù)集中實(shí)際正例數(shù)量 ?r = TP / (TP+FN)

F-score:查準(zhǔn)率和查全率的調(diào)和平均值。 F = 2*p*r / (1/p + 1/r)

平衡點(diǎn):查準(zhǔn)率和查全率的平衡點(diǎn),即兩者相等的地方。r = p


4. 規(guī)則推理

(1)序列化覆蓋

有序化的規(guī)則(Ordered Rules)

有序化的類(Ordered Classes)

(2)規(guī)則學(xué)習(xí):Learn-One-Rule函數(shù)


5. 基于關(guān)聯(lián)規(guī)則的分類

(1)使用類關(guān)聯(lián)規(guī)則進(jìn)行分類

類關(guān)聯(lián)規(guī)則(CAR):

CBA(Classification Based on Association)

(2)類關(guān)聯(lián)規(guī)則挖掘

規(guī)則剪枝:

多個(gè)不同的最低支持度:

?稀有類:一個(gè)單獨(dú)的最小支持度是不夠的,因DataSet的分布可能是非常不均勻的,可能一個(gè)類占據(jù)了數(shù)據(jù)的大多數(shù),而另一個(gè)類在數(shù)據(jù)集中只有很小的比例,可賦予不同的最低支持minsup,使用一個(gè)全局的最低支持度t_minsup,可得到各個(gè)類的最低支持度。


6. 樸素貝葉斯 分類

條件獨(dú)立:

數(shù)值屬性: 離散的,連續(xù)數(shù)據(jù)需經(jīng)離散化處理

估計(jì)產(chǎn)生的零概率:

丟失的數(shù)據(jù):丟失的數(shù)據(jù)可被忽略,無(wú)論是在訓(xùn)練時(shí)估計(jì)概率還是分類時(shí)計(jì)鼻概率。


7. 樸素貝葉斯文本分類

(1)概率框架

生成模型主要基于兩個(gè)假設(shè):

數(shù)據(jù)(文檔)由一個(gè)混合模型生成;混合模型的每一個(gè)成分和類別一一對(duì)應(yīng)。

(2)樸素貝葉斯模型


樸素貝葉斯學(xué)習(xí)效率很高,因只需對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行一次掃描即可估計(jì)出所有需要的概率,可作為增量算法使用。


8. 支持向量機(jī)

支持向量機(jī)是一個(gè)線性的學(xué)習(xí)系統(tǒng),可用于兩類的分類問(wèn)題 輸入向量: 每個(gè)數(shù)據(jù)樣例 超平面:決策邊界(Decision Boundary)或決策面(Decision Surface) 法向量:
線性支持向量機(jī):數(shù)據(jù)可分的情況: 給定一組線性可分的訓(xùn)練樣本,D = {(x1, y1),(x2,y2),......,(xn, yn)}, 學(xué)習(xí)問(wèn)題即解決最小化問(wèn)題(constrained minimization problem): 最小化:<w*w>/2 滿足:yi(<w*xi> + b)>= 1
解決問(wèn)題可得到w和b的解,就得到了具有最大邊距2/|w|的超平面<w*x> + b = 0

(1)線性支持向量機(jī):數(shù)據(jù)不可分的情況

實(shí)際上訓(xùn)練數(shù)據(jù)是有噪聲的,即某些原因存在誤差

采用拉格良朗日乘子

(2)非線性支持向量機(jī):核方法

之前討論的支持向量機(jī)需要正負(fù)便被 線性分隔,即決策邊界必須是一個(gè)超平面。為解決非純屬分割的數(shù)據(jù),需將原始的輸入數(shù)據(jù)變換成另一個(gè)空間(通常是一個(gè)更高維的空間),這樣在的空間中可以用線性決策邊界分割正例和負(fù)例,這個(gè)新的空間被稱為特征空間,原始的數(shù)據(jù)空間被稱為輸入空間


9. k-近鄰學(xué)習(xí)

決策樹、規(guī)則集合(sets of rules)、后驗(yàn)概率及超平面 均屬迫切學(xué)習(xí)(Eager Learning)方法

k近鄰(kNN)是一種惰性學(xué)習(xí)(Lazing Learning)方法


10. 分類器的集成

(1)Bagging

給定一個(gè)有n個(gè)樣例的訓(xùn)練集合D和一個(gè)基本的學(xué)習(xí)算法,bagging(Bootstrap Aggregating)是這樣實(shí)現(xiàn)的:

訓(xùn)練:

生成k個(gè)bootstrap樣本集合S1,S2,..., Sk,每個(gè)樣本集合都由有放回地從D中隨機(jī)抽取得到(drawing at random with replacement)。這樣一個(gè)樣本集合被稱為原始訓(xùn)練樣本D的一個(gè)自展復(fù)制(Bootstrap Replicate)。每個(gè)樣本集合Si平均含有63.2%的原始樣本D,其中一些樣本可能復(fù)制出現(xiàn)。

對(duì)每一個(gè)樣本集合Si都構(gòu)造一個(gè)分類器,將得到的k個(gè)分類器,所有分類器由同樣的基本學(xué)習(xí)算法得到。

測(cè)試:

對(duì)每個(gè)測(cè)試樣例進(jìn)行分類,由k個(gè)分類投票(權(quán)重相同)決定、占多數(shù)的類別將會(huì)被賦予那個(gè)測(cè)試樣例。

(2)Boosting

Boosting指的是一組集成方法,通過(guò)操作訓(xùn)練樣本和生成許多分類器來(lái)提高分類準(zhǔn)確率。

AdaBoost算法:給每個(gè)訓(xùn)練樣本賦予不同的權(quán)重。






















總結(jié)

以上是生活随笔為你收集整理的数据挖掘之监督学习篇的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。