李航统计学习方法
統(tǒng)計(jì)學(xué)習(xí)方法概論:
統(tǒng)計(jì)學(xué)習(xí)特點(diǎn)
統(tǒng)計(jì)學(xué)習(xí)的對(duì)象是數(shù)據(jù),它要求數(shù)據(jù)是獨(dú)立同分布的,從數(shù)據(jù)中提取特征,抽象出模型,發(fā)現(xiàn)數(shù)據(jù)中的規(guī)律然后對(duì)數(shù)據(jù)進(jìn)行分析于預(yù)測(cè)。
統(tǒng)計(jì)學(xué)習(xí)方法三要素
模型、策略 、算法
模型:
模型是所要學(xué)習(xí)的條件概率分布或決策函數(shù),首先模型有一個(gè)假設(shè)空間,其包含所有可能的條件概率分布函數(shù)或者決策函數(shù),假設(shè)空間中的模型有無(wú)窮多個(gè)。
策略
策略就是按照什么樣的準(zhǔn)則學(xué)習(xí)或者選擇最優(yōu)的模型,期望風(fēng)險(xiǎn)最小化是理論上的原則,但是期望風(fēng)險(xiǎn)不可以得到,所以用經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化原則和結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則替代期望風(fēng)險(xiǎn)最小化。經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化原則適合于大樣本,當(dāng)樣本無(wú)限大其等效于期望風(fēng)險(xiǎn)最小化,但是當(dāng)樣本較小時(shí)容易出現(xiàn)過擬合現(xiàn)象。結(jié)構(gòu)風(fēng)險(xiǎn)最小化是爭(zhēng)對(duì)小樣本,防止過擬合的情況,結(jié)構(gòu)風(fēng)險(xiǎn)化就是在經(jīng)驗(yàn)風(fēng)險(xiǎn)化上增加了一個(gè)正則化項(xiàng),是一個(gè)隨著模型的復(fù)雜度增加而遞增的函數(shù),以此來(lái)限制模型過于復(fù)雜而出現(xiàn)過擬合。確定策略實(shí)際上就是確定了最優(yōu)化的目標(biāo)函數(shù)。
算法
用什么算法求解最優(yōu)化目標(biāo)函數(shù)。
模型的評(píng)價(jià)
泛化誤差,泛化誤差上界越小越好。
生成方法和判別方法
感知機(jī)
感知機(jī)算法是神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)的基礎(chǔ),對(duì)線性可分的數(shù)據(jù)具有收斂性
貝葉斯
樸素貝葉斯
貝葉斯估計(jì)
決策樹
決策樹的兩個(gè)步驟生成樹和剪枝,生成樹的關(guān)鍵是特征選擇,依據(jù)信息增益來(lái)選擇區(qū)分度高的特征。剪枝的關(guān)鍵是依據(jù)損失函數(shù),剪枝消去過擬合的情況。
信息增益計(jì)算
ID3生成樹算法
出4.5生成樹算法
決策樹剪枝
CART算法
CART剪枝
總結(jié)
- 上一篇: 记录一段让我吐血的代码
- 下一篇: 线性支持向量机完全理解版