如何在机器学习项目中使用统计方法的示例
摘要:?在本文中,將通過十個實例介紹在機器學(xué)習(xí)項目中起關(guān)鍵作用的統(tǒng)計學(xué)方法。
統(tǒng)計學(xué)和機器學(xué)習(xí)是兩個密切相關(guān)的領(lǐng)域。兩者的界限有時非常模糊,例如有一些明顯屬于統(tǒng)計學(xué)領(lǐng)域的方法可以很好地處理機器學(xué)習(xí)項目中的問題。事實上,機器學(xué)習(xí)預(yù)測建模項目必須通過統(tǒng)計學(xué)方法才能有效的進行。
在本文中,我們將通過實例介紹一些在預(yù)測建模問題中起關(guān)鍵作用的統(tǒng)計學(xué)方法。這將證明,統(tǒng)計學(xué)的有效知識對解決預(yù)測建模問題是必不可少的。
?
1、問題框架
?
在預(yù)測建模問題中,影響最大的可能就是問題框架了。它要對問題類型做不同的選擇,例如選擇回歸或分類,以及問題的輸入輸出的結(jié)構(gòu)和類型。
問題框架并不總是顯而易見的。對于該領(lǐng)域的初入門者,需要對領(lǐng)域的觀察發(fā)現(xiàn)結(jié)果進行深入研究。而對于那些總是從傳統(tǒng)角度看待問題的領(lǐng)域?qū)<襾碚f,則需要從多角度考慮數(shù)據(jù)。
在構(gòu)思問題框架時統(tǒng)計學(xué)方法能夠幫助探索數(shù)據(jù),包括:
·探索性數(shù)據(jù)分析:通過總結(jié)和可視化探索數(shù)據(jù)的ad hoc視圖。
·數(shù)據(jù)挖掘:自動發(fā)現(xiàn)數(shù)據(jù)中的結(jié)構(gòu)化關(guān)系和模式。
?
2、數(shù)據(jù)理解
?
數(shù)據(jù)理解意味著要對變量的分布和變量之間的關(guān)系有一個深入的了解。這些知識有些來自領(lǐng)域的專業(yè)知識,或者需要專業(yè)知識來解釋。然而,不論是領(lǐng)域?qū)<疫€是新手都是從這個領(lǐng)域的觀察資料中獲益。
統(tǒng)計方法的兩大分支可用于幫助理解數(shù)據(jù):
·匯總統(tǒng)計:該方法使用統(tǒng)計量總結(jié)變量之間的分布和關(guān)系。
·數(shù)據(jù)可視化:該方法使用可視化方法(如圖解、散點圖、曲線圖)來總結(jié)變量之間的分布和關(guān)系。
?
3、數(shù)據(jù)清理
?
通過直接觀察發(fā)現(xiàn)的成果,往往不能作為最原始的數(shù)據(jù)。因為盡管數(shù)據(jù)是數(shù)字化的,它還是會受到進程的影響損害數(shù)據(jù)保真度,并且反過來這些數(shù)據(jù)還會對下游進程或模型造成影響。
一些例子包括:
·數(shù)據(jù)損壞。
·數(shù)據(jù)錯誤。
·數(shù)據(jù)丟失。
識別和修復(fù)數(shù)據(jù)問題的過程被稱為數(shù)據(jù)清理。
統(tǒng)計學(xué)中有些方法可用來進行數(shù)據(jù)清理,例如:
·異常點檢測:識別分布中遠離預(yù)期值的異常值。
·歸責(zé):修復(fù)或填充觀察結(jié)果中的損壞值或缺失值。
?
4、數(shù)據(jù)選擇
?
在建模時,并非所有的觀察值或所有的變量都是相關(guān)的。
將數(shù)據(jù)范圍不斷縮小,直到剩余元素對預(yù)測結(jié)果最有效的過程稱為數(shù)據(jù)選擇。
用于數(shù)據(jù)選擇的兩種統(tǒng)計方法為:
·數(shù)據(jù)樣本:系統(tǒng)地從較大數(shù)據(jù)集中創(chuàng)建小的具有代表性的樣本。
·特征選擇:自動識別與輸出結(jié)果最相關(guān)的變量。
?
5、數(shù)據(jù)準(zhǔn)備
?
通常數(shù)據(jù)是不能直接用于建模的。所以為了匹配已選好的問題框架或?qū)W習(xí)算法,要對數(shù)據(jù)進行一些轉(zhuǎn)換來改變數(shù)據(jù)的形狀或結(jié)構(gòu)。
可使用以下統(tǒng)計方法進行數(shù)據(jù)準(zhǔn)備:
·擴展:如標(biāo)準(zhǔn)化、規(guī)范化等方法。
·編碼:類似整數(shù)編碼和熱編碼的方法。
·變換:類似Box-Cox方法那樣的功率轉(zhuǎn)換方法。
?
6、模型評估
?
預(yù)測建模問題的關(guān)鍵是評估學(xué)習(xí)方法,當(dāng)在訓(xùn)練模型中對沒見過的數(shù)據(jù)進行預(yù)測時,需要對模型的技能進行評估。這種訓(xùn)練和評估預(yù)測模型的過程稱為實驗設(shè)計。
·實驗設(shè)計:該方法能夠通過設(shè)計系統(tǒng)實驗來比較獨立變量對輸出結(jié)果的影響,如機器學(xué)習(xí)算法的選擇對預(yù)測精度的影響。
有些實驗設(shè)計的方法可以重新采樣數(shù)據(jù)集,從而更經(jīng)濟的使用數(shù)據(jù)來預(yù)估模型技能。
·重采樣方法:為了訓(xùn)練和評估預(yù)測模型,系統(tǒng)地將數(shù)據(jù)集分成子集的方法。
?
7、模型配置
?
一個給定的機器學(xué)習(xí)算法通常具有一套超參數(shù),通過超參數(shù)實現(xiàn)對特定問題量身定制學(xué)習(xí)方法。超參數(shù)的配置本質(zhì)上是經(jīng)驗性的而不是分析性的,所以需要大量實驗來評估不同超參數(shù)值對模型技能的影響。
使用統(tǒng)計的兩個子領(lǐng)域之一對不同超參數(shù)配置之間的結(jié)果進行解釋和比較,即:
·統(tǒng)計假設(shè)檢驗:該方法能在給定結(jié)果的假設(shè)或預(yù)期的情況下,量化觀察結(jié)果的可能性。
·估算統(tǒng)計:能夠用置信區(qū)間量化結(jié)果的不確定性。
?
8、模型選擇
?
眾多機器學(xué)習(xí)算法中的某一個也許剛好適用于給定的預(yù)測建模問題。所以,選擇一種方法作為解決方案的過程稱為模型選擇。這可能會涉及到一套標(biāo)準(zhǔn),不僅要考慮項目利益相關(guān)方,還有對問題評估方法預(yù)測技巧的要求。
可以使用與模型配置一樣的兩類統(tǒng)計方法來解釋不同模型的估算技能,即:統(tǒng)計假設(shè)檢驗和估算統(tǒng)計方法,從而實現(xiàn)模型選擇。
?
9、模型表示
?
一旦最終模型得到訓(xùn)練,那它基于真實數(shù)據(jù)部署后就可以進行實際預(yù)測,并呈現(xiàn)出最終結(jié)果。
最終,模型表示的一部分包括展示模型的評估技能。
估計統(tǒng)計領(lǐng)域的一些方法可以通過使用容忍區(qū)間和置信區(qū)間,達到量化機器學(xué)習(xí)模型評估技能的不確定性。
·估計統(tǒng)計。該方法通過置信區(qū)間量化模型技能的不確定性。
?
10、模型的預(yù)測
?
最后,是時候使用最終模型對我們不知道的真實結(jié)果預(yù)測新數(shù)據(jù)了。預(yù)測中非常重要的一部分是量化預(yù)測的可信度。
我們可以使用與模型表示一樣的估計統(tǒng)計方法來量化這種不確定性。
?
總結(jié)
?
通過本文,你應(yīng)該了解到了統(tǒng)計方法在整個預(yù)測建模項目過程中的重要性。
?
數(shù)十款阿里云產(chǎn)品限時折扣中,趕緊點擊領(lǐng)劵開始云上實踐吧!
本文由北郵@愛可可-愛生活?老師推薦,阿里云云棲社區(qū)組織翻譯。
文章原標(biāo)題《10 Examples of How to Use Statistical Methods in a Machine Learning Project》
作者:Jason Brownlee
譯者:奧特曼,審校:袁虎。
文章為簡譯,更為詳細的內(nèi)容,請查看原文
?
原文鏈接
總結(jié)
以上是生活随笔為你收集整理的如何在机器学习项目中使用统计方法的示例的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: AI写程序,这事可没那么简单!
- 下一篇: 提升普适性,阿里云官方SDK发布支持Go