何为优秀的机器学习特征 zz
提供好的特征是機(jī)器學(xué)習(xí)任務(wù)中最重要的工作,那么何為優(yōu)秀的機(jī)器學(xué)習(xí)特征?以及如何高效地組合這些特征?
以二分類問(wèn)題為例,好的特征具有很好的區(qū)分性。例如學(xué)習(xí)任務(wù)是區(qū)分兩種不同類型的狗:灰獵犬(Greyhound)和拉布拉多犬(Labrador)。假設(shè)有身高和眼睛的顏色兩種特征。一般而言,灰獵犬的平均身高要比拉布拉多犬要高一些,而狗的眼睛的顏色不取決于夠的品種,因此可以認(rèn)為“身高”這個(gè)特征就比“眼睛顏色”這個(gè)特征更有用,因?yàn)椤把劬︻伾边@個(gè)特征沒(méi)有告訴我們?nèi)魏涡畔ⅰ?/p>
雖然灰獵犬的平均身高要比拉布拉多犬要高一些,但并不是說(shuō)所有灰獵犬的身高都要比拉布拉多犬要高,那么為什么“身高”是一個(gè)有用的特征呢?假設(shè)在一個(gè)數(shù)據(jù)集D上兩種類型的狗的身高分布如下圖所示,其中紅色表示灰獵犬,藍(lán)色表示比拉布拉多犬。在這個(gè)數(shù)據(jù)集D上灰獵犬和拉布拉多犬各有500值,平均身高分別為28英寸和24英寸。
現(xiàn)在我們需要斷定在特定的身高每種狗的概率分布。現(xiàn)假設(shè)有一批身高為20英寸的狗,我們?cè)撊绾晤A(yù)測(cè)這批狗的品種,使得我們的預(yù)測(cè)錯(cuò)誤率最低呢?根據(jù)上面的圖,我們判斷這批狗中的大部分可能是拉布拉多犬。同樣,看圖的靠右側(cè)的柱狀圖,比如35英寸的身高的狗我們有信心認(rèn)為其是灰獵犬。25英寸高的狗呢?這個(gè)時(shí)候我們就很難判斷其是什么品種了。綜上,身高是一個(gè)有用的特征,但它并不完美。一般而言,機(jī)器學(xué)習(xí)任務(wù)都很難只需要單一的特征。這就是為什么在機(jī)器學(xué)習(xí)任務(wù)里我們需要多種特征,否則就不需要機(jī)器學(xué)習(xí)算法,而只需要寫if else語(yǔ)句就夠了。Features capture different types of information。
假設(shè)一個(gè)特征的取值在二分類任務(wù)的正例和反例中各占大概一半的比例,那么這樣的特征是沒(méi)有用的,比如上面例子中的狗的眼睛顏色。無(wú)用的特征會(huì)降低分類器的準(zhǔn)確率,特別是在樣本數(shù)量較少的情況下。
由于不同類型的特征還應(yīng)該包含不同類型的信息,這樣才能夠起到互相補(bǔ)充的作用。也就是說(shuō)應(yīng)該避免冗余的特征。比如“單位為英寸的身高”和“單位和厘米的身高”兩個(gè)特征之間并不是相互獨(dú)立的,只是同一個(gè)屬性的2種不同維度的測(cè)試數(shù)據(jù)而已,因此這2個(gè)特征只要保留其中一個(gè)就可以了。應(yīng)該刪除與已有特征高度密切相關(guān)的特征。
最后,好的特征還應(yīng)該是易于理解的。比如要預(yù)測(cè)從一個(gè)城市寄一封信去另一個(gè)城市需要多長(zhǎng)時(shí)間可以到達(dá),一個(gè)易于理解的特征的例子是這2座城市之間的距離;一個(gè)不易于理解的特征組合是這2個(gè)城市各種的經(jīng)緯度信息。因?yàn)楹?jiǎn)單的關(guān)系更加易于學(xué)習(xí),復(fù)雜的關(guān)系則需要更多的訓(xùn)練數(shù)據(jù),因此更難被學(xué)習(xí)出來(lái)。
總結(jié)
- 避免無(wú)用的特征(avoid useless features)
- 避免冗余的特征(avoid redundant features)
- 使用易于理解的簡(jiǎn)單特征(good features should easy to understand)
好的特征具有如下的特點(diǎn):
- 有區(qū)分性(Informative)
- 特征之間相互獨(dú)立(Independent)
- 簡(jiǎn)單易于理解(Simple)
轉(zhuǎn)載于:https://www.cnblogs.com/end/p/10795547.html
總結(jié)
以上是生活随笔為你收集整理的何为优秀的机器学习特征 zz的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: Probabilistic Princi
- 下一篇: Angular2入门--架构概览