日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

机器学习系列(5)_从白富美相亲名单看特征选择与预处理(上)

發(fā)布時間:2025/3/21 编程问答 28 豆豆
生活随笔 收集整理的這篇文章主要介紹了 机器学习系列(5)_从白富美相亲名单看特征选择与预处理(上) 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

作者:龍心塵?&&寒小陽?
時間:2016年1月。?
出處:?
http://blog.csdn.net/longxinchen_ml/article/details/50471682

聲明:版權(quán)所有,轉(zhuǎn)載請聯(lián)系作者并注明出處

1. 引言

再過一個月就是春節(jié),相信有很多碼農(nóng)就要準(zhǔn)備歡天喜地地回家過(xiang)年(qin)了。我們今天也打算講一個相親的故事。

講機(jī)器學(xué)習(xí)為什么要講相親?被討論群里的小伙伴催著相親,哦不,催著講特征工程緊啊。只是我們不太敢講這么復(fù)雜高深的東西,畢竟工程實(shí)踐的經(jīng)驗(yàn)太復(fù)雜了,沒有統(tǒng)一的好解釋的理論,一般的教材講這方面的內(nèi)容不多。我們就打算以一個相親的故事為例,串一些特征工程的內(nèi)容。

2. 故事背景

事先聲明:本故事純屬虛構(gòu),如有雷同,純屬巧合!

海歸白富美韓梅梅剛回國,還沒適應(yīng)工作,母親就催著相親。以父母的關(guān)系,他們了解到的適齡單身男青年有100個。要從100個男生中找到1個理想的女婿,可謂百里挑一。韓梅梅母親也擔(dān)心女兒相親多了會反感,打算草擬一個相親名單,人數(shù)不多。怎么從中挑出優(yōu)秀男青年就是一個首要的問題。

3. 用機(jī)器學(xué)習(xí)的框架去分析

我們用機(jī)器學(xué)習(xí)的框架分析,在父母眼中,這100個男生最終將會分成兩類:“女婿”(1人)和“非女婿”(99人)。“女婿”和“非女婿”就叫做“標(biāo)簽”。

而選擇相親名單的標(biāo)準(zhǔn)——如“是否高富帥”、“是否海歸”等等——就叫作“特征”。最好能有一個特征能夠精確定位理想女婿。但這太過理想了。比較現(xiàn)實(shí)的方法是從這些“特征”中選擇、拆分、組合出最合適的特征,逐漸逼近我們的標(biāo)簽,以形成一個精簡的相親名單。而這個過程,就可以理解成特征處理、特征工程的過程。

但是,現(xiàn)實(shí)中的特征有千千萬,拆分重組之后特征又是幾何級數(shù)地增加,可能永遠(yuǎn)也窮舉不完。因此需要有統(tǒng)一客觀的指標(biāo)來衡量這些特征對標(biāo)簽的識別能力,以便進(jìn)一步地深入分析。而評估這些“特征”對我們的“標(biāo)簽”的有效程度的過程就叫作“特征有效性分析”。

4. 劇情一:韓媽媽的“如意算盤”

為人父母嘛,總是希望女兒嫁得好。韓媽媽的第一反應(yīng)的就是要找“高富帥”。先她先從這100個男生中挑了挑,符合高富帥這個標(biāo)準(zhǔn)的有5個人。

韓媽媽的如意算盤是這樣的:女婿就從這5個人中挑,概率就是20%,比之前的1%整整提高了20倍,嘿嘿嘿。。。

5. 特征有效性分析

其實(shí),這就韓媽媽不知不覺就走了一個特征有效性分析的過程。我們用圖表演示一下:?


?

考慮到各方面的概率,用下圖表示更加直觀:?

?

為了表述方便,我們以隨機(jī)挑女婿而不考慮任何特征的概率叫做“ 先驗(yàn)概率” (1%)。而中間的箭頭中的概率則表示 在已經(jīng)知道樣本所屬特征前提下 ,屬于女婿還是不屬于女婿的概率,也可以叫作 “標(biāo)簽相對于某個特征的后驗(yàn)概率” (20%)。而母親的如意算盤就是 考慮了上圖中紅圈部分的先驗(yàn)概率與后驗(yàn)概率(也可以叫條件概率) 。這其實(shí)是一種很樸素的特征有效性分析的方法。而且她還做了個更加精確的數(shù)量化描述:

驗(yàn)驗(yàn)=20%1%=20。?

只是在工程上做除法可能運(yùn)算會麻煩些,而兩邊同時取對數(shù)轉(zhuǎn)換成減法則更方便:

log(驗(yàn)驗(yàn))=log(驗(yàn))?log(驗(yàn))

概率表示著選女婿的可能性或者確定性。在本例中,后驗(yàn)概率的確定性比先驗(yàn)概率的確定性更高。可見,“確定性的增加”可以作為特征有效性分析的一個指標(biāo)。

我們進(jìn)一步分析,無論先驗(yàn)概率還是后驗(yàn)概率,其本身是0-1之間的一個數(shù),取完對數(shù)之后是一個負(fù)數(shù),這在現(xiàn)實(shí)中不太方便找到其對應(yīng)的現(xiàn)象解釋。但是概率的倒數(shù)一定大于1,取完對數(shù)之后就是一個正數(shù),就好找現(xiàn)實(shí)解釋了。我們可以把這個“概率倒數(shù)的對數(shù)”理解成不確定性的指標(biāo)。于是上式就變成:

log(驗(yàn)驗(yàn))=log(1驗(yàn))?log(1驗(yàn))

這里面的log(驗(yàn)驗(yàn))我們叫做互信息

因此,“不確定性的減少”可以作為特征有效性分析的一個指標(biāo)。這個結(jié)論我們接下來將會反復(fù)用到。

6. 劇情二:白富美巧勸慈母

韓媽媽半開玩笑地問韓梅梅:“我們家閨女只挑高富帥的怎么樣?”女兒想了想,說:“如果人家看不上我們怎么辦?”母親笑著說:“我們的家境哪里差了?何況我們的女兒這么優(yōu)秀,我們還看不上他們呢。”

女兒說:“這就是說明我們雙方不合適了。我們家條件雖然還不錯,但是比下有余、比上不足,跟真正條件好的家庭比較起來我們根本不算事兒。如果一味挑高富帥,他們可能覺得我們只是看中他們的錢,反倒把我們家看低了。相反,要是真要有個真正對我好的男生,比什么都幸福,而他不一定必須是高富帥。畢竟跟我一起相處一輩子的是一個活生生的人,而不是他背后的東西嘛。”

母親很有感慨地說:“嗯,你能這樣想我就放心了。梅梅真是長大了。那么,你打算怎么辦?”女兒說道:“高富帥也得分人,踏實(shí)人品好的也可以接觸一下,但是玩心太重不會照顧人的我就不喜歡。估計高富帥里面這兩種人一半一半吧。很多男生并不是高富帥,其中沒準(zhǔn)也有合適的人呢。”

7. 特征有效性分析

現(xiàn)在特征的分布發(fā)生了新變化。按韓梅梅的分析,高富帥中可能有一半她就不會喜歡,而不是高富帥的男生中沒準(zhǔn)有合適的人。我們可以簡單假設(shè)高富帥中與非高富帥中各有0.5個合適的人。則分析圖表如下:?



現(xiàn)在的情況是,“是不是女婿”的可能性同時分布在“是高富帥”和“不是高富帥”中,單獨(dú)衡量“高富帥”本身的后驗(yàn)概率已經(jīng)不夠描述特征的整體效果了。我們可以有一個考慮特征整體情況的指標(biāo)。

還是回到之前的那句話:

不確定性的減少”可以作為特征有效性分析的一個指標(biāo)。

我們之前考慮了“是女婿”的不確定性是log(11%),相應(yīng)的“不是女婿”的不確定性是log(199%),那么標(biāo)簽“是否女婿”作為整體的平均不確定性則可以理解為這兩個狀態(tài)的加權(quán)平均:

HY=1%×log(11%)+99%×log(199%)=0.08079。(全文假定對數(shù)log的底數(shù)取為2)

這就是傳說中的信息熵。我們用Y表示標(biāo)簽,用HY表示“是否女婿”的信息熵,也就是其整體的平均不確定性

那么考慮特征(“是否高帥富”)后的標(biāo)簽(“是否女婿”)的平均不確定性怎么衡量?我們用X:{,}來表示特征。其實(shí),與上面的思路類似,我們在已知特征為“是高富帥”的前提下,“是否女婿”這個標(biāo)簽的整體平均不確定性可以用相對“是高富帥”的后驗(yàn)概率來求出

H(Y|X=)=(0.5/5)×log(1(0.5/5))+(4.5/5)×log(1(4.5/5))=0.46900

在已知特征為“不是高富帥”的前提下,“是否女婿”這個標(biāo)簽的整體平均不確定性可以用相對“不是高富帥”的后驗(yàn)概率來求出:

H(Y|X=)=(0.5/95)×log(1(0.5/95))+(94.5/95)×log(1(94.5/95))=0.04741

因此,已知特征(無論具體是“是高富帥”還是“不是高富帥”)情況下的標(biāo)簽平均不確定性為前面兩種情況的加權(quán)平均:

H(Y|X)?
=P(X=)×H(Y|X=)+P(X=)×H(Y|X=)
=5/100×0.46900+95/100×0.04741=0.06849?
這就是傳說中的條件熵

所以,考慮特征后,標(biāo)簽的“不確定性的減少”為:

IY,X=HY?H(Y|X)=0.01230?
這個IY,X就叫做平均互信息

我們用同樣的方法去評價之前母親設(shè)想的女婿只在高富帥中的理想情況(也就是女婿只在高富帥中產(chǎn)生的情況)的互信息IY,X=0.04470

平均互信息從理想情況的0.04470下降到0.01230,也就是說原以為特征“是否高富帥”與標(biāo)簽“是否女婿”的相關(guān)性很高,后來發(fā)現(xiàn)相關(guān)性其實(shí)是比較低的。可見理想很豐滿,現(xiàn)實(shí)很骨感。

8. 劇情三:白富美重定名單

其實(shí),韓梅梅沒有說出來的話是她有一個青梅竹馬的碼農(nóng)叫李雷。她出國之前的對他的印象還不錯。如果按母親的標(biāo)準(zhǔn)李雷肯定排除在相親名單外了,而她想給他一個機(jī)會。

這時母親說話了:“我們家女兒考慮得挺好,那相親名單你來定吧。”女兒說:“不是高富帥的男生也該好好區(qū)分一下,那些品行端正、氣度不凡、踏實(shí)肯干的潛力股的男生我也比較欣賞,其他的就暫且不考慮了。”母親說:“就是說可以從高富帥中挑出部分品德好的,還有從不是高帥富的男生中挑出部分潛力股,共同組成一個新的名單,我們的女婿就在這里面了?”女兒不好意思地說:“媽媽您真著急,八字還沒一撇呢。”

接著,韓梅梅母女倆從高富帥中挑了2個口碑不錯的,又從不是高富帥的男生中條了10個很不錯的。最終組成了12人的相親名單。李雷的名字在其中。

9. 拆分重組成為新特征

其實(shí)以上韓梅梅母女倆完成了一次特征的拆分與重組過程。具體圖示如下:?

這里用“潛帥德”表示韓梅梅對“品行端正、氣度不凡、踏實(shí)肯干的潛力股”的特征的描述。

特征進(jìn)行拆分與重組的過程在特征工程中經(jīng)常出現(xiàn)。因?yàn)楫?dāng)你對特征與標(biāo)簽的相關(guān)性有定量的評估方法后,會篩選出那些不那么顯著的特征(如本例中的“是否高富帥”),然后去分析考核指標(biāo)這么低的原因,啟發(fā)你引入新的特征(如本例中的“是否品德良好”、“是否有潛力”)將原有特征拆分重組,可能會有更好的效果。而這些生成的新特征,又要經(jīng)過特征有效性分析來最終評估。如此反復(fù)迭代。

10. 特征有效性分析

我們用X2來表示新特征,與上面的思路類似,我們計算X2的平均互信息:

IY,X2=HY?H(Y|X2)=0.03114

與之前的平均互信息IY,X=0.01230比起來,有了顯著提高。可見新特征X2比之前的特征X更有效。

11. 劇情四:韓媽媽給名單分級

在跟韓梅梅聊完之后,韓媽媽轉(zhuǎn)念一想:“為什么非要有一份相親名單?可以把這12個人再分成兩類,第一類是高富帥的,先相親。這些覺得不合適后再考慮剩下的10個人啊。”

12. 特征有效性分析

我們繼續(xù)分析,用X3來表示新特征,與上面的思路類似,我們計算X3的平均互信息:

IY,X3=HY?H(Y|X3)=0.03593

與之前的平均互信息IY,X2=0.03114比起來,又有了一定的提高。可見新特征X3比之前的特征X2更有效。

韓媽媽真是為女兒的相親操碎了心。

13. 劇情五:韓媽媽問計趙媒婆

韓媽媽思索完之后抑制不住內(nèi)心的興奮,想找人傾訴。這時她正好在路上碰見了趙媒婆。趙媒婆在韓媽媽的老閨蜜圈中享有盛譽(yù),相親非常有經(jīng)驗(yàn)。

趙媒婆聽了韓媽媽的訴說后,微微一笑,說:“你這個名單不夠?qū)I(yè)。”韓媽媽大為詫異。趙媒婆繼續(xù)說:“高、富、帥三個特征本來就是相互獨(dú)立的三個特征,你硬生生地綁在一起,多少大好青年被你給甩掉了。后面的潛力股啊、人品端正啊什么的都類似。”韓媽媽恍然大悟:“真是這樣啊。”

趙媒婆說:“其實(shí)你這里最大的問題是這些特征的評估都是拍腦袋決定,沒有充分的現(xiàn)實(shí)數(shù)據(jù)做支撐,很可能會犯錯誤的。”韓媽媽暗暗點(diǎn)頭,心生佩服。

趙媒婆接著說:“還有一個問題,你準(zhǔn)備了兩份名單,也就是把人群分成了三份,你算平均互信息只能評價整體的,具體到每一份人群你怎么對他們評價?”韓媽媽想了想,說:“我們可以直接用相對于某個具體條件的信息熵啊。”趙媒婆說:“何苦這么麻煩呢?”

韓媽媽聽她話里有話,打算繼續(xù)問下去。

14. 評價特征選項(xiàng)的兩個方法

在趙媒婆最后一個問題中,韓媽媽所說的其實(shí)是可以計算以下三個值來評估具體的特征選項(xiàng):

  • H(Y|X3=)
  • H(Y|X3=)
  • H(Y|X3=)

而這三個值在之前計算條件熵H(Y|X3)的過程中就已經(jīng)計算出來了。所以比較起來應(yīng)該很方便。

其實(shí)更簡單的方法用他們相對于所需要標(biāo)簽的后驗(yàn)概率評價。如下圖紅色的部分,比較大小就可以找出評價較好的特征。?

顯然“高富帥德”的評分最高(0.25),“潛帥德”的評分次之(0.05),“不是高富帥德且不是潛帥德”評分最差(0)。符合韓媽媽的預(yù)期。

然而,趙媒婆的想說的并不是這種方法,而是邏輯回歸……

15. 劇情六:趙媒婆的數(shù)據(jù)庫

趙媒婆不等韓媽媽說話,就直接拿出了自己的神器:一個平板電腦。然后打開她的相親數(shù)據(jù)庫,點(diǎn)了點(diǎn)鼠標(biāo),一張巨大的表展現(xiàn)出來。韓媽媽目瞪口呆:“現(xiàn)在媒婆都用高科技了?”趙媒婆傲嬌地說:“那是。”

這張大表是她這么多年來全國各地相親介紹的所有男生信息,分別標(biāo)注了每個男生的升高、年齡、年薪、長相特點(diǎn)、教育經(jīng)歷、工作經(jīng)歷、是否海歸、工作年限、工作公司、工作地點(diǎn)、出身地、是否有戶口、是否公務(wù)員、具體職業(yè)、行業(yè)、性格傾向等等信息。

她還有一張女生信息表,另外一張男生女生相親情況表(相親成功、相親不成、繼續(xù)發(fā)展、未接觸)。媒婆一一給韓媽媽解釋這些信息。韓媽媽連連驚呼。

趙媒婆接著說道:“我們可以從里面找出跟你女兒情況相近的一些女生信息,再把跟她們相過親的男生找出來,把其中相親成功的歸為一類,剩下的歸為另一類。然后假設(shè)男生的每個特征對相親成功都有貢獻(xiàn),貢獻(xiàn)的權(quán)重為wi。我們用邏輯回歸的方法可以求出這些權(quán)重,把這些權(quán)重大的特征挑出來,你再用它們來找女婿就方便了。”

韓媽媽說:“邏~輯~什么?”趙媒婆說:“高科技了,你不懂的。不過給我干兒子寫了個博客來介紹,你可以看看。”

16. 特征篩選與特征工程工作流

呃,我們什么時候成趙媒婆的干兒子了?先不管這些。邏輯回歸并不是什么高科技,在前面的文章里已有簡單的解釋。我們在這里就補(bǔ)充說明一下為什么可以用權(quán)重來衡量特征的貢獻(xiàn)。以下是一個典型的邏輯回歸過程:?

我們期望P(z)的概率越大越好,sigmoid函數(shù)是個單調(diào)遞增函數(shù),所以z越大越好,在所有特征都?xì)w一化的前提下,顯然是權(quán)重wi越大越好。因此與wi對應(yīng)的特征就是我們要尋找的顯著特征。而那些權(quán)重小的特征就可以先不考慮了。這就完成了一個最簡單的特征篩選的過程。

當(dāng)然,這里所說的權(quán)重大可以指的是權(quán)重的絕對值很大,比如特征“富”的權(quán)重是-100,是一個很小的數(shù),但這也就意味著“不富”的權(quán)重會很大,以至于顯著影響我們的z的結(jié)果。所以這也是一個顯著特征。

需要補(bǔ)充一下的是,在工程實(shí)踐中,權(quán)重的幅度和正則化也有關(guān)系。L1正則化會把特征拉稀疏,會產(chǎn)出一部分0特征。而不是0的那些特征,是有作用的特征。所以L1正則化其實(shí)具備一定的特征選擇(feature selection)的作用。尤其是很高維空間的feature,用L1正則化,其實(shí)能幫助做一下feature selection的。而L2正則化,則會把各個維度的權(quán)重拉平均一些,抑制住各個維度權(quán)重幅度的方差。但是抑制歸抑制,最后的權(quán)重還是會有大小差異,就像上文說的,絕對值大的權(quán)重,對應(yīng)的特征區(qū)分度好一些。

對于那些不夠顯著的特征,我們需要分析一下這個特征的具體情況是怎樣,是否需要對其進(jìn)行重新拆分與重組,拆分重組后新的特征又可以進(jìn)行特征有效性分析。如此不斷迭代反復(fù),就可以挑選出比較理想的特征了。

我們用以下整個工作流大致展現(xiàn)這個過程。由于很多內(nèi)容沒有展開,我們先把名字寫進(jìn)去,在后續(xù)的文章中繼續(xù)擴(kuò)展。?

17. 劇情七:韓媽媽新名單塵埃落定

在韓媽媽與趙媒婆的盡心鼓搗下,最終生成了一個只有4個人的相親名單。其中只剩下一名高富帥,另外三人中有一人正是李雷。韓媽媽拿著新名單給女兒看,韓梅梅沉默半晌,心想李雷在四人名單中怎么也能存在,莫非這也是緣分?

18. 小結(jié)

本文中主要講了一些特征有效性分析的方法,包括用互信息,平均互信息,條件熵,后驗(yàn)概率,邏輯回歸權(quán)重等方法對特征與標(biāo)簽的相關(guān)性進(jìn)行了評估。有了這些評估做基礎(chǔ),可以篩選出顯著的特征,并對對不顯著的特征進(jìn)行分析、拆分和重組,最終形成新的特征并反復(fù)迭代。本文略過了一些特征預(yù)處理的方法,并對特征有效性評估的闡述不夠充分,我們將在接下來的文章中予以討論。

總結(jié)

以上是生活随笔為你收集整理的机器学习系列(5)_从白富美相亲名单看特征选择与预处理(上)的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。