机器学习(二)监督学习
上面提到的問題和答案只是一個(gè)比喻,假如我們想要完成文章分類的任務(wù),則是下面的方式:
監(jiān)督學(xué)習(xí)的2個(gè)任務(wù):回歸、分類
監(jiān)督學(xué)習(xí)有2個(gè)主要的任務(wù):
回歸:預(yù)測連續(xù)的、具體的數(shù)值。比如:支付寶里的芝麻信用分?jǐn)?shù)(下面有詳細(xì)講解)
分類:對各種事物分門別類,用于離散型(什么是離散?)預(yù)測。比如:
?
「回歸」案例:芝麻信用分是怎么來的?
下面要說的是個(gè)人信用評估方法——FICO。
他跟芝麻信用類似,用來評估個(gè)人的信用狀況。FICO 評分系統(tǒng)得出的信用分?jǐn)?shù)范圍在300~850分之間,分?jǐn)?shù)越高,說明信用風(fēng)險(xiǎn)越小。
下面我們來模擬一下 FICO 的發(fā)明過程,這個(gè)過程就是監(jiān)督學(xué)習(xí)力的回歸。
步驟1:構(gòu)建問題,選擇模型
我們首先找出個(gè)人信用的影響因素,從邏輯上講一個(gè)人的體重跟他的信用應(yīng)該沒有關(guān)系,比如我們身邊很講信用的人,有胖子也有瘦子。
而財(cái)富總額貌似跟信用有關(guān),因?yàn)轳R云不講信用的損失是非常巨大的,所以大家從來沒有聽說馬云會(huì)不還信用卡!而一個(gè)乞丐不講信用的損失是很小的,這條街混不下去了換一條街繼續(xù)。
所以根據(jù)判斷,找出了下面5個(gè)影響因素:
- 付款記錄
- 賬戶總金額
- 信用記錄跨度(自開戶以來的信用記錄、特定類型賬戶開戶以來的信用記錄…)
- 新賬戶(近期開戶數(shù)目、特定類型賬戶的開戶比例…)
- 信用類別(各種賬戶的數(shù)目)
這個(gè)時(shí)候,我們就構(gòu)建了一個(gè)簡單的模型:
?
f 可以簡單理解為一個(gè)特定的公式,這個(gè)公式可以將5個(gè)因素跟個(gè)人信用分形成關(guān)聯(lián)。
我們的目標(biāo)就是得到 f 這個(gè)公式具體是什么,這樣我們只要有了一個(gè)人的這5種數(shù)據(jù),就可以得到一個(gè)人的信用分?jǐn)?shù)了。
步驟2:收集已知數(shù)據(jù)
為了找出這個(gè)公式 f,我們需要先收集大量的已知數(shù)據(jù),這些數(shù)據(jù)必須包含一個(gè)人的5種數(shù)據(jù)和他/她的信用狀態(tài)(把信用狀態(tài)轉(zhuǎn)化為分?jǐn)?shù))。
我們把數(shù)據(jù)分成幾個(gè)部分,一部分用來訓(xùn)練,一部分用來測試和驗(yàn)證。
步驟3:訓(xùn)練出理想模型
有了這些數(shù)據(jù),我們通過機(jī)器學(xué)習(xí),就能”猜測”出這5種數(shù)據(jù)和信用分?jǐn)?shù)的關(guān)系。這個(gè)關(guān)系就是公式 f。
然后我們再用驗(yàn)證數(shù)據(jù)和測試數(shù)據(jù)來驗(yàn)證一下這個(gè)公式是否 OK。
測試驗(yàn)證的具體方法是:
步驟4:對新用戶進(jìn)行預(yù)測
當(dāng)我們想知道一個(gè)新用戶的信用狀況時(shí),只需要收集到他的這5種數(shù)據(jù),套進(jìn)公式 f 計(jì)算一遍就知道結(jié)果了!
好了,上面就是一個(gè)跟大家息息相關(guān)的回歸模型,大致思路就是上面所講的思路,整個(gè)過程做了一些簡化,如果想查看完整的過程,可以查看《機(jī)器學(xué)習(xí)-機(jī)器學(xué)習(xí)實(shí)操的7個(gè)步驟》
分類」案例:如何預(yù)測離婚
美國心理學(xué)家戈特曼博士用大數(shù)據(jù)還原婚姻關(guān)系的真相,他的方法就是分類的思路。
戈特曼博士在觀察和聆聽一對夫妻5分鐘的談話后,便能預(yù)測他們是否會(huì)離婚,且預(yù)測準(zhǔn)確率高達(dá)94%!他的這項(xiàng)研究還出了一本書《幸福的婚姻》(豆瓣8.4分)。
步驟1:構(gòu)建問題,選擇模型
戈特曼提出,對話能反映出夫妻之間潛在的問題,他們在對話中的爭吵、歡笑、調(diào)侃和情感表露創(chuàng)造了某種情感關(guān)聯(lián)。通過這些對話中的情緒關(guān)聯(lián)可以將夫妻分為不同的類型,代表不同的離婚概率。
步驟2:收集已知數(shù)據(jù)
研究人員邀請了700對夫妻參與實(shí)驗(yàn)。他們單獨(dú)在一間屋子里相對坐下,然后談?wù)撘粋€(gè)有爭論的話題,比如金錢和性,或是與姻親的關(guān)系。默里和戈特曼讓每一對夫妻持續(xù)談?wù)撨@個(gè)話題15分鐘,并拍攝下這個(gè)過程。觀察者看完這些視頻之后,就根據(jù)丈夫和妻子之間的談話給他們打分。
?
步驟3:訓(xùn)練出理想模型
戈特曼的方法并不是用機(jī)器學(xué)習(xí)來得到結(jié)果,不過原理都是類似的。他得到的結(jié)論如下:
首先,他們將夫妻雙方的分?jǐn)?shù)標(biāo)繪在一個(gè)圖表上,兩條線的交叉點(diǎn)就可以說明婚姻能否長久穩(wěn)定。如果丈夫或妻子持續(xù)得負(fù)分,兩人很可能會(huì)走向離婚。重點(diǎn)在于定量談話中正負(fù)作用的比率。理想中的比率是5∶1,如果低于這個(gè)比例,婚姻就遇到問題了。最后,將結(jié)果放在一個(gè)數(shù)學(xué)模型上,這個(gè)模型用差分方程式凸顯出成功婚姻的潛在特點(diǎn)。
戈特曼根據(jù)得分,將這些夫妻分成5組:
該數(shù)學(xué)模型呈現(xiàn)了兩種穩(wěn)定型夫妻(關(guān)系和諧的夫妻和關(guān)系不和諧的夫妻)和兩種不穩(wěn)定型夫妻(敵對夫妻和無感夫妻)之間的區(qū)別。而據(jù)預(yù)測,不穩(wěn)定的夫妻可能會(huì)一直保持婚姻關(guān)系,盡管他們的婚姻不穩(wěn)定。
步驟4:對新用戶進(jìn)行預(yù)測
12年以來,每隔一兩年,默里和戈特曼都會(huì)與參與研究的那700對夫妻交流。兩個(gè)人的公式對離婚率的預(yù)測達(dá)到了94%的準(zhǔn)確率。
主流的監(jiān)督學(xué)習(xí)算法
| 樸素貝葉斯 | 分類 | 貝葉斯分類法是基于貝葉斯定定理的統(tǒng)計(jì)學(xué)分類方法。它通過預(yù)測一個(gè)給定的元組屬于一個(gè)特定類的概率,來進(jìn)行分類。樸素貝葉斯分類法假定一個(gè)屬性值在給定類的影響?yīng)毩⒂谄渌麑傩缘?—— 類條件獨(dú)立性。 |
| 決策樹 | 分類 | 決策樹是一種簡單但廣泛使用的分類器,它通過訓(xùn)練數(shù)據(jù)構(gòu)建決策樹,對未知的數(shù)據(jù)進(jìn)行分類。 |
| SVM | 分類 | 支持向量機(jī)把分類問題轉(zhuǎn)化為尋找分類平面的問題,并通過最大化分類邊界點(diǎn)距離分類平面的距離來實(shí)現(xiàn)分類。 |
| 邏輯回歸 | 分類 | 邏輯回歸是用于處理因變量為分類變量的回歸問題,常見的是二分類或二項(xiàng)分布問題,也可以處理多分類問題,它實(shí)際上是屬于一種分類方法。 |
| 線性回歸 | 回歸 | 線性回歸是處理回歸任務(wù)最常用的算法之一。該算法的形式十分簡單,它期望使用一個(gè)超平面擬合數(shù)據(jù)集(只有兩個(gè)變量的時(shí)候就是一條直線)。 |
| 回歸樹 | 回歸 | 回歸樹(決策樹的一種)通過將數(shù)據(jù)集重復(fù)分割為不同的分支而實(shí)現(xiàn)分層學(xué)習(xí),分割的標(biāo)準(zhǔn)是最大化每一次分離的信息增益。這種分支結(jié)構(gòu)讓回歸樹很自然地學(xué)習(xí)到非線性關(guān)系。 |
| K鄰近 | 分類+回歸 | 通過搜索K個(gè)最相似的實(shí)例(鄰居)的整個(gè)訓(xùn)練集并總結(jié)那些K個(gè)實(shí)例的輸出變量,對新數(shù)據(jù)點(diǎn)進(jìn)行預(yù)測。 |
| Adaboosting | 分類+回歸 | Adaboost目的就是從訓(xùn)練數(shù)據(jù)中學(xué)習(xí)一系列的弱分類器或基本分類器,然后將這些弱分類器組合成一個(gè)強(qiáng)分類器。 |
| 神經(jīng)網(wǎng)絡(luò) | 分類+回歸 | 它從信息處理角度對人腦神經(jīng)元網(wǎng)絡(luò)進(jìn)行抽象, 建立某種簡單模型,按不同的連接方式組成不同的網(wǎng)絡(luò)。 |
?擴(kuò)展閱讀:
盤點(diǎn)10大回歸類型:總有一款深得你心 - 知乎
過擬合詳解:監(jiān)督學(xué)習(xí)中不準(zhǔn)確的「常識(shí)」? | 機(jī)器之心
?
?
總結(jié)
以上是生活随笔為你收集整理的机器学习(二)监督学习的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 用户密码和cookie,session、
- 下一篇: (二):集成日志框架:springboo