日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

机器学习(二)监督学习

發(fā)布時(shí)間:2024/10/5 编程问答 33 豆豆
生活随笔 收集整理的這篇文章主要介紹了 机器学习(二)监督学习 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

  • 選擇一個(gè)適合目標(biāo)任務(wù)的數(shù)學(xué)模型
  • 先把一部分已知的“問題和答案”(訓(xùn)練集)給機(jī)器去學(xué)習(xí)
  • 機(jī)器總結(jié)出了自己的“方法論”
  • 人類把”新的問題”(測試集)給機(jī)器,讓他去解答
  • 上面提到的問題和答案只是一個(gè)比喻,假如我們想要完成文章分類的任務(wù),則是下面的方式:

  • 選擇一個(gè)合適的數(shù)學(xué)模型
  • 把一堆已經(jīng)分好類的文章和他們的分類給機(jī)器
  • 機(jī)器學(xué)會(huì)了分類的“方法論”
  • 機(jī)器學(xué)會(huì)后,再丟給他一些新的文章(不帶分類),讓機(jī)器預(yù)測這些文章的分類
  • 監(jiān)督學(xué)習(xí)的2個(gè)任務(wù):回歸、分類

    監(jiān)督學(xué)習(xí)有2個(gè)主要的任務(wù):

  • 回歸
  • 分類
  • 回歸:預(yù)測連續(xù)的、具體的數(shù)值。比如:支付寶里的芝麻信用分?jǐn)?shù)(下面有詳細(xì)講解)

    分類:對各種事物分門別類,用于離散型(什么是離散?)預(yù)測。比如:

    ?

    「回歸」案例:芝麻信用分是怎么來的?

    下面要說的是個(gè)人信用評估方法——FICO。

    他跟芝麻信用類似,用來評估個(gè)人的信用狀況。FICO 評分系統(tǒng)得出的信用分?jǐn)?shù)范圍在300~850分之間,分?jǐn)?shù)越高,說明信用風(fēng)險(xiǎn)越小。

    下面我們來模擬一下 FICO 的發(fā)明過程,這個(gè)過程就是監(jiān)督學(xué)習(xí)力的回歸。

    步驟1:構(gòu)建問題,選擇模型

    我們首先找出個(gè)人信用的影響因素,從邏輯上講一個(gè)人的體重跟他的信用應(yīng)該沒有關(guān)系,比如我們身邊很講信用的人,有胖子也有瘦子。

    而財(cái)富總額貌似跟信用有關(guān),因?yàn)轳R云不講信用的損失是非常巨大的,所以大家從來沒有聽說馬云會(huì)不還信用卡!而一個(gè)乞丐不講信用的損失是很小的,這條街混不下去了換一條街繼續(xù)。

    所以根據(jù)判斷,找出了下面5個(gè)影響因素:

    • 付款記錄
    • 賬戶總金額
    • 信用記錄跨度(自開戶以來的信用記錄、特定類型賬戶開戶以來的信用記錄…)
    • 新賬戶(近期開戶數(shù)目、特定類型賬戶的開戶比例…)
    • 信用類別(各種賬戶的數(shù)目)

    這個(gè)時(shí)候,我們就構(gòu)建了一個(gè)簡單的模型:

    ?

    f 可以簡單理解為一個(gè)特定的公式,這個(gè)公式可以將5個(gè)因素跟個(gè)人信用分形成關(guān)聯(lián)。

    我們的目標(biāo)就是得到 f 這個(gè)公式具體是什么,這樣我們只要有了一個(gè)人的這5種數(shù)據(jù),就可以得到一個(gè)人的信用分?jǐn)?shù)了。

    步驟2:收集已知數(shù)據(jù)

    為了找出這個(gè)公式 f,我們需要先收集大量的已知數(shù)據(jù),這些數(shù)據(jù)必須包含一個(gè)人的5種數(shù)據(jù)和他/她的信用狀態(tài)(把信用狀態(tài)轉(zhuǎn)化為分?jǐn)?shù))。

    我們把數(shù)據(jù)分成幾個(gè)部分,一部分用來訓(xùn)練,一部分用來測試和驗(yàn)證。

    步驟3:訓(xùn)練出理想模型

    有了這些數(shù)據(jù),我們通過機(jī)器學(xué)習(xí),就能”猜測”出這5種數(shù)據(jù)和信用分?jǐn)?shù)的關(guān)系。這個(gè)關(guān)系就是公式 f。

    然后我們再用驗(yàn)證數(shù)據(jù)和測試數(shù)據(jù)來驗(yàn)證一下這個(gè)公式是否 OK。

    測試驗(yàn)證的具體方法是:

  • 將5種數(shù)據(jù)套入公式,計(jì)算出信用分
  • 用計(jì)算出來的信用分跟這個(gè)人實(shí)際的信用分(預(yù)先準(zhǔn)備好的)進(jìn)行比較
  • 評估公式的準(zhǔn)確度,如果問題很大再進(jìn)行調(diào)整優(yōu)化
  • 步驟4:對新用戶進(jìn)行預(yù)測

    當(dāng)我們想知道一個(gè)新用戶的信用狀況時(shí),只需要收集到他的這5種數(shù)據(jù),套進(jìn)公式 f 計(jì)算一遍就知道結(jié)果了!

    好了,上面就是一個(gè)跟大家息息相關(guān)的回歸模型,大致思路就是上面所講的思路,整個(gè)過程做了一些簡化,如果想查看完整的過程,可以查看《機(jī)器學(xué)習(xí)-機(jī)器學(xué)習(xí)實(shí)操的7個(gè)步驟》

    分類」案例:如何預(yù)測離婚

    美國心理學(xué)家戈特曼博士用大數(shù)據(jù)還原婚姻關(guān)系的真相,他的方法就是分類的思路。

    戈特曼博士在觀察和聆聽一對夫妻5分鐘的談話后,便能預(yù)測他們是否會(huì)離婚,且預(yù)測準(zhǔn)確率高達(dá)94%!他的這項(xiàng)研究還出了一本書《幸福的婚姻》(豆瓣8.4分)。

    步驟1:構(gòu)建問題,選擇模型

    戈特曼提出,對話能反映出夫妻之間潛在的問題,他們在對話中的爭吵、歡笑、調(diào)侃和情感表露創(chuàng)造了某種情感關(guān)聯(lián)。通過這些對話中的情緒關(guān)聯(lián)可以將夫妻分為不同的類型,代表不同的離婚概率。

    步驟2:收集已知數(shù)據(jù)

    研究人員邀請了700對夫妻參與實(shí)驗(yàn)。他們單獨(dú)在一間屋子里相對坐下,然后談?wù)撘粋€(gè)有爭論的話題,比如金錢和性,或是與姻親的關(guān)系。默里和戈特曼讓每一對夫妻持續(xù)談?wù)撨@個(gè)話題15分鐘,并拍攝下這個(gè)過程。觀察者看完這些視頻之后,就根據(jù)丈夫和妻子之間的談話給他們打分。

    ?

    步驟3:訓(xùn)練出理想模型

    戈特曼的方法并不是用機(jī)器學(xué)習(xí)來得到結(jié)果,不過原理都是類似的。他得到的結(jié)論如下:

    首先,他們將夫妻雙方的分?jǐn)?shù)標(biāo)繪在一個(gè)圖表上,兩條線的交叉點(diǎn)就可以說明婚姻能否長久穩(wěn)定。如果丈夫或妻子持續(xù)得負(fù)分,兩人很可能會(huì)走向離婚。重點(diǎn)在于定量談話中正負(fù)作用的比率。理想中的比率是5∶1,如果低于這個(gè)比例,婚姻就遇到問題了。最后,將結(jié)果放在一個(gè)數(shù)學(xué)模型上,這個(gè)模型用差分方程式凸顯出成功婚姻的潛在特點(diǎn)。

    戈特曼根據(jù)得分,將這些夫妻分成5組:

  • 幸福的夫妻:冷靜、親密、相互扶持、關(guān)系友好。他們更喜歡分享經(jīng)驗(yàn)。
  • 無效的夫妻:他們盡最大努力避免沖突,只是通過積極回應(yīng)對方的方式。
  • 多變的夫妻:他們浪漫而熱情,可爭論異常激烈。他們時(shí)而穩(wěn)定時(shí)而不穩(wěn)定,可總的來說不怎么幸福。
  • 敵對的夫妻:一方不想談?wù)撃臣?#xff0c;另一方也同意,所以,兩者之間沒有交流。
  • 彼此無感的夫妻:一方興致勃勃地想要爭論一番,可另一方對討論的話題根本不感興趣。
  • 該數(shù)學(xué)模型呈現(xiàn)了兩種穩(wěn)定型夫妻(關(guān)系和諧的夫妻和關(guān)系不和諧的夫妻)和兩種不穩(wěn)定型夫妻(敵對夫妻和無感夫妻)之間的區(qū)別。而據(jù)預(yù)測,不穩(wěn)定的夫妻可能會(huì)一直保持婚姻關(guān)系,盡管他們的婚姻不穩(wěn)定。

    步驟4:對新用戶進(jìn)行預(yù)測

    12年以來,每隔一兩年,默里和戈特曼都會(huì)與參與研究的那700對夫妻交流。兩個(gè)人的公式對離婚率的預(yù)測達(dá)到了94%的準(zhǔn)確率。

    主流的監(jiān)督學(xué)習(xí)算法

    算法類型簡介
    樸素貝葉斯分類貝葉斯分類法是基于貝葉斯定定理的統(tǒng)計(jì)學(xué)分類方法。它通過預(yù)測一個(gè)給定的元組屬于一個(gè)特定類的概率,來進(jìn)行分類。樸素貝葉斯分類法假定一個(gè)屬性值在給定類的影響?yīng)毩⒂谄渌麑傩缘?—— 類條件獨(dú)立性。
    決策樹分類決策樹是一種簡單但廣泛使用的分類器,它通過訓(xùn)練數(shù)據(jù)構(gòu)建決策樹,對未知的數(shù)據(jù)進(jìn)行分類。
    SVM分類支持向量機(jī)把分類問題轉(zhuǎn)化為尋找分類平面的問題,并通過最大化分類邊界點(diǎn)距離分類平面的距離來實(shí)現(xiàn)分類。
    邏輯回歸分類邏輯回歸是用于處理因變量為分類變量的回歸問題,常見的是二分類或二項(xiàng)分布問題,也可以處理多分類問題,它實(shí)際上是屬于一種分類方法。
    線性回歸回歸線性回歸是處理回歸任務(wù)最常用的算法之一。該算法的形式十分簡單,它期望使用一個(gè)超平面擬合數(shù)據(jù)集(只有兩個(gè)變量的時(shí)候就是一條直線)。
    回歸樹回歸回歸樹(決策樹的一種)通過將數(shù)據(jù)集重復(fù)分割為不同的分支而實(shí)現(xiàn)分層學(xué)習(xí),分割的標(biāo)準(zhǔn)是最大化每一次分離的信息增益。這種分支結(jié)構(gòu)讓回歸樹很自然地學(xué)習(xí)到非線性關(guān)系。
    K鄰近分類+回歸通過搜索K個(gè)最相似的實(shí)例(鄰居)的整個(gè)訓(xùn)練集并總結(jié)那些K個(gè)實(shí)例的輸出變量,對新數(shù)據(jù)點(diǎn)進(jìn)行預(yù)測。
    Adaboosting分類+回歸Adaboost目的就是從訓(xùn)練數(shù)據(jù)中學(xué)習(xí)一系列的弱分類器或基本分類器,然后將這些弱分類器組合成一個(gè)強(qiáng)分類器。
    神經(jīng)網(wǎng)絡(luò)分類+回歸它從信息處理角度對人腦神經(jīng)元網(wǎng)絡(luò)進(jìn)行抽象, 建立某種簡單模型,按不同的連接方式組成不同的網(wǎng)絡(luò)。

    ?擴(kuò)展閱讀:

    盤點(diǎn)10大回歸類型:總有一款深得你心 - 知乎

    過擬合詳解:監(jiān)督學(xué)習(xí)中不準(zhǔn)確的「常識(shí)」? | 機(jī)器之心

    ?

    ?

    總結(jié)

    以上是生活随笔為你收集整理的机器学习(二)监督学习的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。