系统学习机器学习之监督学习
監督學習是從標記的訓練數據來推斷一個功能的機器學習任務。訓練數據包括一套訓練示例。在監督學習中,每個實例都是由一個輸入對象(通常為矢量)和一個期望的輸出值(也稱為監督信號)組成。監督學習算法是分析該訓練數據,并產生一個推斷的功能,其可以用于映射出新的實例。一個最佳的方案將允許該算法來正確地決定那些看不見的實例的類標簽。這就要求學習算法是在一種“合理”的方式從一種從訓練數據到看不見的情況下形成。
基本定義:
利用一組已知類別的樣本調整分類器的參數,使其達到所要求性能的過程,也稱為監督訓練或有教師學習。
監督學習是從標記的訓練數據來推斷一個功能的機器學習任務。
一點總結:
1.樣本噪聲類型:
1>.記錄輸入屬性可能不準確,這會導致數據在輸入空間上移動
2>.標記數據點可能有錯,比如正負標反,這種情況稱為指導噪聲
3>.可能存在我們沒有考慮到的其他屬性,而他們影響實例的標注,可能是隱藏的,或者潛在的,屬于隨機成分。
2.在模型選擇上,簡單模型會復雜模型的泛化能力好,即奧克姆剃刀規則。同時,我們把為了使得學習成為可能所做的假設集稱為學習算法的歸納偏倚。
3.利用三元權衡得到在所有的由實例數據訓練的學習算法中,存在在以下三種因素中平衡:
1>.擬合數據的假設的復雜性,即假設類的能力
2>.訓練數據的總量
3>.在新的實例上的泛化誤差
監督學習中需要注意的問題:
1、偏置方差權衡
第一個問題就是偏見和方差之間的權衡。假設我們有幾種不同的,但同樣好的演算數據集。一種學習算法是基于一個未知數的輸入,在經過這些數據集的計算時,系統會無誤的預測到并將正確的未知數輸出。一個學習算法在不同的演算集演算時如果預測到不同的輸出值會對特定的輸入有較高的方差。一個預測誤差學習分類器是與學習算法中的偏差和方差有關的。一般來說,偏差和方差之間有一個權衡。較低的學習算法偏差必須“靈活”,這樣就可以很好的匹配數據。但如果學習算法過于靈活,它將匹配每個不同的訓練數據集,因此有很高的方差。許多監督學習方法的一個關鍵方面是他們能夠調整這個偏差和方差之間的權衡(通過提供一個偏見/方差參數,用戶可以調整)。
2、功能的復雜性和數量的訓練數據
第二個問題是訓練數據可相對于“真正的”功能(分類或回歸函數)的復雜度的量。如果真正的功能是簡單的,則一個“不靈活的”學習算法具有高偏壓和低的方差將能夠從一個小數據量的學習。但是,如果真功能是非常復雜的(例如,因為它涉及在許多不同的輸入要素的復雜的相互作用,并且行為與在輸入空間的不同部分),則該函數將只從一個非常大的數量的訓練數據,并使用可學習“靈活”的學習算法具有低偏置和高方差。因此,良好的學習算法來自動調整的基礎上可用的數據量和該函數的明顯的復雜性要學習的偏壓/方差權衡。
3、輸入空間的維數
第三個問題是輸入空間的維數。如果輸入特征向量具有非常高的維數,學習問題是很困難的,即使真函數僅依賴于一個小數目的那些特征。這是因為許多“額外”的尺寸可混淆的學習算法,并使其具有高方差。因此,高的輸入維數通常需要調整分類器具有低方差和高偏置。在實踐中,如果工程師能夠從輸入數據手動刪除不相關的特征,這是有可能改善該學習功能的準確性。此外,還有許多算法的特征選擇,設法確定相關特征,并丟棄不相關的。這是維數降低,其目的是將輸入數據映射到較低維空間中運行的監督學習算法之前的更一般的策略的一個實例。
4、噪聲中的輸出值
第四個問題是在所需要的輸出值(監控目標變量)的噪聲的程度。如果所希望的輸出值,通常是不正確的(因為人為錯誤或傳感器的錯誤),則學習算法不應試圖找到一個函數完全匹配的訓練示例。試圖以適應數據過于謹慎導致過度擬合。當沒有測量誤差(隨機噪聲),如果你正在努力學習功能,是您學習模式太復雜,你甚至可以過度擬合。在這種情況下的目標函數,該函數不能被模擬“腐化”你的訓練數據的那部分-這一現象被稱為確定性的噪聲。當任一類型的噪聲存在時,最好是去一個更高的偏見,低方差估計。
實例分析:
正如人們通過已知病例學習診斷技術那樣,計算機要通過學習才能具有識別各種事物和現象的能力。用來進行學習的材料就是與被識別對象屬于同類的有限數量樣本。監督學習中在給予計算機學習樣本的同時,還告訴計算各個樣本所屬的類別。若所給的學習樣本不帶有類別信息,就是無監督學習。任何一種學習都有一定的目的,對于模式識別來說,就是要通過有限數量樣本的學習,使分類器在對無限多個模式進行分類時所產生的錯誤概率最小。
不同設計方法的分類器有不同的學習算法。對于貝葉斯分類器來說,就是用學習樣本估計特征向量的類條件概率密度函數。在已知類條件概率密度函數形式的條件下,用給定的獨立和隨機獲取的樣本集,根據最大似然法或貝葉斯學習估計出類條件概率密度函數的參數。例如,假定模式的特征向量服從正態分布,樣本的平均特征向量和樣本協方差矩陣就是正態分布的均值向量和協方差矩陣的最大似然估計。在類條件概率密度函數的形式未知的情況下,有各種非參數方法,用學習樣本對類條件概率密度函數進行估計。在分類決策規則用判別函數表示的一般情況下,可以確定一個學習目標,例如使分類器對所給樣本進行分類的結果盡可能與“教師”所給的類別一致,然后用迭代優化算法求取判別函數中的參數值。
在無監督學習的情況下,用全部學習樣本可以估計混合概率密度函數,若認為每一模式類的概率密度函數只有一個極大值,則可以根據混合概率密度函數的形狀求出用來把各類分開的分界面。
監督學習方法是目前研究較為廣泛的一種機器學習方法,例如神經網絡傳播算法、決策樹學習算法等已在許多領域中得到成功的應用,但是,監督學習需要給出不同環境狀態下的期望輸出(即導師信號),完成的是與環境沒有交互的記憶和知識重組的功能,因此限制了該方法在復雜的優化控制問題中的應用。
總結:
在監督學習算法(不管是分類,還是K維分類,或者回歸)中,我們選擇一個足夠容量的模型及歸納偏倚(即在包含噪聲的情況產生數據的未知函數),足夠大的訓練數據支撐,定義損失函數,計算出逼近誤差,求解參數的最小化近似誤差(即有好的優化方法,以便找出正確的假設)。
不同的機器學習算法之間的區別在于或者他們的假設模型不同,或者他們所使用的損失度量不同,或者他們所使用的最優化過程不同。
---------------------
作者:Eason.wxd
原文:https://blog.csdn.net/App_12062011/article/details/50208913
總結
以上是生活随笔為你收集整理的系统学习机器学习之监督学习的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 系统学习机器学习之决策树
- 下一篇: java信息管理系统总结_java实现科