机器学习知识总结系列- 基本概念(1-0)
文章目錄
- 目錄
- 1. 機(jī)器學(xué)習(xí)的定義
- 2. 機(jī)器學(xué)習(xí)的分類
- 2.1根據(jù)是否在人類監(jiān)督下進(jìn)行訓(xùn)練
- 監(jiān)督學(xué)習(xí)
- 非監(jiān)督學(xué)習(xí)
- 半監(jiān)督學(xué)習(xí)
- 強(qiáng)化學(xué)習(xí)
- 2.2根據(jù)是否可以動態(tài)漸進(jìn)的學(xué)習(xí)
- 在線學(xué)習(xí)
- 批量學(xué)習(xí)
- 2.3根據(jù)是否在訓(xùn)練數(shù)據(jù)過程中進(jìn)行模式識別
- 實例學(xué)習(xí)
- 基于模型的學(xué)習(xí)
- 3. 機(jī)器學(xué)習(xí)中的一些常見名詞
- 4. 機(jī)器學(xué)習(xí)的挑戰(zhàn)
- 4.1 訓(xùn)練的數(shù)據(jù)量不足
- 4.2 沒有代表性的數(shù)據(jù)
- 4.3 低質(zhì)量的數(shù)據(jù)
- 4.4 不相關(guān)的特征
- 4.5 過擬合和欠擬合
- 5. 其他
- 5.1偏差與方差
- 概念
- 導(dǎo)致偏差和方差的原因
- 深度學(xué)習(xí)中的偏差與方差
- 偏差與方差的計算公式
- 偏差與方差的權(quán)衡(過擬合與模型復(fù)雜度的權(quán)衡)
- 5.2 生成模型與判別模型
- 概念
- 優(yōu)缺點(diǎn)
- 常見模型
- 5.3 先驗概率與后驗概率
目錄
1. 機(jī)器學(xué)習(xí)的定義
機(jī)器學(xué)習(xí)是通過編程讓計算機(jī)能夠從數(shù)據(jù)中進(jìn)行學(xué)習(xí)的科學(xué)(藝術(shù))
從經(jīng)驗E學(xué)習(xí)一些分類任務(wù)T和性能測量P,它在任務(wù)T中的性能(由P測量)隨著經(jīng)驗E提升–湯姆.米切爾.1997
2. 機(jī)器學(xué)習(xí)的分類
2.1根據(jù)是否在人類監(jiān)督下進(jìn)行訓(xùn)練
監(jiān)督學(xué)習(xí)
在監(jiān)督學(xué)習(xí)中用于訓(xùn)練算法的數(shù)據(jù)中包含了答案,即標(biāo)簽信息。
監(jiān)督學(xué)習(xí)主要包括分類和回歸2個重要的任務(wù)。
重要的監(jiān)督學(xué)習(xí)算法:
- KNN
- 線性回歸
- 邏輯回歸
- SVM
- 決策樹和隨機(jī)森林
- 神經(jīng)網(wǎng)絡(luò)
非監(jiān)督學(xué)習(xí)
在非監(jiān)督學(xué)習(xí)中用于訓(xùn)練算法的數(shù)據(jù)中沒有標(biāo)簽信息。
非監(jiān)督學(xué)習(xí)主要包括:聚類,可視化與降維,關(guān)聯(lián)性規(guī)則分析和異常檢測4個重要的任務(wù)
重要的聚類算法:
- K means
- 層次聚類
- 期望最大
可視化和降維 - PCA
- 核主成分分析
- LLE(局部線性嵌入)
- t-SNE(t分布領(lǐng)域嵌入算法)
關(guān)聯(lián)性規(guī)則學(xué)習(xí)
- Apriori算法
- Eclat算法
半監(jiān)督學(xué)習(xí)
處理部分帶數(shù)據(jù)標(biāo)簽的訓(xùn)練數(shù)據(jù),通常是大量數(shù)據(jù)不帶標(biāo)簽,然后小部分?jǐn)?shù)據(jù)帶標(biāo)簽。
對數(shù)的半監(jiān)督學(xué)習(xí)算法是監(jiān)督學(xué)習(xí)算法和非監(jiān)督算法的結(jié)合。
深度信念網(wǎng)絡(luò)是基于受限玻爾茲曼機(jī)的非監(jiān)督組件。RBM是先用非監(jiān)督的方法對數(shù)據(jù)進(jìn)行訓(xùn)練,在使用監(jiān)督的方法歲整個系統(tǒng)進(jìn)行微調(diào)。
強(qiáng)化學(xué)習(xí)
強(qiáng)化學(xué)習(xí)是智能體(Agent)以“試錯”的方式進(jìn)行學(xué)習(xí),通過與環(huán)境進(jìn)行交互獲得的獎賞指導(dǎo)行為,目標(biāo)是使智能體獲得最大的獎賞,強(qiáng)化學(xué)習(xí)不同于連接主義學(xué)習(xí)中的監(jiān)督學(xué)習(xí),主要表現(xiàn)在強(qiáng)化信號上,強(qiáng)化學(xué)習(xí)中由環(huán)境提供的強(qiáng)化信號是對產(chǎn)生動作的好壞作一種評價(通常為標(biāo)量信號),而不是告訴強(qiáng)化學(xué)習(xí)系統(tǒng)RLS(reinforcement learning system)如何去產(chǎn)生正確的動作。由于外部環(huán)境提供的信息很少,RLS必須靠自身的經(jīng)歷進(jìn)行學(xué)習(xí)。通過這種方式,RLS在行動-評價的環(huán)境中獲得知識,改進(jìn)行動方案以適應(yīng)環(huán)境。
2.2根據(jù)是否可以動態(tài)漸進(jìn)的學(xué)習(xí)
在線學(xué)習(xí)
與批量學(xué)習(xí)不同,在線學(xué)習(xí)假設(shè)訓(xùn)練數(shù)據(jù)持續(xù)到來,通常利用一個訓(xùn)練樣本更新當(dāng)前的模型,大大降低了學(xué)習(xí)算法的空間復(fù)雜度和時間復(fù)雜度,實時性強(qiáng)。在大數(shù)據(jù)時代,大數(shù)據(jù)高速增長的特點(diǎn)為機(jī)器學(xué)習(xí)帶來了嚴(yán)峻的挑戰(zhàn),在線學(xué)習(xí)可以有效地解決該問題,引起了學(xué)術(shù)界和工業(yè)界的廣泛關(guān)注。
批量學(xué)習(xí)
不能進(jìn)行持續(xù)的學(xué)習(xí),在線使用和離線學(xué)習(xí)完全分開,只是使用離線學(xué)習(xí)到的策略。
2.3根據(jù)是否在訓(xùn)練數(shù)據(jù)過程中進(jìn)行模式識別
實例學(xué)習(xí)
直接從實例當(dāng)中進(jìn)行學(xué)習(xí),最簡單的方法就是查表,即所謂的記憶學(xué)習(xí)。其中KNN可以認(rèn)為是一種基于實例的學(xué)習(xí)方法。
基于模型的學(xué)習(xí)
從樣本中進(jìn)行歸納,然后建立樣本的模型,然后根據(jù)模型進(jìn)行新樣本的預(yù)測,則為基于模型的學(xué)習(xí)。大部分的機(jī)器學(xué)習(xí)模型都是基于模型的學(xué)習(xí)方法。
3. 機(jī)器學(xué)習(xí)中的一些常見名詞
4. 機(jī)器學(xué)習(xí)的挑戰(zhàn)
4.1 訓(xùn)練的數(shù)據(jù)量不足
- 在機(jī)器學(xué)習(xí)領(lǐng)域,往往是大數(shù)據(jù)+簡單模型的效果比小量數(shù)據(jù)+復(fù)雜模型的效果好。
- 對于復(fù)雜問題,數(shù)據(jù)比算法更重要
- 在實際的問題中,獲取大量的有標(biāo)簽的數(shù)據(jù)往往是很困難的,所以優(yōu)化算法也是比較重要的。
4.2 沒有代表性的數(shù)據(jù)
- 機(jī)器學(xué)習(xí)的本質(zhì)是使用模型通過已有的數(shù)據(jù)去盡可能的擬合原始數(shù)據(jù)的分布情況,如果用于擬合的數(shù)據(jù)無法很好的代表全部數(shù)據(jù)的分布(即:采樣有偏的情況下),學(xué)習(xí)到的模型就是不準(zhǔn)確的模型。
4.3 低質(zhì)量的數(shù)據(jù)
- 訓(xùn)練集中含有大量的噪聲,異常點(diǎn),錯誤都會影響模型的訓(xùn)練。
- 花費(fèi)時間對數(shù)據(jù)進(jìn)行清理是很有必要的。
4.4 不相關(guān)的特征
- 特征對于機(jī)器學(xué)習(xí)非常重要,所謂:進(jìn)去的是垃圾,出來的也是垃圾。
- 特征工程是機(jī)器學(xué)習(xí)中很重要的一部分工作。
4.5 過擬合和欠擬合
5. 其他
5.1偏差與方差
概念
導(dǎo)致偏差和方差的原因
深度學(xué)習(xí)中的偏差與方差
- 神經(jīng)網(wǎng)絡(luò)的擬合能力非常強(qiáng),因此它的訓(xùn)練誤差(偏差)通常較小;
- 但是過強(qiáng)的擬合能力會導(dǎo)致較大的方差,使模型的測試誤差(泛化誤差)增大;
- 因此深度學(xué)習(xí)的核心工作之一就是研究如何降低模型的泛化誤差,這類方法統(tǒng)稱為正則化方法
偏差與方差的計算公式
偏差與方差的權(quán)衡(過擬合與模型復(fù)雜度的權(quán)衡)
5.2 生成模型與判別模型
概念
優(yōu)缺點(diǎn)
常見模型
5.3 先驗概率與后驗概率
已將發(fā)生的概率就是最大的。
總結(jié)
以上是生活随笔為你收集整理的机器学习知识总结系列- 基本概念(1-0)的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 《Python Cookbook 3rd
- 下一篇: PCB布局,布线技巧总结