机器学习常见基本概念笔记
機器學習
監督學習和非監督學習:
有監督學習的方法就是識別事物,識別的結果表現在給待識別數據加上了標簽。因此訓練樣本集必須由帶標簽的樣本組成。比如分類和回歸。
而無監督學習方法只有要分析的數據集的本身,預先沒有什么標簽。如果發現數據集呈現某種聚集性,則可按自然的聚集性分類,但不予以某種預先分類標簽對上號為目的。如聚類。
驗證集
主要作用是來驗證是否過擬合、以及用來調節訓練參數等。
分類的損失函數:
是用來估量模型的預測值y^與真實值 y 的不一致程度。若損失函數很小,表明機器學習模型與數據真實分布很接近,則模型性能良好;若損失函數很大,表明機器學習模型與數據真實分布差別較大,則模型性能不佳。
損失函數判斷
訓練損失函數越來越低可能會導致過擬合(學得太好了),是否過擬合這時要看測試集的損失函數是否在回增(新數據測試模型是否泛化能力強)。
超參數:
在機器學習的上下文中,超參數是在開始學習過程之前設置值的參數,而不是通過訓練得到的參 數數據。通常情況下,需要對超參數進行優化,給學習機選擇一組最優超參數,以提高學習的性能和 效果。超參數也是一個參數,是一個未知變量,但是它不同于訓練過程中的參數,它是可以對訓練得 到的參數有影響的參數,需要訓練者人工輸入,并作出調整,以便優化訓練模型的效果。
1.定義關于模型的更高層次的概念,如復雜性或學習能力。
2.不能直接從標準模型培訓過程中的數據中學習,需要預先定義。
3.可以通過設置不同的值,訓練不同的模型和選擇更好的測試值來決定。
比如:模型的學習率,深度神經網絡隱藏層數。
超參數和參數的區別:
最大的區別就是是否通過數據來進行調整,模型參數通常是有數據來驅動調整,超參數則不需要數據來驅動,而是在訓練前或者訓練中人為地進行調整地超參數,比如卷積核的數量,卷積核尺寸這些就是超參數。
預訓練模型:
預訓練模型是一個已經訓練好的保存下來的網絡,該網絡之前在一個大型的數據集上進行了訓練。
線性回歸沒有局部最優。
正則化(Regularization):
給損失函數加一個lambda*權重的平方,權重越小,那么loss值對x的變化不敏感,可以減少噪音對loss值的影響,使函數變得平滑,但是太平滑也不好(理想狀態是水平線,即x對loss毫無影響)。并且做regularization的時候不需要考慮bias,因為對x無影響。
機器學習線性回歸問題誤差(error)主要有兩個:
1.偏差(bias):
偏差是指樣本擬合出的模型的輸出結果的期望與樣本真實結果的差距。簡單得講就是擬合得好不好,如果高bias的話離準心遠,需要換過一個模型,復雜化模型,增加模型參數。但是太好的話就容易過擬合。低bias對應就是點都打在靶心附近,所以瞄的是準的,但手不一定穩。
2.方差(variance):
方差是指從樣本上訓練出來的模型在測試集的表現。low 方差對應就是點都打的很集中,但不一定是靶心附近,手很穩,但是瞄的不準。此時就要簡化模型,減少模型參數,但是容易欠擬合。
遷移學習
遷移學習是一種機器學習的方法,指的是一個預訓練模型被重新用在另一個任務中。目標就是將某個領域或任務上學習到的知識或模式應用到不同但相關的領域或問題中。
極大似然估計
就是用來做參數估計的,讓估計的參數盡可能接近總體分布參數,概率最大點就是最像點。
KL散度
是衡量兩種概率分布的相似程度,其越小,表示兩種概率分布越接近。
總結
以上是生活随笔為你收集整理的机器学习常见基本概念笔记的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 人工智能领域论文常见基本概念笔记
- 下一篇: Pytorch代码函数笔记