机器学习第五章 神经网络
參考鏈接https://www.cnblogs.com/maybe2030/p/5597716.html
梯度檢測
確認(rèn)沒有錯(cuò)誤之后就關(guān)掉這個(gè)梯度檢測,否則會(huì)變得很慢,因?yàn)樗确聪騻鞑ヂ暮?br />
選擇神經(jīng)網(wǎng)絡(luò)的架構(gòu) 輸入層與輸出層是與特征的維度與類別的數(shù)目相關(guān)的。 對(duì)于隱藏層,如果大于1隱藏單元的數(shù)目應(yīng)該是相等。
欠擬合:高偏差
過擬合: 高方差
交叉驗(yàn)證: 分為訓(xùn)練集 測試集以及交叉驗(yàn)證集
判別辦法 橫坐標(biāo)d是維度 d為1的時(shí)候 訓(xùn)練誤差和交叉誤差都很大。當(dāng)d很大的時(shí)候訓(xùn)練誤差是小的
但是交叉誤差是大的
線性回歸正則化 對(duì)λ的選擇
太大了 θ都是0,一條直線 欠擬合
如果λ太大了的話,就會(huì)有比如0,就會(huì)造成過擬合
對(duì)于正則化λ的選擇,嘗試不同的λ的值,求出最小代價(jià)函數(shù)對(duì)應(yīng)的θ,用這個(gè)theta帶入交叉驗(yàn)證中進(jìn)行驗(yàn)正。然后再交叉呀鄭重選擇了θ5 然后帶入到測試集中進(jìn)行測試
正則化
對(duì)于這個(gè)圖形,對(duì)于訓(xùn)練集來說,λ從小到大,小的時(shí)候?qū)?yīng)的θ是高階的因此訓(xùn)練集擬合的好,可能存在過擬合對(duì)于那個(gè)交叉驗(yàn)證集所以誤差大。 隨著λ增大,θ變小了,因此相當(dāng)于一次項(xiàng)了,然后欠擬合,這時(shí)候誤差也是大的,只有選擇一個(gè)合適的λ,才能降低新的數(shù)據(jù)的誤差。改變lamda-交叉誤差和訓(xùn)練誤差的變化。
學(xué)習(xí)曲線
訓(xùn)練集對(duì)訓(xùn)練集上學(xué)習(xí)代價(jià)的曲線變化以及交叉測試集上的曲線變化,對(duì)于訓(xùn)練集 ,數(shù)目越少擬合越好,數(shù)目多了誤差增加。對(duì)于交叉訓(xùn)練集,原來的訓(xùn)練集的數(shù)目越多他的性能越好
增大訓(xùn)練效果沒有用的粒子
高偏差(欠擬合)
當(dāng)交叉訓(xùn)練集隨著訓(xùn)練的數(shù)目增大的時(shí)候,誤差不會(huì)下降,保持一個(gè)較高的穩(wěn)定的值,這個(gè)時(shí)候有再多的數(shù)據(jù)也是沒有什么效果的。右圖顯示的是,如果只有兩個(gè)參數(shù),那么數(shù)據(jù)集數(shù)據(jù)再多,這個(gè)直線也是無法擬合的(訓(xùn)練集和交叉驗(yàn)證集隨著樣本越來越大誤差都很大的時(shí)候)
這哥時(shí)候收集再多數(shù)據(jù)沒有用
高方差(過擬合)
如果λ十分的小,而且θ十分的大,那么就會(huì)過擬合。訓(xùn)練集隨著數(shù)目的增多,還是會(huì)稍微有點(diǎn)誤差但是始終很小。但是對(duì)于交叉訓(xùn)練集,就是有很大的誤差,隨著樣本數(shù)目的下降,稍微有點(diǎn)降低,但是和訓(xùn)練集之間的誤差是很大的,隨著樣本數(shù)目的增加,測試集的誤差是下降的因此在高方差中,增加樣本數(shù)量是可行的
對(duì)于不同的錯(cuò)誤的修復(fù)
特征向量:對(duì)于一個(gè)文本,存在的單詞特征向量中為1,不存在的為0
對(duì)于一個(gè)垃圾分類器
有這些方法進(jìn)行改進(jìn)
先簡單暴力的實(shí)現(xiàn)一個(gè)最快的算法 然后檢測 對(duì)不正確的進(jìn)行分類看 那種問題最多 然后修改原則。
對(duì)于一個(gè)分類模型:精度和recall 都是重要的檢測
精度:預(yù)測患了癌癥且真的有癌癥的人/ 預(yù)測的所有患癌癥的
recall: 預(yù)測且真的患有癌癥的人/ 真實(shí)中所有得癌癥的人
這種定義是因?yàn)槲覀兿M恼嬲幕加邪┌Y的人很少的時(shí)候。如果y=0 預(yù)測一直為0,那么那么recall 是0 是不正確的。 skewed class . 偏斜類。有好的精確度和召回率的算法是好的算法
精度和召回率的一個(gè)比例。
如果閾值 0.99 那么精度高,但是會(huì)漏下許多,因此召回率不高。如果閾值時(shí)0.3 ,那么精度較低,因?yàn)榘押芏喽寂袛酁榛加邪┌Y。 但是召回率高
選擇一個(gè)好的模型,有好的召回率和好的精度。
svm
通過c的選擇可以有更大的間距。 large margin classification
θ0=0 綠線是分類線,藍(lán)線是θ,紅叉點(diǎn)向上面投影,得到p的長度,如果大于1,那么θ數(shù)值要大。
SVM 核函數(shù)
選擇標(biāo)記點(diǎn)
svm與核函數(shù)
高斯核函數(shù) 線性核函數(shù) 莫塞爾定理
KNN
降維
pca:找低維平面。找一條直線進(jìn)行投影,使得投影誤差最小。如果是n維到k維,那么就是找k個(gè)向量。最小化平方投影
數(shù)據(jù)處理
特征-平均值
如果特征有不同的尺度:特征收縮:特征-平均值/max-min or 特征-平均值/標(biāo)準(zhǔn)差
使用PCA 進(jìn)降維,用最少的k 使得與原來的方差比還是99%
壓縮重現(xiàn):
僅僅在測試集上面運(yùn)用PCA
pca 不是一個(gè)好的防止過擬合的做法。即使你的方差保留到99%,但是仍然存在一些有價(jià)值的信息被拋棄的行為。
因此一個(gè)好的做法還是進(jìn)行正則化。pca 提高算法速度比較好
只有需要壓縮數(shù)據(jù)的時(shí)候使用pca, 不要盲目的使用pca,除非你硬盤 內(nèi)存不夠了才需要壓縮數(shù)據(jù)的時(shí)候。
異常檢測
評(píng)估算法
異常檢測算法
異常檢測算法和監(jiān)督學(xué)習(xí)算法
通過對(duì)數(shù)據(jù)的變化,使其分布,數(shù)據(jù)的特征分布更加類似于高斯。可以通過開根,log 等等進(jìn)行
推薦系統(tǒng),協(xié)同過濾
協(xié)同過濾算法
低秩矩陣分解
找到最近的電影
均值規(guī)范化
歸一化算法:使用其對(duì)未進(jìn)行任何評(píng)分的電影進(jìn)行評(píng)分
批量梯度下降,解決梯度下降中數(shù)量太多的問題
如果有3億人,
總結(jié)
以上是生活随笔為你收集整理的机器学习第五章 神经网络的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 吴恩达机器学习作业思路整理
- 下一篇: 机器学习吴恩达