日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

机器学习第五章 神经网络

發(fā)布時(shí)間:2025/4/16 编程问答 16 豆豆
生活随笔 收集整理的這篇文章主要介紹了 机器学习第五章 神经网络 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

參考鏈接https://www.cnblogs.com/maybe2030/p/5597716.html
梯度檢測


確認(rèn)沒有錯(cuò)誤之后就關(guān)掉這個(gè)梯度檢測,否則會(huì)變得很慢,因?yàn)樗确聪騻鞑ヂ暮?br />
選擇神經(jīng)網(wǎng)絡(luò)的架構(gòu) 輸入層與輸出層是與特征的維度與類別的數(shù)目相關(guān)的。 對(duì)于隱藏層,如果大于1隱藏單元的數(shù)目應(yīng)該是相等。


欠擬合:高偏差
過擬合: 高方差
交叉驗(yàn)證: 分為訓(xùn)練集 測試集以及交叉驗(yàn)證集
判別辦法 橫坐標(biāo)d是維度 d為1的時(shí)候 訓(xùn)練誤差和交叉誤差都很大。當(dāng)d很大的時(shí)候訓(xùn)練誤差是小的
但是交叉誤差是大的

線性回歸正則化 對(duì)λ的選擇

太大了 θ都是0,一條直線 欠擬合
如果λ太大了的話,就會(huì)有比如0,就會(huì)造成過擬合

對(duì)于正則化λ的選擇,嘗試不同的λ的值,求出最小代價(jià)函數(shù)對(duì)應(yīng)的θ,用這個(gè)theta帶入交叉驗(yàn)證中進(jìn)行驗(yàn)正。然后再交叉呀鄭重選擇了θ5 然后帶入到測試集中進(jìn)行測試


正則化


對(duì)于這個(gè)圖形,對(duì)于訓(xùn)練集來說,λ從小到大,小的時(shí)候?qū)?yīng)的θ是高階的因此訓(xùn)練集擬合的好,可能存在過擬合對(duì)于那個(gè)交叉驗(yàn)證集所以誤差大。 隨著λ增大,θ變小了,因此相當(dāng)于一次項(xiàng)了,然后欠擬合,這時(shí)候誤差也是大的,只有選擇一個(gè)合適的λ,才能降低新的數(shù)據(jù)的誤差。改變lamda-交叉誤差和訓(xùn)練誤差的變化。

學(xué)習(xí)曲線


訓(xùn)練集對(duì)訓(xùn)練集上學(xué)習(xí)代價(jià)的曲線變化以及交叉測試集上的曲線變化,對(duì)于訓(xùn)練集 ,數(shù)目越少擬合越好,數(shù)目多了誤差增加。對(duì)于交叉訓(xùn)練集,原來的訓(xùn)練集的數(shù)目越多他的性能越好

增大訓(xùn)練效果沒有用的粒子

高偏差(欠擬合)


當(dāng)交叉訓(xùn)練集隨著訓(xùn)練的數(shù)目增大的時(shí)候,誤差不會(huì)下降,保持一個(gè)較高的穩(wěn)定的值,這個(gè)時(shí)候有再多的數(shù)據(jù)也是沒有什么效果的。右圖顯示的是,如果只有兩個(gè)參數(shù),那么數(shù)據(jù)集數(shù)據(jù)再多,這個(gè)直線也是無法擬合的(訓(xùn)練集和交叉驗(yàn)證集隨著樣本越來越大誤差都很大的時(shí)候)
這哥時(shí)候收集再多數(shù)據(jù)沒有用

高方差(過擬合)

如果λ十分的小,而且θ十分的大,那么就會(huì)過擬合。訓(xùn)練集隨著數(shù)目的增多,還是會(huì)稍微有點(diǎn)誤差但是始終很小。但是對(duì)于交叉訓(xùn)練集,就是有很大的誤差,隨著樣本數(shù)目的下降,稍微有點(diǎn)降低,但是和訓(xùn)練集之間的誤差是很大的,隨著樣本數(shù)目的增加,測試集的誤差是下降的因此在高方差中,增加樣本數(shù)量是可行的

對(duì)于不同的錯(cuò)誤的修復(fù)




特征向量:對(duì)于一個(gè)文本,存在的單詞特征向量中為1,不存在的為0

對(duì)于一個(gè)垃圾分類器

有這些方法進(jìn)行改進(jìn)

先簡單暴力的實(shí)現(xiàn)一個(gè)最快的算法 然后檢測 對(duì)不正確的進(jìn)行分類看 那種問題最多 然后修改原則。

對(duì)于一個(gè)分類模型:精度和recall 都是重要的檢測
精度:預(yù)測患了癌癥且真的有癌癥的人/ 預(yù)測的所有患癌癥的
recall: 預(yù)測且真的患有癌癥的人/ 真實(shí)中所有得癌癥的人

這種定義是因?yàn)槲覀兿M恼嬲幕加邪┌Y的人很少的時(shí)候。如果y=0 預(yù)測一直為0,那么那么recall 是0 是不正確的。 skewed class . 偏斜類。有好的精確度和召回率的算法是好的算法

精度和召回率的一個(gè)比例。
如果閾值 0.99 那么精度高,但是會(huì)漏下許多,因此召回率不高。如果閾值時(shí)0.3 ,那么精度較低,因?yàn)榘押芏喽寂袛酁榛加邪┌Y。 但是召回率高

選擇一個(gè)好的模型,有好的召回率和好的精度。

svm



通過c的選擇可以有更大的間距。 large margin classification

θ0=0 綠線是分類線,藍(lán)線是θ,紅叉點(diǎn)向上面投影,得到p的長度,如果大于1,那么θ數(shù)值要大。
SVM 核函數(shù)

選擇標(biāo)記點(diǎn)


svm與核函數(shù)


高斯核函數(shù) 線性核函數(shù) 莫塞爾定理

KNN

降維

pca:找低維平面。找一條直線進(jìn)行投影,使得投影誤差最小。如果是n維到k維,那么就是找k個(gè)向量。最小化平方投影

數(shù)據(jù)處理
特征-平均值
如果特征有不同的尺度:特征收縮:特征-平均值/max-min or 特征-平均值/標(biāo)準(zhǔn)差




使用PCA 進(jìn)降維,用最少的k 使得與原來的方差比還是99%
壓縮重現(xiàn):

僅僅在測試集上面運(yùn)用PCA


pca 不是一個(gè)好的防止過擬合的做法。即使你的方差保留到99%,但是仍然存在一些有價(jià)值的信息被拋棄的行為。
因此一個(gè)好的做法還是進(jìn)行正則化。pca 提高算法速度比較好

只有需要壓縮數(shù)據(jù)的時(shí)候使用pca, 不要盲目的使用pca,除非你硬盤 內(nèi)存不夠了才需要壓縮數(shù)據(jù)的時(shí)候。

異常檢測


評(píng)估算法

異常檢測算法

異常檢測算法和監(jiān)督學(xué)習(xí)算法

通過對(duì)數(shù)據(jù)的變化,使其分布,數(shù)據(jù)的特征分布更加類似于高斯。可以通過開根,log 等等進(jìn)行

推薦系統(tǒng),協(xié)同過濾


協(xié)同過濾算法
低秩矩陣分解

找到最近的電影

均值規(guī)范化

歸一化算法:使用其對(duì)未進(jìn)行任何評(píng)分的電影進(jìn)行評(píng)分

批量梯度下降,解決梯度下降中數(shù)量太多的問題

如果有3億人,

總結(jié)

以上是生活随笔為你收集整理的机器学习第五章 神经网络的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。