日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 综合教程 >内容正文

综合教程

西瓜书学习笔记(一)

發(fā)布時間:2024/6/21 综合教程 38 生活家
生活随笔 收集整理的這篇文章主要介紹了 西瓜书学习笔记(一) 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

序言

1、符號主義、貝葉斯派、聯(lián)結(jié)主義、進化主義、行為類比主義(機器學(xué)習(xí)的五大流派):

參考:本書1.5節(jié)及https://blog.csdn.net/rogerchen1983/article/details/79681463;

第一章 緒論

1、1997年,Tom Mitchell對機器學(xué)習(xí)的定義引入了三個概念:經(jīng)驗Experience(E)、任務(wù)Task(T)、任務(wù)完成效果的衡量指標Performance measure(P)。將機器學(xué)習(xí)定義為:假設(shè)用P來評估計算機程序在某任務(wù)類T上的性能,若一個程序通過利用經(jīng)驗E在T中任務(wù)上獲得了性能改善,則我們說關(guān)于T和P,該程序?qū)進行了學(xué)習(xí)。即在有了經(jīng)驗E的幫助后,機器完成任務(wù)T的衡量指標P變得更好了。

2、奧卡姆剃刀原理:“如無必要,勿增實體”,即“簡單有效原理”。周志華西瓜書中描述為:“若有多個假設(shè)與觀察一致,則選擇最簡單的那個”。

3、沒有免費的午餐定理:沒有免費午餐定理(No Free Lunch,簡稱NFL),該定理的結(jié)論是,由于對所有可能函數(shù)的相互補償,最優(yōu)化算法的性能是等價的。即脫離具體的問題,空泛地談?wù)摗笆裁磳W(xué)習(xí)算法最好”毫無意義。

第二章 模型評估與選擇

1、P問題、NP問題、NPC問題 NP hard問題

在計算機領(lǐng)域,一般可以將問題分為可解問題和不可解問題。不可解問題也可以分為兩類:一類如停機問題,的確無解;另一類雖然有解,但時間復(fù)雜度很高。可解問題也分為多項式問題(Polynomial Problem,P問題)和非確定性多項式問題(NondeterministicPolynomial Problem,NP問題)。

2.、評估模型泛化誤差的方法

  2.1、留出法

  2.2、交叉驗證法(k次交叉驗證、p次k折交叉驗證、留一法)

    適用于數(shù)據(jù)量足夠的情況;

    任何評估方法不一定比其他評估方法更準確,“沒有免費的午餐”定理對實驗評估方法同樣適用。

  2.3、自助法

    適用于數(shù)據(jù)集較小、難以進行有效劃分訓(xùn)練/測試集的情況。能從初始數(shù)據(jù)中產(chǎn)生多個不同的訓(xùn)練集,對集成學(xué)習(xí)有較大好處。但自助法產(chǎn)生的數(shù)據(jù)集改變了初始數(shù)據(jù)的分布,會引入估計偏差。

3.、評估不同模型泛化性能(分隔出驗證集進行調(diào)參,并在測試集上進行測試)

  將樣本數(shù)據(jù)集分為測試集和訓(xùn)練數(shù)據(jù),訓(xùn)練數(shù)據(jù)進一步分為訓(xùn)練集和驗證集。使用驗證集進行模型的選擇和調(diào)參,使用測試集來估計模型在實際使用時的泛化能力。

  訓(xùn)練集、驗證集、測試集:

4、性能度量(評估模型的泛化性能)

  4.1、回歸任務(wù):將模型預(yù)測結(jié)果與真實值進行比較,計算“誤差”,如:

          ①:歐式、曼哈頓、切比雪夫距離、閔可夫斯基距離,如:回歸任務(wù)中常用均方誤差;

          ②:余弦距離;

          ③:漢明距離;

          ④:馬哈拉諾斯比斯距離;

          ⑤:相關(guān)系數(shù);

  4.2、分類任務(wù): ①:錯誤率、精度;

          ②:二分類任務(wù):混淆矩陣、查準率、查全率、P-R曲線(查準率-查全率曲線)圖、面積度量標準(度量學(xué)習(xí)器的查準率、查全率性能)、平衡點(BEP)性能度量標準、F1度量標準、Fβ度量標準;

          ③:多分類任務(wù):兩兩類別之間組建n個混淆矩陣、宏查準率、宏查全率、宏F1、微查準率、微查全率、微F1;

          ④:ROC曲線(真正例TPR率-假正例FPR率曲線)、AUC面積度量法;

          ⑤:代價敏感錯誤率、代價曲線;

5、比較檢驗(以錯誤率為例,分析學(xué)習(xí)器的泛化性能是否良好?有多大的把握(顯著度)?)

  5.1、概率論知識補充

  常用離散型分布:單點分布(退化分布)、(0-1)分布(兩點分布或伯努利分布)、二項分布、負二項分布(帕斯卡分布)、幾何分布、超幾何分布、泊松分布;

  常用連續(xù)型分布:均勻分布、正態(tài)分布(高斯分布)、對數(shù)正態(tài)分布、逆高斯分布、Γ分布( 伽瑪分布 ) 、指數(shù)分布(負指數(shù)分布)、卡方分布、非中心卡方分布、韋布爾分布、

拉普拉斯分布、瑞利分布、帕雷托分布、極值分布、邏輯斯蒂分布、β分布 、柯西分布、t 分布(學(xué)生氏分布)、非中心 t 分布、F分布、非中心 F分布;

  5.2、常用的分布

  參考:https://zhuanlan.zhihu.com/p/47609519

  5.3、常用的分布所解決的問題

  大數(shù)定理:在隨機事件的大量重復(fù)出現(xiàn)中,往往呈現(xiàn)幾乎必然的規(guī)律,這個規(guī)律就是大數(shù)定律。

  0-1分布(兩點分布或伯努利分布)、均勻分布:一次隨機事件發(fā)生某一結(jié)果的概率;

  二項分布、超幾何分布:n次伯努利試驗(或有放回抽樣試驗)中事件A恰好發(fā)生k次的概率。超幾何分布為不放回抽樣時的概率;

  幾何分布、負二項分布:前k-1次皆失敗,第k次成功的概率。負二項分布為r次失敗(成功)前成功(失敗)的次數(shù);

  泊松分布:特定時間里發(fā)生n個事件的機率。當(dāng)二項分布的n很大而p很小時,泊松分布可作為二項分布的近似,其中λ為np。通常當(dāng)n≧20,p≦0.05時,就可以用泊松分布近似計算。事實上,泊松分布正是由二項分布推導(dǎo)而來的;

  指數(shù)分布:要等到一個隨機事件發(fā)生,需要經(jīng)歷多久時間。給定一個某段時間內(nèi)發(fā)生次數(shù)遵循泊松分布的事件,那么事件間隔時間遵循參數(shù)λ相同的指數(shù)分布。

  正態(tài)分布:

    中心極限定理:①:獨立同分布的中心極限定理:在實際工作中,只要n足夠大,便可以把獨立同分布的隨機變量之和當(dāng)作正態(tài)變量;

           ②:棣莫佛-拉普拉斯定理:正態(tài)分布是二項分布的極限分布;

           ③:不同分布的中心極限定理:隨機變量如果是有大量獨立的而且均勻的隨機變量相加而成,那么它的分布將近似于正態(tài)分布。

  t分布、卡方分布:t分布用于推斷正態(tài)分布的均值。檢驗基于觀測值和理論值的差(假定差遵循正態(tài)分布)的平方和;

  伽瑪分布和貝塔分布:伽瑪分布可以用來建模接下來第n個事件發(fā)生前的時間。Beta分布是一個定義在[0,1]區(qū)間上的連續(xù)概率分布族,它有兩個正值參數(shù),稱為形狀參數(shù),一般用αα和ββ表示。在貝葉斯推斷中,Beta分布是Bernoulli、二項分布、負二項分布和幾何分布的共軛先驗分布;

  5.4、常用區(qū)間估計與假設(shè)檢驗公式表

  參考:https://wenku.baidu.com/view/1ae0a2b8a56e58fafab069dc5022aaea998f41ef.html

  5.5、常用假設(shè)檢驗

  參考:https://www.cnblogs.com/hust-chen/p/8643973.html

  5.6、不同學(xué)習(xí)器,相同測試集,交叉驗證t檢驗

  5.7、不同學(xué)習(xí)器,相同測試集,McNemar

  5.8、不同學(xué)習(xí)器,不同測試集,F(xiàn)riedman檢驗與Nemenyi后驗

6、偏差與方差

  偏差刻畫了學(xué)習(xí)算法本身的擬合能力;(欠擬合);

  方差刻畫了數(shù)據(jù)擾動所造成的影響;(過擬合);

  噪聲刻畫了學(xué)習(xí)問題本身的難易程度;

附錄 常用概率分布間的關(guān)系

  參考:http://www.math.wm.edu/~leemis/chart/UDR/UDR.html

     http://www.math.wm.edu/~leemis/2008amstat.pdf

  

總結(jié)

以上是生活随笔為你收集整理的西瓜书学习笔记(一)的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。