日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

各类监督方法流行趋势分析

發布時間:2024/8/23 编程问答 39 豆豆
生活随笔 收集整理的這篇文章主要介紹了 各类监督方法流行趋势分析 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

又到一年的年末了,到了進行總結并展望來年的時候了,在這里預祝各位新的一年順利。閑話少敘,本文將對有監督學習方法進行總結。

機器學習領域在過去幾十年中經歷了巨大的變化,不可否認的是,雖然有些方法已經存在了很長時間,但仍然是該領域的主要內容。例如,最小二乘法(?least squares)的概念在19世紀早期由勒讓德和高斯提出,最基本的形式的神經網絡(?neural networks)早在1958年就引入的,并在過去的幾十年中大幅提升、支持向量機(SVM)等方法則更是較新的方法,這些方法仍然占據了機器學習領域應用中的半壁江山。

隨著科研的進行,有大量可用的監督學習方法被發明。使用者通常會提出以下問題:什么是最好的模型?眾所周知,這個問題沒有標準答案,因為模型的有用性取決于手頭的數據以及具體處理的問題,合適的就是最好的。那么,可以轉換下思路,換成這個問題:最受歡迎的模型是什么?這將是本文的關注點。

衡量機器學習模型的流行程度

出于本文的目的,使用頻率論方法定義流行度。更確切地說,將使用提及個人監督學習模型的科學出版物的數量表示受歡迎的程度。當然,這種方法有一些限制:

  • 可能有比出版物數量更準確的表示方法;
  • 分析受所使用的搜索術語的影響;
  • 文獻數據庫并不完美;

因此,對于這篇文章進行了兩次分析。第一個分析是對出版頻率的縱向分析,而第二個分析則比較了不同領域與機器學習模型相關的出版物總數。

在第一次分析中,通過從谷歌學術搜索中搜索數據來確定出版物的數量,該數據考慮出版物的標題和摘要。為了確定與個人監督學習方法相關的出版物數量,統計1950年至2017年期間谷歌學術搜索的點擊次數。由于抓取谷歌學術的數據非常困難,所以本文參考ScrapeHero提供的有用建議來收集數據。

在分析中包含了13種監督方法:神經網絡、深度學習、SVM、隨機森林、決策樹、線性回歸、邏輯回歸、泊松回歸、嶺回歸、套索回歸(?lasso regression)、k-最近鄰、線性判別分析、以及對數線性模型。其中,對于套索回歸,搜索時考慮了?lasso regression和套lasso model?;對于最近鄰方法,搜索時術語有k-nearest neighbor和k-nearest neighbour,得到的數據集表示從1950年到現在,每個監督模型相關的出版物的數量。

從1950年到現在使用的監督模型

為了分析縱向數據,將時間段劃分為兩個時期:機器學習的早期階段(1950年至1980年),幾乎沒有可用模型;以及形成時期(1980年至今),開發了許多新模型。

早期:線性回歸占優勢


從圖1中可以看出,線性回歸是1950年至1980年間的主導方法。相比之下,科學文獻中極少提及其他機器學習模型。然而,從20世紀60年代開始,可以看到神經網絡和決策樹的普及開始增長。此外,還可以看到邏輯回歸尚未廣泛應用,在20世紀70年代末的數量僅略有增加。

形成年代:神經網絡的多樣化和興起

圖2表明,從20世紀80年代后期開始,出版物中提到的監督模型變得更加多樣化。重要的是,文獻中提到的機器學習模型的比率一直穩步增加,直到2013年。該圖具體顯示了線性回歸、邏輯回歸和神經網絡的普及。正如之前所見,線性回歸在1980年之前已經流行。然而,從1980年開始,神經網絡和邏輯回歸的普及開始迅速增長。雖然邏輯回歸的流行度在2010年達到頂峰,該方法幾乎變得像線性回歸一樣受歡迎,但近年來,神經網絡和深度學習的流行程度甚至超過了2015年線性回歸的流行程度。

神經網絡已經變得非常受歡迎,因為它們已經在機器學習應用方面取得了突破,例如圖像識別(ImageNet,2012)、人臉識別(DeepFace,2014)和游戲(AlphaGo,2016)等。來自谷歌學術的數據表明,文章中提到神經網絡的頻率在過去幾年中略有下降(圖2中未顯示)。這可能是因為術語深度學習(多層神經網絡)在某種程度上取代了術語神經網絡的使用。

另外可以看到,稍微不那么受歡迎的監督方法是決策樹和SVM。與前三種方法相比,提到這些方法的頻率明顯較小。另一方面,文獻中提到這些方法的頻率似乎也有較小的波動。值得注意的是,決策樹和SVM的流行度都沒有下降。在決策樹和SVM之間,SVM似乎表現出更有利的增長趨勢,因為SVM在發明后僅僅15年就成功超越了決策樹。

不同領域的監督學習模型的受歡迎程度

在第二個分析中,想調查不同的領域是否依賴于不同的機器學習技術。為此,查詢了三個科學出版物庫:谷歌學術出版物、計算機科學出版物的dblp和生物醫學科學出版物的PubMed。在三個庫中統計了13個機器學習模型的命中頻率。結果如圖3所示。


圖3表明,許多方法對各個領域都非常具體,下面分析每個領域中最流行的模型。

整體使用監督學習模型

根據谷歌學術搜索表明,最常用的五種監督模型如下所示:

  • 線性回歸: 3,580,000(34.3%)篇論文;
  • 邏輯回歸:2,330,000(22.3%)篇論文;
  • 神經網絡: 1,750,000(16.8%)篇論文;
  • 決策樹: 875,000(8.4%)份論文;
  • 支持向量機:684,000(6.6%)篇論文;

總體而言,線性模型顯然占主導地位,占監督模型的統計率的50%以上。單非線性方法并不落后:神經網絡占所有論文的16.8%,其次是決策樹(8.4%的論文)和SVM(6.6%的論文)。

在生物醫學科學中使用模型

根據PubMed,在生物醫學科學中,最受歡迎的五種機器學習模型如下所示:

  • 邏輯回歸: 229,956(54.5%)篇論文;
  • 線性回歸: 84,850(20.1%)篇論文;
  • Cox回歸: 38,801(9.2%)篇論文;
  • 神經網絡: 23,883(5.7%)篇論文;
  • 泊松回歸: 12,978(3.1%)篇論文;

在生物醫學科學中,可以看到與線性模型相關的提及次數偏多:五種最流行的方法中有四種是線性的,這可能是由于兩個原因造成的。首先,在醫療環境中,樣本數量通常太小,無法擬合復雜的非線性模型。其次,模型解釋結果的能力對醫療應用至關重要。由于非線性方法通常難以解釋,因此它們不太適合醫療應用。

邏輯回歸在PubMed數據庫中的流行可能是由于大量出版物的臨床研究。在這些研究中,通常使用邏輯回歸分析分類結果(即治療成功),因為它非常適合于解釋特征對結果的影響。Cox回歸在PubMed數據庫中也非常流行,因為它常用于分析Kaplan-Meier生存數據。

在計算機科學中使用的模型

從dblp中檢索到,計算機科學書目中最受歡迎的五個模型是:

  • 神經網絡: 63,695(68.3%)篇論文;
  • 深度學習: 10,157(10.9%)篇論文;
  • 支持向量機: 7,750(8.1%)篇論文;
  • 決策樹: 4,074(4.4%)篇論文;
  • 最近鄰居: 3,839(2.1%)篇論文;

計算機科學出版物中提到的機器學習模型的分布是截然不同的:大多數出版物似乎都涉及最近的非線性方法(例如神經網絡、深度學習和支持向量機),如果將深度學習算作神經網絡的一種,則超過四分之三的檢索計算機科學出版物都涉及神經網絡。

行業之間的差別

?

圖4總結了文獻中提到的參數和非參數模型的百分比。柱形圖表明,在機器學習研究中調查的模型(計算機科學出版物)和應用的模型類型(生物醫學和整體出版物)之間存在很大差異。雖然超過90%的計算機科學出版物涉及非參數模型,但大約90%的生物醫學出版物涉及參數模型,這表明機器學習研究主要集中在最先進的方法,如深度神經網絡,而機器學習的用戶往往依賴于更多可解釋的參數模型,如邏輯回歸等。

總結

對科學文獻中有監督學習模型的流行度分析表明了人工神經網絡的受歡迎程度。但是,也看到不同的領域使用不同類型的機器學習模型。特別是生物醫學科學的研究人員仍然嚴重依賴參數模型,但這種情況逐漸在發生改變,隨著可解釋模型的研究更加深入,更復雜的模型一定會在生物醫學領域得到廣泛應用。

?

原文鏈接
本文為云棲社區原創內容,未經允許不得轉載。

總結

以上是生活随笔為你收集整理的各类监督方法流行趋势分析的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。