當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

各种分类算法比较

發(fā)布時間：2023/12/15 编程问答 33 豆豆

生活随笔收集整理的這篇文章主要介紹了各种分类算法比较小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

1 KNN算法

原理：已知樣本集中每一個數(shù)據(jù)與所屬分類的對應(yīng)關(guān)系，輸入沒有標簽的新數(shù)據(jù)后，將新數(shù)據(jù)與訓練集的數(shù)據(jù)對應(yīng)特征進行比較，找出“距離”最近的k（通常k<20）數(shù)據(jù)，選擇這k個數(shù)據(jù)中出現(xiàn)最多的分類作為新數(shù)據(jù)的分類。
算法描述：
(1) 計算已知類別數(shù)據(jù)及中的點與當前點的距離；
(2) 按距離遞增次序排序
(3) 選取與當前點距離最小的k個點
(4) 確定前K個點所在類別出現(xiàn)的頻率
(5) 返回頻率最高的類別作為當前類別的預測
距離計算方法有”euclidean”（歐氏距離）,“wski”（明科夫斯基距離）,”maximum”（切比雪夫距離）,”manhattan”（絕對值距離）,”canberra”（蘭式距離）,”minkowski”（馬氏距離）等。
優(yōu)點：精度高、對異常值不敏感、無數(shù)據(jù)輸入假定。
缺點：計算復雜度高，空間復雜度高。

2 決策樹

生成決策樹的步驟：
(1) 根據(jù)給定的訓練數(shù)據(jù)，根據(jù)屬性選擇度量選擇每一個維度來劃分數(shù)據(jù)集，找到最關(guān)鍵的維度。
(2) 當某個分支下所有的數(shù)據(jù)都數(shù)據(jù)同一分類則終止劃分并返回類標簽，否則在此分支上重復實施(1)過程。
(3) 依次計算就將類標簽構(gòu)建成了一棵抉擇樹。
(4) 依靠訓練數(shù)據(jù)構(gòu)造了決策樹之后，我們就可以將它用于實際數(shù)據(jù)的分類。
典型的算法有ID3 、C4.5、 CART（分類與回歸樹），三種算法均采用貪心（即非回溯的）方法，其中決策樹以自頂向下遞歸的分支方式構(gòu)造。但屬性選擇度量的不同：ID3采用信息增益度量；C4.5采用信息增益率；CART采用GINI指標。
優(yōu)點：計算復雜度不高，輸出結(jié)果易于理解，對中間值的缺失不敏感，可以處理不相關(guān)特征數(shù)據(jù)。
缺點：可能會產(chǎn)生匹配過度問題。

3 樸素貝葉斯算法

優(yōu)點：在數(shù)據(jù)較少的情況下仍然有效，可以處理多類別問題。
缺點：對于輸入數(shù)據(jù)的準備方式較為敏感。

4 支持向量機

優(yōu)點：泛化錯誤率低，計算開銷不大，結(jié)果易解釋。
缺點：對參數(shù)調(diào)節(jié)和核函數(shù)的選擇敏感，原始分類器不加修改僅適用于處理二分類問題

5 神經(jīng)網(wǎng)絡(luò)

6 Logistic回歸

優(yōu)點：計算代價不高，易于理解和實現(xiàn)。
缺點：容易欠擬合，分類精度可能不高。

總結(jié)

以上是生活随笔為你收集整理的各种分类算法比较的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

算法

上一篇：迅雷下载出错（迅雷任务出错怎样继续下载）
下一篇：简单文本函数