當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

5 大常用机器学习模型类型总结

發(fā)布時間：2023/12/19 编程问答 41 豆豆

生活随笔收集整理的這篇文章主要介紹了 5 大常用机器学习模型类型总结小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

本文介紹了 5 大常用機(jī)器學(xué)習(xí)模型類型：集合學(xué)習(xí)算法，解釋型算法，聚類算法，降維算法，相似性算法，并簡要介紹了每種類型中最廣泛使用的算法模型。我們希望本文可以做到以下三點(diǎn)：

1、應(yīng)用性。 涉及到應(yīng)用問題時，知識的普適性顯然非常重要。所以我們希望通過給出模型的一般類別，讓你更好地了解這些模型應(yīng)當(dāng)如何應(yīng)用。

2、相關(guān)性。 本文并不包括所有的機(jī)器學(xué)習(xí)模型，比如Na?ve Bayes（樸素貝葉斯）和SVM這種傳統(tǒng)算法，在本文中將會被更好的算法所取代。

3、可消化性。對于數(shù)學(xué)基礎(chǔ)較薄弱的讀者而言，過多地解釋算法會讓這篇文章的可讀性變差，更何況，你可以在網(wǎng)上找到無數(shù)教我們實(shí)現(xiàn)這些模型的資源。因此，為了避免本文變得無聊，我們將會把目光放在不同類型的模型的應(yīng)用上。

01 集成學(xué)習(xí)算法

(隨機(jī)森林XGBoost, LightGBM, CatBoost)

什么是集成學(xué)習(xí)算法？

為了理解什么是集成學(xué)習(xí)算法，首先，你需要知道什么是集成學(xué)習(xí)。集成學(xué)習(xí)是一種同時使用多個模型，以達(dá)到比使用單一模型更好的性能的方法。

從概念上講，可以參考下面這個比喻：

我們向一個班里的學(xué)生提出一個數(shù)學(xué)問題。他們有兩種解答方式：合作解答和單人解答。生活經(jīng)驗(yàn)告訴我們，如果全班同學(xué)一起合作，那么學(xué)生之間可以互相檢查，協(xié)作解決問題，并最終給出一個唯一的答案。然而單人作答就沒有這種檢查的福利了——即使他/她的答案錯了，也沒有人能幫他/她檢驗(yàn)。

這里的全班協(xié)作就類似于一個集成學(xué)習(xí)算法，即由幾個較小的算法同時工作，并形成最終的答案。

應(yīng)用

集成學(xué)習(xí)算法主要應(yīng)用于回歸和分類問題或監(jiān)督學(xué)習(xí)問題。由于其固有的性質(zhì)，集成學(xué)習(xí)算法優(yōu)于所有傳統(tǒng)的機(jī)器學(xué)習(xí)算法，包括Na?ve Bayes、SVM和決策樹。??
機(jī)器學(xué)習(xí) ｜ Sklearn中的樸素貝葉斯全解??
機(jī)器學(xué)習(xí)｜支持向量機(jī)1--線性SVM用于分類原理??
機(jī)器學(xué)習(xí)｜支持向量機(jī)2--非線性SVM與核函數(shù)??
機(jī)器學(xué)習(xí) | 決策樹模型（一）理論??
機(jī)器學(xué)習(xí) | 決策樹模型（二）實(shí)例

算法

隨機(jī)森林： 隨機(jī)森林由許多相互獨(dú)立的決策樹構(gòu)成。
集成算法｜隨機(jī)森林分類模型??
集成算法｜隨機(jī)森林回歸模型

XGBoost： 類似于梯度提升（GradientBoost）算法，但添加了剪枝，Newton Boosting，隨機(jī)化參數(shù)等功能，因而比梯度提升更強(qiáng)大。
XGBoost 與 LightGBM 哪個更勝一籌??
信用卡欺詐檢測｜用啟發(fā)式搜索優(yōu)化XGBoost超參數(shù)??

LightGBM： 利用基于梯度的單邊采樣（GOSS）技術(shù)過濾數(shù)據(jù)的一種提升算法，目前實(shí)驗(yàn)已經(jīng)證實(shí)比XGBoost更快，且有時更準(zhǔn)確。??
機(jī)器學(xué)習(xí)｜LightGBM原理及代碼

CatBoost： 一種基于梯度下降的算法。

02 解釋型算法

（線性回歸、邏輯回歸、SHAP、LIME)

什么是解釋型算法？

解釋型算法使我們能夠識別和理解結(jié)果有統(tǒng)計學(xué)意義的變量。因此，與其創(chuàng)建模型來預(yù)測響應(yīng)變量的值，不如創(chuàng)建解釋性模型來幫助我們理解模型中變量之間的關(guān)系。

而從回歸的角度來看，人們往往強(qiáng)調(diào)統(tǒng)計學(xué)上顯著的變量，這是因?yàn)閷τ趶囊粋€整體中提取出的樣本數(shù)據(jù)，如果想對樣本做出結(jié)論，首先必須確保變量擁有足夠的顯著性，并由此做出有把握的假設(shè)。

應(yīng)用

解釋性模型通常用于需要作出解釋的場景。比如展示「為什么」做出某個決定，或者解釋兩個或多個變量之間「如何」相互關(guān)聯(lián)。

在實(shí)踐中，你的機(jī)器學(xué)習(xí)模型的可解釋性與機(jī)器學(xué)習(xí)模型本身的性能一樣重要。如果你不能解釋一個模型是如何工作的，那么這個模型就很難取信于人，自然也就不會被人們應(yīng)用。

算法

基于假設(shè)檢驗(yàn)的傳統(tǒng)解釋模型：

線性回歸： 如果 2 個或者多個變量之間存在“線性關(guān)系”，就可以通過歷史數(shù)據(jù)，建立變量之間的有效“模型”，來預(yù)測未來的變量結(jié)果。例如，y = B0 + B1 * x。??
機(jī)器學(xué)習(xí) | 簡單而強(qiáng)大的線性回歸詳解?
機(jī)器學(xué)習(xí)｜線性回歸中的多重共線性與嶺回歸? ??
機(jī)器學(xué)習(xí) | 多項(xiàng)式回歸處理非線性問題

Logistic回歸： 邏輯回歸主要解決二分類問題，用來表示某件事情發(fā)生的可能性。??
機(jī)器學(xué)習(xí) | 邏輯回歸算法（一）理論

解釋機(jī)器學(xué)習(xí)模型的算法：

SHAP： 即來自博弈論的沙普利加和解釋，實(shí)際是將輸出值歸因到每一個特征的shapely值上，依此來衡量特征對最終輸出值的影響。??
用 SHAP 可視化解釋機(jī)器學(xué)習(xí)模型實(shí)用指南(上)??
用 SHAP 可視化解釋機(jī)器學(xué)習(xí)模型實(shí)用指南(下)

LIME： LIME算法是Marco Tulio Ribeiro2016年發(fā)表的論文《"Why Should I Trust You?" Explaining the Predictions of Any Classi?er》中介紹的局部可解釋性模型算法。該算法主要用于文本類與圖像類的模型中。

03?聚類算法

(k-Means，分層聚類法)

什么是聚類算法？

聚類算法是用來進(jìn)行聚類分析的一項(xiàng)無監(jiān)督學(xué)習(xí)任務(wù)，通常需要將數(shù)據(jù)分組到聚類中。與監(jiān)督學(xué)習(xí)的已知目標(biāo)變量不同，聚類分析中通常沒有目標(biāo)變量。

應(yīng)用

聚類算法可以用于發(fā)現(xiàn)數(shù)據(jù)的自然模式和趨勢。聚類分析在EDA階段非常常見，因?yàn)榭梢缘玫礁嗟臄?shù)據(jù)信息。

同樣，聚類算法能幫你識別一組數(shù)據(jù)中的不同部分。一個常見的聚類細(xì)分是對用戶/客戶的細(xì)分。

算法

K-means聚類： K均值聚類算法是先隨機(jī)選取K個對象作為初始的聚類中心。然后計算每個對象與各個種子聚類中心之間的距離，把每個對象分配給距離它最近的聚類中心。??
機(jī)器學(xué)習(xí) | KMeans聚類分析詳解

層次聚類： 通過計算不同類別數(shù)據(jù)點(diǎn)間的相似度來創(chuàng)建一棵有層次的嵌套聚類樹。

04 降維算法

(PCA, LDA)

什么是降維算法？

降維算法是指減少數(shù)據(jù)集輸入變量（或特征變量）數(shù)量的技術(shù)。本質(zhì)上來說降維是用來解決“維度詛咒”的。（維度詛咒：隨著維度（輸入變量的數(shù)量）的增加，空間的體積呈指數(shù)級增長，最終導(dǎo)致數(shù)據(jù)稀疏。）

應(yīng)用

降維技術(shù)適用于很多情況，比如：當(dāng)數(shù)據(jù)集中的特征很多而實(shí)際需要的輸入變量很少時，或者當(dāng)ML模型過度擬合數(shù)據(jù)時，都可以使用降維技術(shù)。

算法

主成分分析（PCA）：一種使用最廣泛的數(shù)據(jù)降維算法。PCA的主要思想是將n維特征映射到k維上，這k維是在原有n維特征的基礎(chǔ)上重新構(gòu)造出來的，全新的正交特征。??
機(jī)器學(xué)習(xí)｜這次終于徹底理解了PCA主成分分析

線性判別分析（LDA）： 用于在有兩個以上的類時進(jìn)行線性分類。

05 相似性算法

(KNN、歐幾里得距離、余弦、列文斯坦、Jaro-Winkler、SVD...)

數(shù)據(jù)科學(xué)中 17 種相似性和相異性度量(上)
數(shù)據(jù)科學(xué)中 17 種相似性和相異性度量(下)

什么是相似性算法？

相似性算法是指那些計算記錄/節(jié)點(diǎn)/數(shù)據(jù)點(diǎn)/文本對的相似性的算法。所以相似性算法包含許多種類，例如有比較兩個數(shù)據(jù)點(diǎn)之間距離的相似性算法，如歐氏距離；也有計算文本相似性的相似性算法，如列文斯坦算法。

應(yīng)用

相似性算法也可以用于各種場景，但在與“推薦”相關(guān)的應(yīng)用上表現(xiàn)尤為出彩，比如用來決定：

根據(jù)你之前的閱讀情況，Medium應(yīng)該向你推薦哪些文章？
你可以用什么原料來替代藍(lán)莓？
網(wǎng)易云應(yīng)該根據(jù)你已經(jīng)喜歡過的歌曲來推薦什么歌曲？
亞馬遜應(yīng)該根據(jù)你的訂單歷史推薦什么產(chǎn)品？
……

算法

K鄰近： 通過在整個訓(xùn)練集上搜索與該數(shù)據(jù)點(diǎn)最相似的 K 個實(shí)例（近鄰）并且總結(jié)這 K 個實(shí)例的輸出變量，從而得出預(yù)測結(jié)果。

歐幾里德距離： 一個通常采用的距離定義，指在m維空間中兩個點(diǎn)之間的真實(shí)距離，或者向量的自然長度（即該點(diǎn)到原點(diǎn)的距離）。

余弦相似度： 利用向量空間中兩個向量夾角間的余弦值衡量兩個個體之間差異的大小，余弦值接近1，夾角趨于0，表明兩個向量越相似，余弦值接近于0，夾角趨于90度，表明兩個向量越不相似。

列文施泰因算法： 指兩個字串之間，由一個轉(zhuǎn)成另一個所需的最少編輯操作次數(shù)。

Jaro-Winkler算法： Jaro–Winkler distance 適合于較短的字符之間計算相似度。0分表示沒有任何相似度，1分則代表完全匹配。

奇異值分解（SVD）（不完全屬于相似性算法，但與相似性有間接關(guān)系）： 定義一個m×n的矩陣A的SVD為：A=UΣVT ，其中U是一個m×m的矩陣，Σ是一個m×n的矩陣，除了主對角線上的元素以外全為0，主對角線上的每個元素都稱為奇異值，V是一個n×n的矩陣。U和V都是酉矩陣，即滿足UTU=I,VTV=I。這次終于徹底理解了SVD奇異值分解

以上就是對當(dāng)前主流的機(jī)器學(xué)習(xí)算法的總結(jié)，希望本文能幫助你更好地了解各種ML模型以及它們的應(yīng)用場景。當(dāng)然，紙上得來終覺淺，如果本文使你有所收獲，那就請開始你的應(yīng)用之路吧，看看你能用ML解決什么問題!

參考鏈接：
https://towardsdatascience.com/all-machine-learning-algorithms-you-should-know-in-2022-db5b4ccdf32f

-?END -

對比Excel系列圖書累積銷量達(dá)15w冊，讓你輕松掌握數(shù)據(jù)分析技能，可以在全網(wǎng)搜索書名進(jìn)行了解選購：創(chuàng)作挑戰(zhàn)賽新人創(chuàng)作獎勵來咯，堅持創(chuàng)作打卡瓜分現(xiàn)金大獎

總結(jié)

以上是生活随笔為你收集整理的5 大常用机器学习模型类型总结的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇：永久回城特效怎么更换
下一篇：实战分享｜数据驱动「付费转化」的3个思路