當(dāng)前位置：首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

我的机器学习入门之路（上）——传统机器学习

發(fā)布時(shí)間：2025/4/16 编程问答 34 豆豆

生活随笔收集整理的這篇文章主要介紹了我的机器学习入门之路（上）——传统机器学习小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

這篇博客主要記錄了我自己的學(xué)習(xí)路線及相應(yīng)的資料匯總?？倳r(shí)間跨度約為6個(gè)月，主要是利用了晚上的時(shí)間和周末的時(shí)間，每天堅(jiān)持下來(lái)，日積月累，回過(guò)頭來(lái)，可能會(huì)驚訝于自己的進(jìn)步。

對(duì)于一個(gè)機(jī)器學(xué)習(xí)的小白來(lái)說(shuō)，往往不知道如何入門機(jī)器學(xué)習(xí)，畢竟機(jī)器學(xué)習(xí)的知識(shí)點(diǎn)非常多，方向也比較多，所以，在我們進(jìn)行學(xué)習(xí)之前，有必要對(duì)機(jī)器學(xué)習(xí)的大方向做一個(gè)匯總比較與選擇。機(jī)器學(xué)習(xí)的應(yīng)用方向主要包括：搜索、推薦、廣告、風(fēng)控、計(jì)算機(jī)視覺(CV)、自然語(yǔ)言處理(NLP)、知識(shí)圖譜、語(yǔ)音等。從知識(shí)點(diǎn)分類的角度主要可以分為傳統(tǒng)機(jī)器學(xué)習(xí)和深度學(xué)習(xí)。

考慮到現(xiàn)在CV方向的飽和與落地問(wèn)題，且NLP也比較容易學(xué)習(xí)和上手，所以我的學(xué)習(xí)路線選擇如下圖

傳統(tǒng)的機(jī)器學(xué)習(xí)理論與方法是基礎(chǔ)，需要先進(jìn)行學(xué)習(xí)與夯實(shí)。然后進(jìn)入學(xué)習(xí)深度學(xué)習(xí)(主要是自然語(yǔ)言處理)的階段。接下來(lái)，經(jīng)過(guò)這上面兩個(gè)階段的學(xué)習(xí)，就有了一些基礎(chǔ)知識(shí)，可以拓寬到知識(shí)圖譜、推薦、廣告等方向的應(yīng)用了，學(xué)習(xí)的難度就不那么大了。下面分為三大部分來(lái)總結(jié)三個(gè)階段的學(xué)習(xí)過(guò)程。

這篇博客記錄第一部分：傳統(tǒng)機(jī)器學(xué)習(xí)。

傳統(tǒng)的機(jī)器學(xué)習(xí)方法相關(guān)的書籍有很多，比較出名的機(jī)器學(xué)習(xí)三件套包括：周志華的《機(jī)器學(xué)習(xí)》、李航的《統(tǒng)計(jì)學(xué)習(xí)方法》、Peter Harrington的《機(jī)器學(xué)習(xí)實(shí)戰(zhàn)》。這三本書我也都買了，不過(guò)我是以李航的《統(tǒng)計(jì)學(xué)習(xí)方法》為主要理論書籍的，第一遍進(jìn)行精度，理解每一個(gè)方法的原理，不懂的地方就去網(wǎng)上查相應(yīng)的博客，查查別人是怎么理解的。另外那兩本書我看了前面的幾章，個(gè)人比較喜歡精簡(jiǎn)的風(fēng)格，所以沒(méi)有精讀那兩本書后面的章節(jié)。

總結(jié)下來(lái)，對(duì)于某一個(gè)機(jī)器學(xué)習(xí)方法(如邏輯回歸等)，我是以《統(tǒng)計(jì)學(xué)習(xí)方法》作為理論知識(shí)學(xué)習(xí)書籍，先學(xué)習(xí)了其基礎(chǔ)原理，然后去網(wǎng)上搜索相對(duì)應(yīng)的講解博客和一些相對(duì)應(yīng)的面試題，就可以進(jìn)行更深入的理解。

下面是我收藏的一些不錯(cuò)的學(xué)習(xí)資料

1、邏輯回歸（Logistic Regression）

邏輯回歸計(jì)算過(guò)程的推導(dǎo)、并行化的實(shí)現(xiàn)：https://blog.csdn.net/ligang_csdn/article/details/53838743

邏輯回歸的常見面試點(diǎn)：https://www.cnblogs.com/ModifyRong/p/7739955.html

達(dá)觀數(shù)據(jù)對(duì)邏輯回歸的一些總結(jié)：https://zhuanlan.zhihu.com/p/79014680

2、樸素貝葉斯

樸素貝葉斯學(xué)習(xí)筆記：https://blog.csdn.net/qll125596718/article/details/8445217

3、感知機(jī)

感知機(jī)perceptron：https://blog.csdn.net/dream_angel_z/article/details/48915561

4、支持向量機(jī)（SVM）

理解SVM的三層境界：https://blog.csdn.net/v_july_v/article/details/7624837

Scikit-learn實(shí)例之理解SVM正則化系數(shù)C：https://blog.csdn.net/mingtian715/article/details/54574700

5、決策樹

ID3、C4.5、CART、隨機(jī)森林：https://www.2cto.com/kf/201605/509184.html

淺談隨機(jī)森林的幾個(gè)tricks：https://zhuanlan.zhihu.com/p/29408863

6、GBDT

GBDT算法原理深入理解：https://blog.csdn.net/yangxudong/article/details/53872141

GBDT算法的特征重要度計(jì)算：https://blog.csdn.net/yangxudong/article/details/53899260

7、XGBoost

XGBoost入門介紹：https://segmentfault.com/a/1190000010301082

通俗、有邏輯地說(shuō)下XGBoost的原理：https://blog.csdn.net/github_38414650/article/details/76061893

RF、GBDT、XGBoost面試級(jí)整理：https://blog.csdn.net/qq_28031525/article/details/70207918

XGBoost缺失值引發(fā)的問(wèn)題及深度分析：https://tech.meituan.com/2019/08/15/problems-caused-by-missing-xgboost-values-and-their-in-depth-analysis.html

8、LightGBM

lightgbm中文文檔：https://lightgbm.apachecn.org/#/

如何通俗理解LightGBM：http://www.julyedu.com/question/big/kp_id/23/ques_id/2908

比XGBoost更快--LightGBM介紹：https://zhuanlan.zhihu.com/p/25308051

LightGBM基本原理介紹：https://blog.csdn.net/qq_24519677/article/details/82811215

LightGBM如何調(diào)參：https://www.jianshu.com/p/b4ac0596e5ef

LightGBM調(diào)參方法（具體操作）：https://www.cnblogs.com/bjwu/p/9307344.html

GBDT、XGBoost、LightGBM的區(qū)別和聯(lián)系：https://www.jianshu.com/p/765efe2b951a

從XGB到LGB：美團(tuán)外賣樹模型的迭代之路：https://t.cj.sina.com.cn/articles/view/5901272611/15fbe462301900n684

9、PCA

PCA原理總結(jié)：https://www.cnblogs.com/pinard/p/6239403.html

PCA原理詳解：https://blog.csdn.net/zhongkelee/article/details/44064401

t-SNE完整筆記：http://www.datakit.cn/blog/2017/02/05/t_sne_full.html

10、K-means

K-means最優(yōu)K值的選取：https://blog.csdn.net/qq_15738501/article/details/79036255

EM算法的收斂性與K-means算法的收斂性：https://blog.csdn.net/u010161630/article/details/52585764

11、EM算法

如何感性地理解EM算法：https://www.jianshu.com/p/1121509ac1dc

人人都懂EM算法：https://zhuanlan.zhihu.com/p/36331115

12、FM

FM的理解與實(shí)踐：https://zhuanlan.zhihu.com/p/50426292

FM推薦算法原理：https://www.cnblogs.com/pinard/p/6370127.html

FM：https://blog.csdn.net/google19890102/article/details/45532745

13、梯度下降法

梯度下降、牛頓法、擬牛頓法：https://blog.csdn.net/a819825294/article/details/52172463

BGD、SGD、MBGD：https://www.cnblogs.com/maybe2030/p/5089753.html

優(yōu)化方法總結(jié)：https://blog.csdn.net/u010089444/article/details/76725843

深度學(xué)習(xí)最全優(yōu)化方法總結(jié)：https://zhuanlan.zhihu.com/p/22252270

14、正則化

歸一化、標(biāo)準(zhǔn)化、正則化的關(guān)系：https://blog.csdn.net/zyf89531/article/details/45922151

L0、L1、L2范數(shù)：https://blog.csdn.net/zouxy09/article/details/24971995

深入理解L1、L2正則化：https://zhuanlan.zhihu.com/p/29360425

15、樣本不均衡

訓(xùn)練集類別不均衡問(wèn)題的處理：https://blog.csdn.net/heyongluoyao8/article/details/49408131

欠采樣和過(guò)采樣：https://www.zhihu.com/question/269698662

Focal Loss理解：https://www.cnblogs.com/king-lps/p/9497836.html

16、特征工程

特征工程之特征選擇：https://www.cnblogs.com/pinard/p/9032759.html

特征選擇：卡方檢驗(yàn)、F檢驗(yàn)和互信息：https://www.cnblogs.com/massquantity/p/10486904.html

幾種常用的特征選擇方法：https://blog.csdn.net/LY_ysys629/article/details/53641569

17、模型集成

Bootstrip、Bagging、Boosting：https://blog.csdn.net/MrLevo520/article/details/53189615

模型融合：https://blog.csdn.net/shine19930820/article/details/75209021

kaggle 模型融合(stacking)心得：https://zhuanlan.zhihu.com/p/26890738

18、kaggle

kaggle比賽的一些小套路：https://blog.csdn.net/pearl8899/article/details/82145480

kaggle入門：https://blog.csdn.net/u012162613/article/details/41929171

如何在kaggle首站進(jìn)入前10%：https://dnc1994.com/2016/04/rank-10-percent-in-first-kaggle-competition/

kaggle中的kernel入門：https://blog.csdn.net/IAMoldpan/article/details/88852032

19、其它

機(jī)器學(xué)習(xí)常見評(píng)價(jià)指標(biāo)：https://blog.csdn.net/zhihua_oba/article/details/78677469

常見損失函數(shù)：https://blog.csdn.net/weixin_37933986/article/details/68488339

偏差、誤差、方差的區(qū)別與聯(lián)系：https://www.zhihu.com/question/27068705

如何選取超參數(shù)：https://blog.csdn.net/u012162613/article/details/44265967

最小二乘法小結(jié)：https://www.cnblogs.com/pinard/p/5976811.html

拉普拉斯平滑處理：https://blog.csdn.net/daijiguo/article/details/52222683

穿越問(wèn)題：https://blog.csdn.net/phrmgb/article/details/79997057

數(shù)據(jù)增強(qiáng)：https://zhuanlan.zhihu.com/p/41679153

協(xié)同過(guò)濾：https://blog.csdn.net/yimingsilence/article/details/54934302

AI筆面試題庫(kù)：https://www.julyedu.com/question/topic_list/23

……

其它書籍：機(jī)器學(xué)習(xí)的其它相關(guān)書籍，我涉獵過(guò)的不多，有《美團(tuán)機(jī)器學(xué)習(xí)實(shí)踐》、《百面機(jī)器學(xué)習(xí)》、PRML。這里強(qiáng)烈推薦葫蘆書《百面機(jī)器學(xué)習(xí)》，可以作為自己機(jī)器學(xué)習(xí)知識(shí)點(diǎn)查缺補(bǔ)漏的經(jīng)典書籍。

在學(xué)習(xí)下來(lái)，我感覺中文的這些機(jī)器學(xué)習(xí)書籍都是只給出了“知其然”的解答，并沒(méi)有給出“知其所以然”的解答，但是我在閱讀PRML的時(shí)候，真的感覺作者一直在告訴我這些方法究竟是怎么得到的，其來(lái)龍去脈都非常清晰。有時(shí)間的話，計(jì)劃再細(xì)細(xì)拜讀PRML。其次，還是多比較不同的機(jī)器學(xué)習(xí)方法，才能更融會(huì)貫通，比如從感知機(jī)和SVM的聯(lián)系與區(qū)別，從感知機(jī)發(fā)展到SVM，再到核方法，這些變化演進(jìn)是在解決什么問(wèn)題，都是要理解透徹的。最后，就是多實(shí)戰(zhàn)了，實(shí)戰(zhàn)才能更好地理解和運(yùn)用。

我的微信公眾號(hào)：帕尼尼古

歡迎關(guān)注~

總結(jié)

以上是生活随笔為你收集整理的我的机器学习入门之路（上）——传统机器学习的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇： Leetcode 345. 反转字符串中
下一篇：我的机器学习入门之路（下）——知识图谱、