我的机器学习入门之路(上)——传统机器学习
這篇博客主要記錄了我自己的學(xué)習(xí)路線及相應(yīng)的資料匯總??倳r(shí)間跨度約為6個(gè)月,主要是利用了晚上的時(shí)間和周末的時(shí)間,每天堅(jiān)持下來(lái),日積月累,回過(guò)頭來(lái),可能會(huì)驚訝于自己的進(jìn)步。
對(duì)于一個(gè)機(jī)器學(xué)習(xí)的小白來(lái)說(shuō),往往不知道如何入門機(jī)器學(xué)習(xí),畢竟機(jī)器學(xué)習(xí)的知識(shí)點(diǎn)非常多,方向也比較多,所以,在我們進(jìn)行學(xué)習(xí)之前,有必要對(duì)機(jī)器學(xué)習(xí)的大方向做一個(gè)匯總比較與選擇。機(jī)器學(xué)習(xí)的應(yīng)用方向主要包括:搜索、推薦、廣告、風(fēng)控、計(jì)算機(jī)視覺(CV)、自然語(yǔ)言處理(NLP)、知識(shí)圖譜、語(yǔ)音等。從知識(shí)點(diǎn)分類的角度主要可以分為傳統(tǒng)機(jī)器學(xué)習(xí)和深度學(xué)習(xí)。
考慮到現(xiàn)在CV方向的飽和與落地問(wèn)題,且NLP也比較容易學(xué)習(xí)和上手,所以我的學(xué)習(xí)路線選擇如下圖
傳統(tǒng)的機(jī)器學(xué)習(xí)理論與方法是基礎(chǔ),需要先進(jìn)行學(xué)習(xí)與夯實(shí)。然后進(jìn)入學(xué)習(xí)深度學(xué)習(xí)(主要是自然語(yǔ)言處理)的階段。接下來(lái),經(jīng)過(guò)這上面兩個(gè)階段的學(xué)習(xí),就有了一些基礎(chǔ)知識(shí),可以拓寬到知識(shí)圖譜、推薦、廣告等方向的應(yīng)用了,學(xué)習(xí)的難度就不那么大了。下面分為三大部分來(lái)總結(jié)三個(gè)階段的學(xué)習(xí)過(guò)程。
這篇博客記錄第一部分:傳統(tǒng)機(jī)器學(xué)習(xí)。
?
傳統(tǒng)的機(jī)器學(xué)習(xí)方法相關(guān)的書籍有很多,比較出名的機(jī)器學(xué)習(xí)三件套包括:周志華的《機(jī)器學(xué)習(xí)》、李航的《統(tǒng)計(jì)學(xué)習(xí)方法》、Peter Harrington的《機(jī)器學(xué)習(xí)實(shí)戰(zhàn)》。這三本書我也都買了,不過(guò)我是以李航的《統(tǒng)計(jì)學(xué)習(xí)方法》為主要理論書籍的,第一遍進(jìn)行精度,理解每一個(gè)方法的原理,不懂的地方就去網(wǎng)上查相應(yīng)的博客,查查別人是怎么理解的。另外那兩本書我看了前面的幾章,個(gè)人比較喜歡精簡(jiǎn)的風(fēng)格,所以沒(méi)有精讀那兩本書后面的章節(jié)。
總結(jié)下來(lái),對(duì)于某一個(gè)機(jī)器學(xué)習(xí)方法(如邏輯回歸等),我是以《統(tǒng)計(jì)學(xué)習(xí)方法》作為理論知識(shí)學(xué)習(xí)書籍,先學(xué)習(xí)了其基礎(chǔ)原理,然后去網(wǎng)上搜索相對(duì)應(yīng)的講解博客和一些相對(duì)應(yīng)的面試題,就可以進(jìn)行更深入的理解。
下面是我收藏的一些不錯(cuò)的學(xué)習(xí)資料
1、邏輯回歸(Logistic Regression)
邏輯回歸計(jì)算過(guò)程的推導(dǎo)、并行化的實(shí)現(xiàn):https://blog.csdn.net/ligang_csdn/article/details/53838743
邏輯回歸的常見面試點(diǎn):https://www.cnblogs.com/ModifyRong/p/7739955.html
達(dá)觀數(shù)據(jù)對(duì)邏輯回歸的一些總結(jié):https://zhuanlan.zhihu.com/p/79014680
2、樸素貝葉斯
樸素貝葉斯學(xué)習(xí)筆記:https://blog.csdn.net/qll125596718/article/details/8445217
3、感知機(jī)
感知機(jī)perceptron:https://blog.csdn.net/dream_angel_z/article/details/48915561
4、支持向量機(jī)(SVM)
理解SVM的三層境界:https://blog.csdn.net/v_july_v/article/details/7624837
Scikit-learn實(shí)例之理解SVM正則化系數(shù)C:https://blog.csdn.net/mingtian715/article/details/54574700
5、決策樹
ID3、C4.5、CART、隨機(jī)森林:https://www.2cto.com/kf/201605/509184.html
淺談隨機(jī)森林的幾個(gè)tricks:https://zhuanlan.zhihu.com/p/29408863
6、GBDT
GBDT算法原理深入理解:https://blog.csdn.net/yangxudong/article/details/53872141
GBDT算法的特征重要度計(jì)算:https://blog.csdn.net/yangxudong/article/details/53899260
7、XGBoost
XGBoost入門介紹:https://segmentfault.com/a/1190000010301082
通俗、有邏輯地說(shuō)下XGBoost的原理:https://blog.csdn.net/github_38414650/article/details/76061893
RF、GBDT、XGBoost面試級(jí)整理:https://blog.csdn.net/qq_28031525/article/details/70207918
XGBoost缺失值引發(fā)的問(wèn)題及深度分析:https://tech.meituan.com/2019/08/15/problems-caused-by-missing-xgboost-values-and-their-in-depth-analysis.html
8、LightGBM
lightgbm中文文檔:https://lightgbm.apachecn.org/#/
如何通俗理解LightGBM:http://www.julyedu.com/question/big/kp_id/23/ques_id/2908
比XGBoost更快--LightGBM介紹:https://zhuanlan.zhihu.com/p/25308051
LightGBM基本原理介紹:https://blog.csdn.net/qq_24519677/article/details/82811215
LightGBM如何調(diào)參:https://www.jianshu.com/p/b4ac0596e5ef
LightGBM調(diào)參方法(具體操作):https://www.cnblogs.com/bjwu/p/9307344.html
GBDT、XGBoost、LightGBM的區(qū)別和聯(lián)系:https://www.jianshu.com/p/765efe2b951a
從XGB到LGB:美團(tuán)外賣樹模型的迭代之路:https://t.cj.sina.com.cn/articles/view/5901272611/15fbe462301900n684
9、PCA
PCA原理總結(jié):https://www.cnblogs.com/pinard/p/6239403.html
PCA原理詳解:https://blog.csdn.net/zhongkelee/article/details/44064401
t-SNE完整筆記:http://www.datakit.cn/blog/2017/02/05/t_sne_full.html
10、K-means
K-means最優(yōu)K值的選取:https://blog.csdn.net/qq_15738501/article/details/79036255
EM算法的收斂性與K-means算法的收斂性:https://blog.csdn.net/u010161630/article/details/52585764
11、EM算法
如何感性地理解EM算法:https://www.jianshu.com/p/1121509ac1dc
人人都懂EM算法:https://zhuanlan.zhihu.com/p/36331115
12、FM
FM的理解與實(shí)踐:https://zhuanlan.zhihu.com/p/50426292
FM推薦算法原理:https://www.cnblogs.com/pinard/p/6370127.html
FM:https://blog.csdn.net/google19890102/article/details/45532745
13、梯度下降法
梯度下降、牛頓法、擬牛頓法:https://blog.csdn.net/a819825294/article/details/52172463
BGD、SGD、MBGD:https://www.cnblogs.com/maybe2030/p/5089753.html
優(yōu)化方法總結(jié):https://blog.csdn.net/u010089444/article/details/76725843
深度學(xué)習(xí)最全優(yōu)化方法總結(jié):https://zhuanlan.zhihu.com/p/22252270
14、正則化
歸一化、標(biāo)準(zhǔn)化、正則化的關(guān)系:https://blog.csdn.net/zyf89531/article/details/45922151
L0、L1、L2范數(shù):https://blog.csdn.net/zouxy09/article/details/24971995
深入理解L1、L2正則化:https://zhuanlan.zhihu.com/p/29360425
15、樣本不均衡
訓(xùn)練集類別不均衡問(wèn)題的處理:https://blog.csdn.net/heyongluoyao8/article/details/49408131
欠采樣和過(guò)采樣:https://www.zhihu.com/question/269698662
Focal Loss理解:https://www.cnblogs.com/king-lps/p/9497836.html
16、特征工程
特征工程之特征選擇:https://www.cnblogs.com/pinard/p/9032759.html
特征選擇:卡方檢驗(yàn)、F檢驗(yàn)和互信息:https://www.cnblogs.com/massquantity/p/10486904.html
幾種常用的特征選擇方法:https://blog.csdn.net/LY_ysys629/article/details/53641569
17、模型集成
Bootstrip、Bagging、Boosting:https://blog.csdn.net/MrLevo520/article/details/53189615
模型融合:https://blog.csdn.net/shine19930820/article/details/75209021
kaggle 模型融合(stacking)心得:https://zhuanlan.zhihu.com/p/26890738
18、kaggle
kaggle比賽的一些小套路:https://blog.csdn.net/pearl8899/article/details/82145480
kaggle入門:https://blog.csdn.net/u012162613/article/details/41929171
如何在kaggle首站進(jìn)入前10%:https://dnc1994.com/2016/04/rank-10-percent-in-first-kaggle-competition/
kaggle中的kernel入門:https://blog.csdn.net/IAMoldpan/article/details/88852032
19、其它
機(jī)器學(xué)習(xí)常見評(píng)價(jià)指標(biāo):https://blog.csdn.net/zhihua_oba/article/details/78677469
常見損失函數(shù):https://blog.csdn.net/weixin_37933986/article/details/68488339
偏差、誤差、方差的區(qū)別與聯(lián)系:https://www.zhihu.com/question/27068705
如何選取超參數(shù):https://blog.csdn.net/u012162613/article/details/44265967
最小二乘法小結(jié):https://www.cnblogs.com/pinard/p/5976811.html
拉普拉斯平滑處理:https://blog.csdn.net/daijiguo/article/details/52222683
穿越問(wèn)題:https://blog.csdn.net/phrmgb/article/details/79997057
數(shù)據(jù)增強(qiáng):https://zhuanlan.zhihu.com/p/41679153
協(xié)同過(guò)濾:https://blog.csdn.net/yimingsilence/article/details/54934302
AI筆面試題庫(kù):https://www.julyedu.com/question/topic_list/23
……
?
其它書籍:機(jī)器學(xué)習(xí)的其它相關(guān)書籍,我涉獵過(guò)的不多,有《美團(tuán)機(jī)器學(xué)習(xí)實(shí)踐》、《百面機(jī)器學(xué)習(xí)》、PRML。這里強(qiáng)烈推薦葫蘆書《百面機(jī)器學(xué)習(xí)》,可以作為自己機(jī)器學(xué)習(xí)知識(shí)點(diǎn)查缺補(bǔ)漏的經(jīng)典書籍。
?
在學(xué)習(xí)下來(lái),我感覺中文的這些機(jī)器學(xué)習(xí)書籍都是只給出了“知其然”的解答,并沒(méi)有給出“知其所以然”的解答,但是我在閱讀PRML的時(shí)候,真的感覺作者一直在告訴我這些方法究竟是怎么得到的,其來(lái)龍去脈都非常清晰。有時(shí)間的話,計(jì)劃再細(xì)細(xì)拜讀PRML。其次,還是多比較不同的機(jī)器學(xué)習(xí)方法,才能更融會(huì)貫通,比如從感知機(jī)和SVM的聯(lián)系與區(qū)別,從感知機(jī)發(fā)展到SVM,再到核方法,這些變化演進(jìn)是在解決什么問(wèn)題,都是要理解透徹的。最后,就是多實(shí)戰(zhàn)了,實(shí)戰(zhàn)才能更好地理解和運(yùn)用。
?
我的微信公眾號(hào):帕尼尼古
歡迎關(guān)注~
?
?
總結(jié)
以上是生活随笔為你收集整理的我的机器学习入门之路(上)——传统机器学习的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: Leetcode 345. 反转字符串中
- 下一篇: 我的机器学习入门之路(下)——知识图谱、