漫谈数据挖掘从入门到进阶
入門:
?
數(shù)據(jù)挖掘入門的書籍,中文的大體有這些:
Jiawei?Han的《數(shù)據(jù)挖掘概念與技術(shù)》
Ian?H.?Witten?/?Eibe?Frank的《數(shù)據(jù)挖掘?實(shí)用機(jī)器學(xué)習(xí)技術(shù)》
Tom?Mitchell的《機(jī)器學(xué)習(xí)》
TOBY?SEGARAN的《集體智慧編程》
Anand?Rajaraman的《大數(shù)據(jù)》
Pang-Ning?Tan的《數(shù)據(jù)挖掘?qū)д摗?/p>
Matthew?A.?Russell的《社交網(wǎng)站的數(shù)據(jù)挖掘與分析》
?
很多人的第一本數(shù)據(jù)挖掘書都是Jiawei?Han的《數(shù)據(jù)挖掘概念與技術(shù)》,這本書也是我們組老板推薦的入門書(我個(gè)人覺得他之所以推薦是因?yàn)镠an是他的老師)。其實(shí)我個(gè)人來說并不是很推薦把這本書。這本書什么都講了,甚至很多書少有涉及的一些點(diǎn)比如OLAP的方面都有涉獵。但是其實(shí)這本書對(duì)于初學(xué)者不是那么友好的,給人一種教科書的感覺,如果你有大毅力讀完這本書,也只能獲得一些零碎的概念的認(rèn)識(shí),很難上手實(shí)際的項(xiàng)目。
?
我個(gè)人推薦的入門書是這兩本:TOBY?SEGARAN的《集體智慧編程》和Ian?H.?Witten?/?Eibe?Frank的《數(shù)據(jù)挖掘?實(shí)用機(jī)器學(xué)習(xí)技術(shù)》
《集體智慧編程》很適合希望了解數(shù)據(jù)挖掘技術(shù)的程序員,這本書講述了數(shù)據(jù)挖掘里面的很多實(shí)用的算法,而且最重要的是其講述的方式不是像Han那種大牛掉書袋的講法,而是從實(shí)際的例子入手,輔以python的代碼,讓你很快的就能理解到這種算法能夠應(yīng)用在哪個(gè)實(shí)際問題上,并且還能自己上手寫寫代碼。唯一的缺點(diǎn)是不夠深入,基本沒有數(shù)學(xué)推導(dǎo),而且不夠全面,內(nèi)容不夠翔實(shí)。不過作為一本入門書這些缺點(diǎn)反而是幫助理解和入門的優(yōu)點(diǎn)。
推薦的另一本《數(shù)據(jù)挖掘?實(shí)用機(jī)器學(xué)習(xí)技術(shù)》則相對(duì)上一本書要稍微難一點(diǎn),不過在容易理解的程度上依然甩Han老師的書幾條街,其作者就是著名的Weka的編寫者。整本書的思想脈絡(luò)也是盡可能的由易到難,從簡單的模型入手?jǐn)U展到現(xiàn)實(shí)生活中實(shí)際的算法問題,最難能可貴的是書的最后還稍微講了下如何使用weka,這樣大家就能在學(xué)習(xí)算法之余能夠用weka做做小的實(shí)驗(yàn),有直觀的認(rèn)識(shí)。?
看完上述兩本書后,我覺得大體數(shù)據(jù)挖掘就算有個(gè)初步的了解了。往后再怎么繼續(xù)入門,就看個(gè)人需求了。
如果是只是想要稍微了解下相關(guān)的技術(shù),或者作為業(yè)余愛好,則可隨便再看看Anand?Rajaraman的《大數(shù)據(jù)》以及Matthew?A.?Russell的《社交網(wǎng)站的數(shù)據(jù)挖掘與分析》。前者是斯坦福的"Web挖掘"這門課程的材料基礎(chǔ)上總結(jié)而成。選取了很多數(shù)據(jù)挖掘里的小點(diǎn)作為展開的,不夠系統(tǒng),但講的挺好,所以適合有個(gè)初步的了解后再看。后者則亦是如此,要注意的是里面很多api因?yàn)镚FS的緣故不能直接實(shí)驗(yàn),也是個(gè)遺憾
?
如果是繼續(xù)相關(guān)的研究學(xué)習(xí),我認(rèn)為則還需要先過一遍Tom?Mitchell的《機(jī)器學(xué)習(xí)》。這本書可以看做是對(duì)于十多年前的機(jī)器學(xué)習(xí)的一個(gè)綜述,作者簡單明了的講述了很多流行的算法(十年前的),并且對(duì)于各個(gè)算法的適用點(diǎn)和特點(diǎn)都有詳細(xì)的解說,輕快地在一本薄薄的小書里給了大家一個(gè)機(jī)器學(xué)習(xí)之旅。
?
進(jìn)階:
?
進(jìn)階這個(gè)話題就難說了,畢竟大家對(duì)于進(jìn)階的理解各有不同,是個(gè)仁者見仁的問題。就我個(gè)人來說,則建議如下展開:
?
視頻學(xué)習(xí)方面:
可以看看斯坦福的《機(jī)器學(xué)習(xí)》這門課程的視頻,最近聽說網(wǎng)易公開課已經(jīng)全部翻譯了,而且給出了雙語字幕,更加容易學(xué)習(xí)了^_^
?
書籍學(xué)習(xí)方面:
我個(gè)人推薦的是這樣:可以先看看李航的《統(tǒng)計(jì)學(xué)習(xí)方法》,這本書著重于數(shù)學(xué)推導(dǎo),能讓我們很快的對(duì)于一些算法的理解更加深入。
有了上面這本書的基礎(chǔ),就可以開始啃一些經(jīng)典名著了。這些名著看的順序可以不分先后,也可以同時(shí)學(xué)習(xí):
Richard?O.?Duda的《模式分類》這本書是力薦,很多高校的數(shù)據(jù)挖掘?qū)д撜n程的教科書便是這本(也是我的數(shù)據(jù)挖掘入門書,很有感情的)。如果你不通讀這本書,你會(huì)發(fā)現(xiàn)在你研究很多問題的時(shí)候,甚至一些相對(duì)簡單的問題(比如貝葉斯在高斯假設(shè)下為什么退化成線性分類器)都要再重新回頭讀這本書。
Christopher?M.?Bishop的《Pattern?Recognition?And?Machine?Learning》這本書也是經(jīng)典巨著,整本書寫的非常清爽。
《The?Elements?of?Statistical?Learning》這本書有句很好的吐槽“機(jī)器學(xué)習(xí)?--?從入門到精通”可以作為這本書的副標(biāo)題。可以看出這本書對(duì)于機(jī)器學(xué)習(xí)進(jìn)階的重要性。值得一說的是這本書雖然有中文版,但是翻譯之爛也甚是有名,聽說是學(xué)體育的翻譯的。
Hoppner,?Frank的《Guide?to?Intelligent?Data?Analysis》這本書相對(duì)于上面基本經(jīng)典巨著并不出名,但是寫的甚好,是knime官網(wǎng)上推薦的,標(biāo)榜的是解決實(shí)際生活中的數(shù)據(jù)挖掘問題,講述了CRISP-DM標(biāo)準(zhǔn)化流程,每章后面給出了R和knime的應(yīng)用例子。
以前寫過的讀書筆記http://www.cnblogs.com/flclain/archive/2012/11/23/2785079.html
?
項(xiàng)目方面:
事實(shí)上,我覺得從進(jìn)階起就應(yīng)該上手一些簡單的項(xiàng)目了。如果不實(shí)踐只是看書和研究算法,我覺得是無法真正理解數(shù)據(jù)挖掘的精髓所在的。打個(gè)簡單的比方,就算你看完了C++?Primer、effective?C++等等書籍,如果自己不寫C++,那么自己也就會(huì)停留在hello?world的級(jí)別。實(shí)踐出真知非常切合數(shù)據(jù)挖掘這門學(xué)科,實(shí)際上手項(xiàng)目后才會(huì)發(fā)現(xiàn)什么叫"80%的準(zhǔn)備,20%的建模",real?world的問題我認(rèn)為并不是僅僅靠modeling就能很好的解決的。詳細(xì)的可以看看《Guide?to?Intelligent?Data?Analysis》就能略知一二。如果上手做推薦或者一些簡單的項(xiàng)目,也可以考慮用用mahout,推薦的入門手冊(cè)是《mahout?in?action》。項(xiàng)目問題說來話長,有時(shí)間會(huì)以CRISP流程為引單獨(dú)作文,這里也就不詳談了。
?
?
軟件方面:
我常用而且推薦的軟件有如下,這里只是簡單的列出,以后有時(shí)間再詳細(xì)分析和寫出入門:
Weka?Java的軟件,可以集成到自己的項(xiàng)目中
Orange?一個(gè)用python寫的數(shù)據(jù)挖掘開源軟件,界面做的很漂亮,可以做圖形化實(shí)驗(yàn),也可以用python調(diào)用編程。
Knime?和Orange類似,特點(diǎn)是可以集成weka和R等開源軟件
SAS的EM模塊以及R?還有最最經(jīng)典的matlab大大
不過引用余凱大大的一個(gè)weibo來說
“不用Matlab的理由太多,稍微列一下,大家補(bǔ)充吧:
1. 積重難返,最后工作效率反而越來越低;
2. follow production protocol, 相當(dāng)于學(xué)習(xí)無數(shù)程序員的實(shí)踐經(jīng)驗(yàn);
3. 不能駕馭算法和系統(tǒng)的人不能真正作出有實(shí)用價(jià)值的研究成果;
4. 百度騰訊阿里谷歌面試通不過;
5. Matlab很貴”
這里有篇文有簡要的介紹上面的部分開源軟件http://www.oschina.net/question/12_14026
?
再往后:
再往后的其實(shí)就是我就是覺得是學(xué)數(shù)學(xué)了,然后就是深入讀一些你感興趣的topic的書籍和paper,接項(xiàng)目,做項(xiàng)目了。發(fā)展有數(shù)據(jù)分析師或者去專門的企業(yè)做數(shù)據(jù)研究員,當(dāng)然混學(xué)術(shù)界的我就不清楚了。
轉(zhuǎn)載?http://www.cnblogs.com/flclain/archive/2012/12/22/2829317.html
轉(zhuǎn)載于:https://www.cnblogs.com/MengYan-LongYou/p/3175636.html
總結(jié)
以上是生活随笔為你收集整理的漫谈数据挖掘从入门到进阶的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: PHP简单操作Excel
- 下一篇: 百度富文本编辑器的应用技巧---在一个页