spark学习流程
鏈接:https://www.zhihu.com/question/31427697/answer/75234187
來源:知乎
著作權(quán)歸作者所有。商業(yè)轉(zhuǎn)載請聯(lián)系作者獲得授權(quán),非商業(yè)轉(zhuǎn)載請注明出處。
其實,我想說,起初學(xué)習(xí)Hadoop的一些經(jīng)驗對現(xiàn)在學(xué)習(xí)和理解spark有了很大的幫助,尤其反反復(fù)復(fù)幾次Hadoop的配置,現(xiàn)在linux基礎(chǔ)指令和spark安裝,比較順手了,出錯了也知道哪里遺漏了。
肯定第一步是配置spark環(huán)境:包括linux系統(tǒng)的安裝,java,ssh,Hadoop,Scala,spark的安裝與環(huán)境變量設(shè)置。雖說簡單,但對于初學(xué)者說,尤其是沒有使用過linux系統(tǒng)的,還是有些挑戰(zhàn)。其中遺漏一些細(xì)節(jié)問題,都會出錯。
第二步:java學(xué)習(xí)。會java的可以忽略,不會的建議還是學(xué)習(xí)下java,雖說可以跳過java直接學(xué)習(xí)Scala,但是Scala畢竟和java聯(lián)系密切,教材中也經(jīng)常拿Scala和Java做比較。掌握J(rèn)ava基礎(chǔ)就行,最差就是能看懂吧。。
第三步:Hadoop學(xué)習(xí)。HDFS,MR計算框架,必須得知道吧。spark也是需要在HDFS上進(jìn)行數(shù)據(jù)獲取的,學(xué)習(xí)Hadoop才能知道其不足,明白spark的優(yōu)勢,為什么Hadoop必死。在hdfs的操作指令也必須掌握。能會寫MapReduce程序就再好不過了。(我還不會。。。)
第四步:Scala學(xué)習(xí)。函數(shù)式編程,重點明白這個吧。一些trait什么的使用,會java了這些都是小菜,本質(zhì)一樣,表達(dá)方式不同而已。所以。再次強(qiáng)調(diào)要學(xué)習(xí)JAVA。對我來說,不需要深入學(xué)習(xí)Scala編程,只需能看懂,而且會使用Scala操作RDD就行。后面的復(fù)雜高級編程我沒學(xué),以后用到再看。
第五步:就是spark學(xué)習(xí)。當(dāng)然,最好學(xué)習(xí)spark的方式就是看官方文檔,讀源碼,看博客(博客寫的都太簡單,沒有特別深入的),看RDD的論文,作業(yè)如何調(diào)度,什么什么的。對于英語水平不高,閱讀官方文檔略困難的童鞋,推薦某研究院的spark官方文檔中文翻譯,還是很全的。不推薦買國內(nèi)的書看,想看度娘參考下就行了,所以。英語也得提升啊。
轉(zhuǎn)載于:https://www.cnblogs.com/txfsheng/p/8989694.html
總結(jié)
- 上一篇: 第二次OO总结
- 下一篇: spring boot自定义配置文件