教程-Spark安装与环境配置
總第130篇/張俊紅
1.Spark介紹
Spark是一種通用的大數據計算框架,是基于RDD(彈性分布式數據集)的一種計算模型。那到底是什么,可能還不是太理解,通俗講就是可以分布式處理大量極數據的,將大量集數據先拆分,分別進行計算,然后再將計算后的結果進行合并。
這一篇主要給大家分享如何在Windows上安裝Spark。
2.Spark下載
我們要安裝Spark,首先需要到Saprk官網去下載對應的安裝包,Spark官網:http://spark.apache.org/downloads.html
第一步點擊我紅框框住的藍色鏈接部分即可。
spark首頁操作了第一步以后會跳轉到另一個頁面,如下圖所示,選擇紅框框住的部分進行下載,然后選擇文件保存的路徑進行保存即可。
spark下載頁我們需要把下圖中的bin文件所在的路徑設置到環境變量里面。
spark文件3.Spark環境變量設置
第一步右鍵我的電腦,然后選擇屬性,就來到了下圖這個界面。
step1選擇紅框框住的高級系統系統設置,然后再點擊環境變量。
step2這里我們看到有兩個path,一個是用戶的環境變量,一個是系統的環境變量,這兩個有啥區別呢?
系統的環境變量設置以后對所有登陸這個系統的所有用戶都起作用,而用戶環境變量只對這個用戶起作用,我們一般設置系統環境變量,即系統用戶變量里面的path。
先點擊path部分把path行選中,然后再點擊編輯。
step3把bin (包含bin) 文件夾所在的路徑添加到已有環境變量的后面,并用;隔開,然后點擊確定,這樣環境變量就配置成功。
step4利用組合鍵Win+R調出cmd界面,輸入spark-shell,得到如下界面:
error1報錯Missing Python executable Python是因為沒有把Python添加到環境變量中,所以需要先把Python添加到環境變量中,添加方式和Spark添加方式是一樣的,只需要找到你電腦中Python所在路徑即可。
error2把Python添加到環境變量以后,再次輸入spark-shell,沒有Python的報錯了,但是還有Java not found的報錯,所以我們需要在電腦上安裝Java。
4.Java下載安裝
首先需要來到Java官網去下載對應的Java版本,Java官網:https://www.oracle.com/technetwork/java/javase/downloads/index.html
選擇我紅框框住的JDK DOWNLOAD,然后就會跳轉到另一個頁面。
先點擊小紅框框住的Accept License Agreement,然后再點擊下方對應的版本,這里我電腦是Windows 64bit,所以選擇Windows x64即可。
java2下載好以后是一個.exe文件,直接雙擊運行即可,等程序安裝完成以后,同樣需要把安裝目錄下的bin文件夾添加到環境變量,添加方式與spark添加方式一樣。
jdk文件這個時候再次輸入sprak-shell就會得到下圖中大大的一個spark圖案,當你看到這個界面時,說明spark已經安裝配置完成了。
success1因為spark是由scala語言寫的,所以spark原生就支持scala語言,所以你會看到scala>這個符號,scala語言中也有print方法,我們輸入一個看看結果,得到我們想要的結果了,說明正式安裝完成了。
get5.PySpark安裝
經過上面的步驟以后我們算是把spark已經成功安裝到了我們的電腦中,但是spark默認是用的scala語言。如果我們想要用Python語言去寫spark的話,而且只需要用Python語言的話,可以直接利用pyspark模塊,不需要經過上面的spark下載和環境配置過程,但是同樣需要java環境配置過程。pyspark模塊安裝的方法與其他模塊一致,直接使用下述代碼即可:
pip?install?pyspark這里需要注意一點就是,如果你的python已經添加到環境變量了,那么就在系統自帶的cmd界面運行pip。如果你是用的是Anaconda,且沒有添加環境變量,那你就需要在Anaconda Promt中運行pip了。當pip安裝成功以后,打開jupyter notebook輸入:
import?pyspark如果沒有報錯,說明pyspark模塊已經安裝成功,可以開始使用啦。
總結
以上是生活随笔為你收集整理的教程-Spark安装与环境配置的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 达墨推出 LEO 2230 SSD:读取
- 下一篇: 我的2018年度总结