日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

教程-Spark安装与环境配置

發布時間:2023/12/19 编程问答 29 豆豆
生活随笔 收集整理的這篇文章主要介紹了 教程-Spark安装与环境配置 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

總第130篇/張俊紅

1.Spark介紹

Spark是一種通用的大數據計算框架,是基于RDD(彈性分布式數據集)的一種計算模型。那到底是什么,可能還不是太理解,通俗講就是可以分布式處理大量極數據的,將大量集數據先拆分,分別進行計算,然后再將計算后的結果進行合并。

這一篇主要給大家分享如何在Windows上安裝Spark。

2.Spark下載

我們要安裝Spark,首先需要到Saprk官網去下載對應的安裝包,Spark官網:http://spark.apache.org/downloads.html

第一步點擊我紅框框住的藍色鏈接部分即可。

spark首頁

操作了第一步以后會跳轉到另一個頁面,如下圖所示,選擇紅框框住的部分進行下載,然后選擇文件保存的路徑進行保存即可。

spark下載頁

我們需要把下圖中的bin文件所在的路徑設置到環境變量里面。

spark文件

3.Spark環境變量設置

第一步右鍵我的電腦,然后選擇屬性,就來到了下圖這個界面。

step1

選擇紅框框住的高級系統系統設置,然后再點擊環境變量。

step2

這里我們看到有兩個path,一個是用戶的環境變量,一個是系統的環境變量,這兩個有啥區別呢?

系統的環境變量設置以后對所有登陸這個系統的所有用戶都起作用,而用戶環境變量只對這個用戶起作用,我們一般設置系統環境變量,即系統用戶變量里面的path。

先點擊path部分把path行選中,然后再點擊編輯。

step3

把bin (包含bin) 文件夾所在的路徑添加到已有環境變量的后面,并用;隔開,然后點擊確定,這樣環境變量就配置成功。

step4

利用組合鍵Win+R調出cmd界面,輸入spark-shell,得到如下界面:

error1

報錯Missing Python executable Python是因為沒有把Python添加到環境變量中,所以需要先把Python添加到環境變量中,添加方式和Spark添加方式是一樣的,只需要找到你電腦中Python所在路徑即可。

error2

把Python添加到環境變量以后,再次輸入spark-shell,沒有Python的報錯了,但是還有Java not found的報錯,所以我們需要在電腦上安裝Java。

4.Java下載安裝

首先需要來到Java官網去下載對應的Java版本,Java官網:https://www.oracle.com/technetwork/java/javase/downloads/index.html

選擇我紅框框住的JDK DOWNLOAD,然后就會跳轉到另一個頁面。

java1

先點擊小紅框框住的Accept License Agreement,然后再點擊下方對應的版本,這里我電腦是Windows 64bit,所以選擇Windows x64即可。

java2

下載好以后是一個.exe文件,直接雙擊運行即可,等程序安裝完成以后,同樣需要把安裝目錄下的bin文件夾添加到環境變量,添加方式與spark添加方式一樣。

jdk文件

這個時候再次輸入sprak-shell就會得到下圖中大大的一個spark圖案,當你看到這個界面時,說明spark已經安裝配置完成了。

success1

因為spark是由scala語言寫的,所以spark原生就支持scala語言,所以你會看到scala>這個符號,scala語言中也有print方法,我們輸入一個看看結果,得到我們想要的結果了,說明正式安裝完成了。

get

5.PySpark安裝

經過上面的步驟以后我們算是把spark已經成功安裝到了我們的電腦中,但是spark默認是用的scala語言。如果我們想要用Python語言去寫spark的話,而且只需要用Python語言的話,可以直接利用pyspark模塊,不需要經過上面的spark下載和環境配置過程,但是同樣需要java環境配置過程。pyspark模塊安裝的方法與其他模塊一致,直接使用下述代碼即可:

pip?install?pyspark

這里需要注意一點就是,如果你的python已經添加到環境變量了,那么就在系統自帶的cmd界面運行pip。如果你是用的是Anaconda,且沒有添加環境變量,那你就需要在Anaconda Promt中運行pip了。當pip安裝成功以后,打開jupyter notebook輸入:

import?pyspark

如果沒有報錯,說明pyspark模塊已經安裝成功,可以開始使用啦。

總結

以上是生活随笔為你收集整理的教程-Spark安装与环境配置的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。