當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

基于Hadoop的Spark超快安装

發布時間：2024/4/13 编程问答 47 豆豆

生活随笔收集整理的這篇文章主要介紹了基于Hadoop的Spark超快安装小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

文章目錄

前言
一、Spark的安裝
總結

前言

基于Hadoop的Spark超快安裝

一、Spark的安裝

待Hadoop安裝好之后，我們再開始安裝Spark。

我選擇的是Spark 2.4.8 版本，選擇package type為"Pre-built with user-provided Apache Hadoop"，這個包類型，簡單配置后可以應用到任意Hadoop版本。

復制鏈接到迅雷下載。

官網下載鏈接：https://mirrors.tuna.tsinghua.edu.cn/apache/spark/spark-2.4.8/spark-2.4.8-bin-without-hadoop.tgz

把下載好的Spark拖進虛擬機。（安裝了Vmware Tools可以直接從主機拖進虛擬機，上一篇博客有說明）

解壓安裝包至路徑 /usr/local，執行如下命令：

sudo tar -zxf ~/Desktop/spark-2.4.8-bin-without-hadoop.tgz -C /usr/local/ cd /usr/local sudo mv ./spark-2.4.8-bin-without-hadoop/ ./spark #更改文件夾名 sudo chown -R hadoop ./spark #此處的hadoop為系統用戶名

注意：此處-R后面是自己的系統用戶名，我的用戶名是smallsa。

配置Spark的classpath。

cd /usr/local/spark cp ./conf/spark-env.sh.template ./conf/spark-env.sh #拷貝配置文件

編輯該配置文件，在文件最后面加上如下一行內容：

export SPARK_DIST_CLASSPATH=$(/usr/local/hadoop/bin/hadoop classpath)

保存配置文件后，就可以啟動、運行Spark了。

若需要使用HDFS中的文件，則在使用Spark前需要啟動Hadoop。

執行如下命令配置路徑：

sudo vi ~/.bashrc

在文件最上面加上下面的內容：

export PYTHONPATH=$SPARK_HOME/python:$SPARK_HOME/python/lib/py4j-0.10.7-src.zip: $PYTHONPATH export PYSPARK_PYTHON=python3

執行如下命令更新以下：

source ~/.bashrc

因為是基于Hadoop，所以我們先啟動Hadoop，再啟動Spark。可以看到Hadoop和Spark都啟動成功了。

運行pyspark

總結

以上是生活随笔為你收集整理的基于Hadoop的Spark超快安装的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

Hadoop
Spark

上一篇： Hadoop的搭建，VmwareWork
下一篇：使用pip install出现超时警告的

编程问答

基于Hadoop的Spark超快安装

文章目錄

前言

一、Spark的安裝

總結

總結

一、Spark的安裝