日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

学习笔记Spark(二)—— Spark集群的安装配置

發布時間:2025/3/21 编程问答 16 豆豆
生活随笔 收集整理的這篇文章主要介紹了 学习笔记Spark(二)—— Spark集群的安装配置 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

一、我的軟件環境


二、Spark集群拓撲

2.1、集群規模

192.168.128.10 master 1.5G ~2G內存、20G硬盤、NAT、1~2核 ; 192.168.128.11 node1 1G內存、20G硬盤、NAT、1192.168.128.12 node2 1G內存、20G硬盤、NAT、1192.168.128.13 node3 1G內存、20G硬盤、NAT、1

2.2、Spark的安裝模式

1、本地模式
在一個節點上安裝Spark,利用本地線程運行程序,非分布式環境

2、偽分布式
Spark單機偽分布式是在一臺機器上既有Master,又有Worker進程

3、完全分布式
全分布模式用于生產,至少需要3~4臺機器,其中一臺為為主節點,部署Master,其他節點部署Worker

4、HA高可用模式
在完全分布式基礎上利用Zookeeper實現Master主從備份


三、Spark安裝配置

3.1、Spark配置文件

Data: spark mllib里面用到的數據;
Ec2: 部署在亞馬遜云平臺上的腳本
Examples:示例代碼;
Python:python接口;
R:R接口


3.1.1、配置文件解讀

Template是一個模板
HADOOP_CONF_DIR :Hadoop配置文件所在的路徑,Spark需要找到Hadoop里面相關的東西,比如hdfs相關的地址,比如我們可能要上傳數據或者日志需要存在這上面
SPARK_WORKER_INSTANCES :設置每個節點的worker進程
SPARK_WORKER_MEMORY :設置節點能給予executors的所有內存
SPARK_WORKER_CORES :設置這臺機器所用的核數
SPARK_EXECUTOR_CORES :executor使用的核數
SPARK_EXECUTOR_MEMORY :每個executor的內存
Spark_WORKER_CORES :每個WORKER占用多少個核,我們給每個虛擬機配了多少核
SPARK_WORKER_INSTANCES :每個worker節點有多少個實例
比如INSTANCES配了2,有三個節點,那么就有6個WORKER,相當于HADOOP有6個節點


3.1.2、配置文件解讀


3.2、配置步驟

1.上傳spark-2.4.0-bin-hadoop2.6.tgz到/opt目錄,并解壓

tar -zxf /opt/spark-2.4.0-bin-hadoop2.6.tgz

2.進入/opt/spark-2.4.0-bin-hadoop2.6/conf
復制slaves.template:

cp slaves.template slaves vi slaves

修改slaves,先刪除其中的localhost,然后添加:

node1 node2 node3

3.修改spark-defaults.conf

cp spark-defaults.conf.template spark-defaults.conf vi spark-defaults.conf

添加:

spark.master spark://master:7077 spark.eventLog.enabled true spark.eventLog.dir hdfs://master:8020/spark-logs spark.history.fs.logDirectory hdfs://master:8020/spark-logs

4.修改spark-env.sh

cp spark-env.sh.template spark-env.sh vi spark-env.sh

添加:

JAVA_HOME=/usr/java/jdk1.8.0_221-amd64 HADOOP_CONF_DIR=/opt/hadoop-3.1.4/etc/hadoop SPARK_MASTER_IP=master SPARK_MASTER_PORT=7077 SPARK_WORKER_MEMORY=512m SPARK_WORKER_CORES=1 SPARK_EXECUTOR_MEMORY=512m SPARK_EXECUTOR_CORES=1 SPARK_WORKER_INSTANCES=1

5.啟動Hadoop集群,在HDFS中新建目錄:

hdfs dfs -mkdir /spark-logs

6.將Spark安裝包分發到其他節點

scp -r /opt/spark-2.4.0-bin-hadoop2.6/ node1:/opt/ scp -r /opt/spark-2.4.0-bin-hadoop2.6/ node2:/opt/ scp -r /opt/spark-2.4.0-bin-hadoop2.6/ node3:/opt/

7.在所有節點配置Spark環境變量
(master、node1、node2、node3)

vi /etc/profile

在文件尾加入:

export SPARK_HOME=/opt/spark-2.4.0-bin-hadoop2.6 export PATH=$PATH:$SPARK_HOME/bin

執行source /etc/profile使命令生效

8.啟動spark
進入/opt/spark-2.4.0-bin-hadoop2.6/sbin
執行

./start-all.sh

9.查看客戶端

http://master:8080

3.3、啟動關閉Spark

進入/usr/local/spark-2.4.0-bin-hadoop2.6/
1、啟動Spark

sbin/start-all.sh

2、啟動日志服務

sbin/start-history-server.sh hdfs://master:8020/spark-logs

3、關閉Spark

sbin/stop-all.sh sbin/stop-history-server.sh hdfs://master:8020/spark-logs

3.5、查看客戶端

Spark監控:http://master:8080


四、運行第一個Spark程序

進入Spark命令行交互界面:spark-shell
退出交互界面::q

數據文件 a.txt:

I am a student

上傳到hdfs的/user/root目錄下

執行:

sc.textFile("/user/root/a.txt").flatMap(x=>x.split(“ “)).map(x=>(x,1)).reduceByKey(_+_)

結果展示:

總結

以上是生活随笔為你收集整理的学习笔记Spark(二)—— Spark集群的安装配置的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。