當(dāng)前位置：首頁 > 运维知识 > windows >内容正文

windows

Windows下搭建PySpark环境

發(fā)布時間：2025/3/21 windows 26 豆豆

生活随笔收集整理的這篇文章主要介紹了 Windows下搭建PySpark环境小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

Windows下搭建PySpark環(huán)境

文章目錄

Windows下搭建PySpark環(huán)境
- 前言
- 方法一
- - 安裝單機(jī)版Hadoop
  - 安裝單機(jī)版Spark
  - PySpark環(huán)境整合
- 方法二
- 測試PySpark
- PySpark運(yùn)行簡單實例
- 參考文章

前言

現(xiàn)階段的實驗需要用到 PySpark 來搭建機(jī)器學(xué)習(xí)模型，正常情況下應(yīng)該是在 Linux 系統(tǒng)上是進(jìn)行搭建。然而在虛擬機(jī)的 Linux 上運(yùn)行起來又實在是太慢，所以只能將就著在 Windows 系統(tǒng)上搭建 PySpark 的環(huán)境先使用著。

這里介紹兩種搭建 PySpark 環(huán)境的方法：

常規(guī)法（安裝Hadoop、Spark）

pip安裝法

在以下的操作中用到命令行的時候，按 Win+R 鍵，輸入 cmd 然后回車，就可以進(jìn)入命令行了。每個階段的命令行每次使用完畢之后，正常關(guān)閉命令行窗口即可。

方法一

常規(guī)安裝 Pyspark 的方法是先安裝 JDK，接著是 Hadoop，然后安裝 Spark，最后配置一下 PySpark 的環(huán)境就可以了。

和方法二相比，方法一的整個過程顯得漫長且比較繁瑣，請一定要保持耐心，不要輸錯任何一行命令。

安裝單機(jī)版Hadoop

Hadoop的底層語言是 Java，在使用 Hadoop 之前，得先把 JDK 配置一下，可以參考這篇博客的第一部分，把 JDK 配置好。 Windows下配置IDEA開發(fā)環(huán)境

配置完 JDK 之后，就可以開始配置 Hadoop 了。Windows 安裝 Hadoop 的流程可以參考我的另一篇博客 Windows下配置單機(jī)Hadoop環(huán)境

去年寫博客的時候?qū)?Hadoop 還不太熟悉，博客名字是單機(jī)環(huán)境，實際上配置的是偽分布式環(huán)境。

這里我們只需要配置單機(jī)版 Hadoop 就可以了，我們只需要完成前三步，下載 Hadoop，下載配置文件，配置環(huán)境變量。

前三步完成后，單機(jī)版 Hadoop 就配置完成了。我們在命令行界面輸入“hadoop version”，能正常提示出 Hadoop 的版本信息，這一步就確認(rèn)完成了。

安裝單機(jī)版Spark

Spark的安裝大致上和 Hadoop 差不多，不過我們最后只需要用到 Spark 的 PySpark 包，所以我們不需要去配置 Scala 這些東西，嚴(yán)格意義上說我們只需要單機(jī)版 Spark，配置個環(huán)境變量就可以了。

同樣地，我們?nèi)ケ崩砉さ溺R像站下載 Spark Spark北理工鏡像

鏡像站提供了幾個穩(wěn)定版本，這里我們選擇的是 spark-2.3.4，點擊進(jìn)入目錄

因為我們上一步安裝的 Hadoop 版本是 2.7.7，所以這里我們選擇和 Hadoop-2.7.7 兼容的版本。

鏡像站的下載一般都很快，下載完成后，把 Spark 的壓縮包解壓到自己想要的安裝位置，比如我的安裝位置是“D:\Dpan\spark”，解壓完成的界面如下。

解壓完成后，直接去配置 spark 的環(huán)境變量，和 Hadoop 配置環(huán)境變量的方式是一樣的。

新建 SPARK_HOME 環(huán)境變量，變量的值就是 spark 包解壓的地址。比如我的是“D:\Dpan\spark\spark-2.3.4-bin-hadoop2.7”
向 path 變量中加入“%SPARK_HOME%\bin”。注意，這里的 %SPARK_HOME%\bin，是固定的短語，不要亂寫。

配置完成之后，在命令行界面輸入“spark-shell”，耐心等待兩分鐘。如果命令行正常出現(xiàn)了 spark 的 shell 信息，單機(jī)版 spark 環(huán)境就配置成功了。

如果出現(xiàn)類似缺少 winutil 或者 hivesession 等錯誤，請檢查hadoop/bin文件夾是否替換成功。如果確實替換了 hadoop/bin，還出現(xiàn)錯誤，自行百度安裝 cygwin，安裝完 cygwin 就應(yīng)該沒有問題了。

PySpark環(huán)境整合

整個 PySpark 的環(huán)境整合是比較簡單的，不需要再去安裝別的新東西了。

我們通過文件資源管理，進(jìn)入之前 spark 的安裝目錄。將安裝目錄下的 python/lib 目錄下的兩個壓縮包進(jìn)行復(fù)制，pyspark.zip、py4j-0.10.7-src.zip。

然后進(jìn)入自己的 Python 安裝目錄/Lib/site-packages 目錄下，粘貼，然后解壓。解壓完成后可以順便把這兩個壓縮包刪除了。

到這里，PySpark的環(huán)境就配置完成了。

方法二

pip 是一個 Python 包安裝與管理工具，該工具提供了對Python 包的查找、下載、安裝、卸載的功能。我們通過 pip 來進(jìn)行 Python 包的安裝絕對是十分便捷的。

pip的安裝這里我們不做介紹，沒有安裝 pip 的請自行百度安裝即可。

打開命令行窗口，在窗口內(nèi)輸入“pip --verison”，如果出現(xiàn)了 pip 的版本提示信息，那么你電腦上的 pip 就是成功安裝了。

通過 pip 安裝 PySpark 就像安裝其他 Python 包一樣簡單。在命令行窗口內(nèi)輸入一下代碼，回車即可安裝。

pip install pyspark

當(dāng)然，為了提高安裝速度，我們可以使用清華源來進(jìn)行安裝

pip install pyspark -i https://pypi.tuna.tsinghua.edu.cn/simple

耐心等待安裝完成，在最后出現(xiàn)‘Success’的字樣，就表示安裝成功了。

測試PySpark

前面介紹了兩種方法配置 PySpark 的環(huán)境，配置完成后我們來進(jìn)行檢驗。

在命令行輸入“python”，進(jìn)入 python 命令行。輸入“import pyspark as py”，回車。沒有報錯，就證明 pyspark 的環(huán)境配置成功了，可以正常使用了。

PySpark運(yùn)行簡單實例

打開自己平時用來寫 Python 代碼的 IDE。比如我用的是 PyCharm2019。

在里面新建一個 Python 文件，輸入以下代碼。這段代碼就是經(jīng)典的 WordCount ，用 PySpark 來運(yùn)行。

from pyspark import SparkConf, SparkContext# 創(chuàng)建 SparkConf 和 SparkContext conf = SparkConf().setMaster("local").setAppName("lichao-wordcount") sc = SparkContext(conf=conf).getOrCreate()# 輸入的數(shù)據(jù) data = ["hello", "world", "hello", "word", "count", "count", "hello"]# 將 Collection 的 data 轉(zhuǎn)化為 spark 中的 rdd 并進(jìn)行操作 rdd = sc.parallelize(data) resultRdd = rdd.map(lambda word: (word, 1)).reduceByKey(lambda a, b: a + b)# rdd 轉(zhuǎn)為 collecton 并打印 resultColl = resultRdd.collect() for line in resultColl:print(line)# 結(jié)束 sc.stop()

運(yùn)行代碼，耐心等待，查看結(jié)果。

至此，Windows 下 PySpark的環(huán)境已經(jīng)配置完畢了，我們還運(yùn)行了一個實例。環(huán)境配置完畢，快快去學(xué)習(xí) PySpark 的使用方法，把這個工具用起來把。

參考文章

Python學(xué)習(xí)—PySpark環(huán)境搭建

Windows下配置單機(jī)Hadoop環(huán)境

pycharm修改pip源為清華源-提高下載速度

《新程序員》：云原生和全面數(shù)字化實踐50位技術(shù)專家共同創(chuàng)作，文字、視頻、音頻交互閱讀

總結(jié)

以上是生活随笔為你收集整理的Windows下搭建PySpark环境的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇：用SVR模型完成对Boston房价的回归
下一篇： java信息管理系统总结_java实现科