日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

pyspark模块介绍

發布時間:2024/10/8 编程问答 50 豆豆
生活随笔 收集整理的這篇文章主要介紹了 pyspark模块介绍 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

pyspark是Spark的python API,提供了使用python編寫并提交大數據處理作業的接口。 在pyspark里大致分為5個主要的模塊

  • pyspark模塊,這個模塊四最基礎的模塊,里面實現了最基礎的編寫Spark作業的 API。這個模塊里面有以下內容:
    • Sparkcontext:它是編寫Spark程序的主入口
    • RDD:分布式彈性數據集,是Spark內部中最重要的抽象
    • Broadcast:在各個任務task中重復使用的廣播變量
    • Accumulator:一個只能增加的累加器,在各個任務中都可以進行累加,最 終進行全局累加
    • SparkConf:一個配置對象,用來對Spark中的例如資源,內核個數,提交 模式等的配置
    • SparkFiles:文件訪問API
    • StorageLevel:它提供了細粒度的對于數據的緩存、持久化級別
    • TaskContext:實驗性質的API,用于獲取運行中任務的上下文信息。
  • pyspark.sql模塊,這個模塊是架構在RDD之上的高級模塊,提供了SQL的支持,包含 以下內容:
    • SparkSession:SparkSQL的主入口,其內部仍然是調用 SparkContext的
    • DataFrame:分布式的結構化的數據集,最終的計算仍然轉換為 RDD上的計算
    • Column:DataFrame中的列 Row:DataFrame中的行
    • GroupedData:這里提供聚合數據的一些方法
    • DataFrameNaFunctions:處理缺失數據的方法
    • DataFrameStatFunctions:提供統計數據的一些方法
    • functions:內建的可用于DataFrame的方法
    • types:可用的數據類型 Window:提供窗口函數的支持
  • pyspark.streaming這個模塊主要是用來處理流數據,從外部的消息中間件如kafka, flume或者直接從網絡接收數據,來進行實時的流數據處理。其內部會將接收到的數據轉換 為DStream,DStream的內部實際上就是RDD。pyspark.streaming對流數據的支持還不是很完善,不如原生的Scala語言和Java語言。但這節課仍然會包括最主要的原理。這節包 含以下內容:
    • 接收數據的原理及過程
    • 接收網絡數據
    • 接收kafka數據
  • pyspark.ml這個模塊主要是做機器學習的,里面實現了很多機器學習算法,包括分類、 回歸、聚類、推薦。pyspark.ml這個模塊 現已經成為主要的機器學習模塊,其內部實現是基于DataFrame數據框。
  • pyspark.mllib這個模塊也是做機器學習的,但是這個模塊底層使用的RDD,RDD在性 能上優化的余地較少,因此現在最新的機器學習算法都是用基于DataFrame的API來實現。 但這個模塊里面也有很多有用的機器學習算法
  • 總結

    以上是生活随笔為你收集整理的pyspark模块介绍的全部內容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。