日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Introduction to Big Data with Apache Spark 课程总结

發布時間:2025/4/14 编程问答 25 豆豆
生活随笔 收集整理的這篇文章主要介紹了 Introduction to Big Data with Apache Spark 课程总结 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

課程主要實用內容:

1.spark實驗環境的搭建 2.4個lab的內容 3.常用函數 4.變量共享 1.spark實驗環境的搭建(windows)

a. 下載,安裝visualbox

? ??管理員身份運行;課程要求最新版4.3.28,如果c中遇到虛擬機打不開的,可以用4.2.12,不影響

b. 下載,安裝vagrant,重啟

? ? 管理員身份運行

c. 下載虛擬機

? ? c1.將vagrant加入path,D:\HashiCorp\Vagrant\bin

? ? c2.創建虛擬機存放的目錄,比如myvagrant

? ? c3.下載文件mooc-setup-master.zip,解壓后,拷貝Vagrantfile到myvagrant

? ? c4.打開visual box圖形界面,進入cmd,cd到myvagrant,敲命令 ? vagrant up

? ? ? ? ?開始下載虛擬機,并打開,如果下載完成,但是打開虛擬機出錯;

? ? ? ? ?可以到visual box 圖形界面點擊打開,碰到一下錯誤,可嘗試用4.2.12版visual box

? ? ? ??

使用說明:i.打開關閉虛擬機:打開visual box 界面,cd進入myvagrant

? ? ? ? ? ? ? ? ? ? ?vagrant up 打開虛擬機,vagrant halt 關閉虛擬機

? ? ? ? ? ? ? ? ? ii.ipython notebook,進入http:\\localhost:8001

? ? ? ? ? ? ? ? ? ? ?停止正在運行的notebook,點擊running,停止

? ? ? ? ? ? ? ? ? ? ?點某 .py文件,運行note book

? ? ? ? ? ? ? ? ?iii.下載ssh軟件,可登入虛擬機,地址為127.0.0.1,端口2222,用戶名vagrant,密碼vagrant

? ? ? ? ? ? ? ? ? ? ?進入后,敲pyspark,可進入pyspark交互式界面

3.常用函數

?

Spark中Rdd的生命周期

創建RDD(parallelize、textFile等

對RDD進行變換

(會創建新的RDD,不會改變原RDD,有

? ?1.對每個元素進行操作-map,flatMap,mapValues?

? ?2.篩選 ?filter

? ?3.排序 sortBy

? ?3.合并結果 reduceByKey,groupByKey

? ?4.合并兩個rdd union,join,leftJoin,rightJoin)

以上步驟中rdd都只相當于一個操作手冊,并沒有真實地在內存中產生數據,稱為lazy?evaluation

?

緩存rdd到內存中 cache() ,判斷是否cache,訪問?.is_cached屬性

觸發evaluation(包括top,take,takeOrdered,takeSample,sum,count,distinct,reduce,collect,collectAsMap)

?

4.變量共享

spark有兩種變量共享方式

a.廣播 broadcast,broadcast后的變量每個partition都會存儲一份,但是只能讀取,不能修改

>>>?b=sc.broadcast([1,2,3,4,5])

>>>?sc.parallelize([0,0]).flatMap(lambdax:b.value)

b.累加器 accumulator,只能寫,不能在worker被讀取

如果累加器只是一個標量,使用很簡單

>>>?rdd = sc.parallelize([1,2,3]) >>>?def f(x): ...?global a ...? a += x >>>?rdd.foreach(f) >>>?a.value 13

如果累加器是一個向量,需要定義AccumulatorParam,且zero方法和addInPlace都要實現

>>>?from pyspark.accumulators import AccumulatorParam >>>?class VectorAccumulatorParam(AccumulatorParam): ...? def zero(self, value): ...? return [0.0] * len(value) ...? def addInPlace(self, val1, val2): ...? for i in xrange(len(val1)): ...? val1[i] += val2[i] ...? return val1 >>>?va = sc.accumulator([1.0, 2.0, 3.0], VectorAccumulatorParam()) >>>?va.value [1.0,?2.0,?3.0]>>>?defg(x): ...?global va ...?va += [x] * 3 >>>?rdd.foreach(g) >>>?va.value [7.0,?8.0,?9.0]

?



來自為知筆記(Wiz)



轉載于:https://www.cnblogs.com/porco/p/4642512.html

總結

以上是生活随笔為你收集整理的Introduction to Big Data with Apache Spark 课程总结的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。

主站蜘蛛池模板: 麻豆理论片 | 国产一区二区99 | 深夜国产视频 | 亚洲图片 欧美 | 久久精品视频1 | 欧美精品一区二区视频 | 亚洲天堂手机 | 日韩wwww| 欧美wwwxxxx| 欧美激情视频一区二区三区不卡 | 亚洲网站在线免费观看 | 色中文字幕在线观看 | 免费午夜视频 | 一级少妇片 | 不卡视频一区二区 | 性色国产成人久久久精品 | 中文字幕丝袜 | 色婷婷av一区二区三区软件 | 永久免费看mv网站入口亚洲 | 精品一区二区三区免费看 | 国产中文字幕一区二区 | 神马影院一区二区 | 国产精品视频 | 日本黄网站色大片免费观看 | 国产美女无遮挡永久免费 | 欧美日韩一区二区三区四区五区六区 | 玖玖在线免费视频 | 久久精品视频18 | 色狠狠综合 | 国产中文字幕91 | 国产综合欧美 | 美女扒开粉嫩的尿囗给男生桶 | 91在线导航 | 色综合久久久久久 | 日日爱网站 | 四虎影视成人永久免费观看亚洲欧美 | 自拍第一页| 国产精品电影网站 | 五月天激情婷婷 | 亚洲成a人片 | 色婷婷免费视频 | 国产精品99 | 成人一区二区电影 | 特黄aaaaaa私密按摩 | 亚洲一区二区三区四区五区午夜 | 亚洲在线免费观看视频 | 欧美精品在线观看 | 国产有码在线观看 | 最新日韩在线 | 麻豆乱码国产一区二区三区 | 欧美色吊丝 | 亚洲自拍偷拍在线 | 国产精品五月天 | 97精品一区二区视频在线观看 | 亚洲爱爱网站 | 精品人妻码一区二区三区红楼视频 | 韩国主播青草200vip视频 | 日韩v在线 | 丝袜高跟av| 高清成人免费视频 | 色婷婷狠狠18禁久久 | 亚洲国产aⅴ精品一区二区的游戏 | 国产老妇伦国产熟女老妇视频 | 午夜在线看片 | 国产一区二区三区四区hd | 午夜剧场91| 国产一级视频在线播放 | 第一页在线 | 黑人巨大精品欧美一区二区 | 亚洲4区| 成人在线免费播放视频 | 亚洲国产欧洲 | 亚洲网站色 | 精品无码国产一区二区三区51安 | 日本黄色片段 | 91麻豆国产在线 | 肥老熟妇伦子伦456视频 | 特黄特色免费视频 | 特大黑人巨人吊xxxx | 亚洲视频 一区 | 国产r级在线观看 | 丰满少妇理论片 | 国产主播自拍av | 国产精品视频 | 痴汉电车在线播放 | 国产美女免费无遮挡 | 欧美成人一区二区视频 | 日韩黄色片在线观看 | 久久久欧美精品 | 久久久人体 | 男生把女生困困的视频 | 少妇被中出 | 手机看片日韩欧美 | 免费在线观看一区二区三区 | 91成人精品国产刺激国语对白 | 中文字幕av一区二区三区 | 天降女子在线 | 国产ts人妖系列高潮 | 久久瑟瑟 |