SparkSQL和Hadoop(面向数据科学家和大数据分析师)
了解HDFS命令、Hadoop、Spark SQL、SQL查詢、ETL和數(shù)據(jù)分析| Spark Hadoop集群虛擬機(jī)|完全解決的問題
你會(huì)學(xué)到什么
作為本課程的一部分,學(xué)生將獲得在Spark Hadoop環(huán)境中工作的實(shí)踐經(jīng)驗(yàn),該環(huán)境是免費(fèi)且可下載的。
學(xué)生將有機(jī)會(huì)在沙箱環(huán)境中使用Hadoop集群上的Spark解決數(shù)據(jù)工程和數(shù)據(jù)分析問題
發(fā)布HDFS命令。
將存儲(chǔ)在HDFS的一組給定格式的數(shù)據(jù)值轉(zhuǎn)換為新的數(shù)據(jù)值或新的數(shù)據(jù)格式,并將其寫入HDFS。
從HDFS加載數(shù)據(jù)用于Spark應(yīng)用&使用Spark將結(jié)果寫回HDFS。
以各種文件格式讀寫文件。
使用Spark API對數(shù)據(jù)執(zhí)行標(biāo)準(zhǔn)的提取、轉(zhuǎn)換、加載(ETL)過程。
使用metastore表作為Spark應(yīng)用程序的輸入源或輸出接收器。
在Spark中應(yīng)用查詢數(shù)據(jù)集的基礎(chǔ)知識。
使用Spark過濾數(shù)據(jù)。
編寫計(jì)算聚合統(tǒng)計(jì)信息的查詢。
使用Spark連接不同的數(shù)據(jù)集。
產(chǎn)生分級或分類的數(shù)據(jù)。
流派:電子學(xué)習(xí)| MP4 |視頻:h264,1280×720 |音頻:AAC,44.1 KHz
語言:英語+中英文字幕(根據(jù)原英文字幕機(jī)譯更準(zhǔn)確)|大小解壓后:8..37GB 含課程文件 |時(shí)長:5h 37m
課程獲取:SparkSQL和Hadoop(面向數(shù)據(jù)科學(xué)家和大數(shù)據(jù)分析師)_云橋網(wǎng)絡(luò)
?
Spark SQL & Hadoop (For Data Scientists & Big Data Analysts)
描述
Apache Spark是目前最流行的大數(shù)據(jù)處理系統(tǒng)之一。
許多希望在本地存儲(chǔ)數(shù)據(jù)的組織繼續(xù)使用Apache Hadoop。Hadoop允許這些組織高效地存儲(chǔ)從千兆字節(jié)到千兆字節(jié)的大數(shù)據(jù)集。
隨著數(shù)據(jù)科學(xué)、大數(shù)據(jù)分析和數(shù)據(jù)工程職位空缺數(shù)量的持續(xù)增長,對具備Spark和Hadoop技術(shù)知識的個(gè)人填補(bǔ)這些空缺的需求也將持續(xù)增長。
本課程專為希望利用Hadoop和Apache Spark的力量來理解大數(shù)據(jù)的數(shù)據(jù)科學(xué)家、大數(shù)據(jù)分析師和數(shù)據(jù)工程師設(shè)計(jì)。
本課程將幫助那些希望交互式分析大數(shù)據(jù)或開始編寫生產(chǎn)應(yīng)用程序的人準(zhǔn)備數(shù)據(jù),以便在Hadoop環(huán)境中使用火花SQL進(jìn)行進(jìn)一步分析。
該課程也非常適合希望接觸Spark & Hadoop的大學(xué)生和應(yīng)屆畢業(yè)生,或者只想在使用Spark-SQL的大數(shù)據(jù)環(huán)境中應(yīng)用自己的SQL技能的任何人。
本課程旨在簡明扼要,并為學(xué)生提供必要和足夠的理論,足以讓他們能夠使用Hadoop & Spark,而不會(huì)陷入太多關(guān)于RDDs等舊的低級APIs的理論。
在解決本課程中包含的問題時(shí),學(xué)生將開始發(fā)展這些技能&處理生產(chǎn)環(huán)境中出現(xiàn)的真實(shí)場景所需的信心。
?
(一)這門課程的問題不到30個(gè)。這些包括hdfs命令、基本數(shù)據(jù)工程任務(wù)和數(shù)據(jù)分析。
全面解決所有問題。
(c)還包括Verulam Blue虛擬機(jī),這是一個(gè)已經(jīng)安裝了spark Hadoop集群的環(huán)境,以便您可以練習(xí)解決問題。
該虛擬機(jī)包含一個(gè)Spark Hadoop環(huán)境,該環(huán)境允許學(xué)生讀寫Hadoop文件系統(tǒng)中的數(shù)據(jù),并將元存儲(chǔ)表存儲(chǔ)在Hive元存儲(chǔ)上。
學(xué)生解決問題所需的所有數(shù)據(jù)集都已經(jīng)加載到HDFS上,所以學(xué)生不需要做任何額外的工作。
虛擬機(jī)還安裝了阿帕奇齊柏林飛艇。這是一款專門針對Spark的筆記本,類似于Python的Jupyter筆記本。
本課程將允許學(xué)生在實(shí)踐過程中獲得在Spark Hadoop環(huán)境中工作的實(shí)踐經(jīng)驗(yàn)
將存儲(chǔ)在HDFS的一組給定格式的數(shù)據(jù)值轉(zhuǎn)換為新的數(shù)據(jù)值或新的數(shù)據(jù)格式,并將其寫入HDFS。
從HDFS加載數(shù)據(jù)用于Spark應(yīng)用&使用Spark將結(jié)果寫回HDFS。
以各種文件格式讀寫文件。
使用Spark API對數(shù)據(jù)執(zhí)行標(biāo)準(zhǔn)的提取、轉(zhuǎn)換、加載(ETL)過程。
使用metastore表作為Spark應(yīng)用程序的輸入源或輸出接收器。
在Spark中應(yīng)用查詢數(shù)據(jù)集的基礎(chǔ)知識。
使用Spark過濾數(shù)據(jù)。
編寫計(jì)算聚合統(tǒng)計(jì)信息的查詢。
使用Spark連接不同的數(shù)據(jù)集。
產(chǎn)生分級或分類的數(shù)據(jù)。
?
這門課是給誰的
本課程專為希望利用Hadoop和Apache Spark的力量來理解大數(shù)據(jù)的數(shù)據(jù)科學(xué)家、大數(shù)據(jù)分析師和數(shù)據(jù)工程師設(shè)計(jì)。
這門課程也非常適合大學(xué)生和剛畢業(yè)的學(xué)生,他們渴望在一家希望填補(bǔ)大數(shù)據(jù)相關(guān)職位的公司找到工作,或者任何只想在使用Spark-SQL的大數(shù)據(jù)環(huán)境中應(yīng)用他們的SQL技能的人。
希望進(jìn)入數(shù)據(jù)工程領(lǐng)域的軟件工程師和開發(fā)人員也會(huì)發(fā)現(xiàn)本課程很有幫助。
總結(jié)
以上是生活随笔為你收集整理的SparkSQL和Hadoop(面向数据科学家和大数据分析师)的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Autocad 3D 完全学习教程
- 下一篇: Unity与C#创建一个3D平台游戏 L