當(dāng)前位置：首頁 > 人文社科 > 生活经验 >内容正文

生活经验

SparkSQL和Hadoop(面向数据科学家和大数据分析师)

發(fā)布時(shí)間：2023/11/27 生活经验 37 豆豆

生活随笔收集整理的這篇文章主要介紹了 SparkSQL和Hadoop(面向数据科学家和大数据分析师) 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

了解HDFS命令、Hadoop、Spark SQL、SQL查詢、ETL和數(shù)據(jù)分析| Spark Hadoop集群虛擬機(jī)|完全解決的問題

你會(huì)學(xué)到什么
作為本課程的一部分，學(xué)生將獲得在Spark Hadoop環(huán)境中工作的實(shí)踐經(jīng)驗(yàn)，該環(huán)境是免費(fèi)且可下載的。
學(xué)生將有機(jī)會(huì)在沙箱環(huán)境中使用Hadoop集群上的Spark解決數(shù)據(jù)工程和數(shù)據(jù)分析問題
發(fā)布HDFS命令。
將存儲(chǔ)在HDFS的一組給定格式的數(shù)據(jù)值轉(zhuǎn)換為新的數(shù)據(jù)值或新的數(shù)據(jù)格式，并將其寫入HDFS。
從HDFS加載數(shù)據(jù)用于Spark應(yīng)用&使用Spark將結(jié)果寫回HDFS。
以各種文件格式讀寫文件。
使用Spark API對數(shù)據(jù)執(zhí)行標(biāo)準(zhǔn)的提取、轉(zhuǎn)換、加載(ETL)過程。
使用metastore表作為Spark應(yīng)用程序的輸入源或輸出接收器。
在Spark中應(yīng)用查詢數(shù)據(jù)集的基礎(chǔ)知識。
使用Spark過濾數(shù)據(jù)。
編寫計(jì)算聚合統(tǒng)計(jì)信息的查詢。
使用Spark連接不同的數(shù)據(jù)集。
產(chǎn)生分級或分類的數(shù)據(jù)。

Spark SQL & Hadoop (For Data Scientists & Big Data Analysts)

描述
Apache Spark是目前最流行的大數(shù)據(jù)處理系統(tǒng)之一。

許多希望在本地存儲(chǔ)數(shù)據(jù)的組織繼續(xù)使用Apache Hadoop。Hadoop允許這些組織高效地存儲(chǔ)從千兆字節(jié)到千兆字節(jié)的大數(shù)據(jù)集。

隨著數(shù)據(jù)科學(xué)、大數(shù)據(jù)分析和數(shù)據(jù)工程職位空缺數(shù)量的持續(xù)增長，對具備Spark和Hadoop技術(shù)知識的個(gè)人填補(bǔ)這些空缺的需求也將持續(xù)增長。

本課程專為希望利用Hadoop和Apache Spark的力量來理解大數(shù)據(jù)的數(shù)據(jù)科學(xué)家、大數(shù)據(jù)分析師和數(shù)據(jù)工程師設(shè)計(jì)。

本課程將幫助那些希望交互式分析大數(shù)據(jù)或開始編寫生產(chǎn)應(yīng)用程序的人準(zhǔn)備數(shù)據(jù)，以便在Hadoop環(huán)境中使用火花SQL進(jìn)行進(jìn)一步分析。

該課程也非常適合希望接觸Spark & Hadoop的大學(xué)生和應(yīng)屆畢業(yè)生，或者只想在使用Spark-SQL的大數(shù)據(jù)環(huán)境中應(yīng)用自己的SQL技能的任何人。

本課程旨在簡明扼要，并為學(xué)生提供必要和足夠的理論，足以讓他們能夠使用Hadoop & Spark，而不會(huì)陷入太多關(guān)于RDDs等舊的低級APIs的理論。

在解決本課程中包含的問題時(shí)，學(xué)生將開始發(fā)展這些技能&處理生產(chǎn)環(huán)境中出現(xiàn)的真實(shí)場景所需的信心。

(一)這門課程的問題不到30個(gè)。這些包括hdfs命令、基本數(shù)據(jù)工程任務(wù)和數(shù)據(jù)分析。

全面解決所有問題。

(c)還包括Verulam Blue虛擬機(jī)，這是一個(gè)已經(jīng)安裝了spark Hadoop集群的環(huán)境，以便您可以練習(xí)解決問題。

該虛擬機(jī)包含一個(gè)Spark Hadoop環(huán)境，該環(huán)境允許學(xué)生讀寫Hadoop文件系統(tǒng)中的數(shù)據(jù)，并將元存儲(chǔ)表存儲(chǔ)在Hive元存儲(chǔ)上。

學(xué)生解決問題所需的所有數(shù)據(jù)集都已經(jīng)加載到HDFS上，所以學(xué)生不需要做任何額外的工作。

虛擬機(jī)還安裝了阿帕奇齊柏林飛艇。這是一款專門針對Spark的筆記本，類似于Python的Jupyter筆記本。

本課程將允許學(xué)生在實(shí)踐過程中獲得在Spark Hadoop環(huán)境中工作的實(shí)踐經(jīng)驗(yàn)

將存儲(chǔ)在HDFS的一組給定格式的數(shù)據(jù)值轉(zhuǎn)換為新的數(shù)據(jù)值或新的數(shù)據(jù)格式，并將其寫入HDFS。

從HDFS加載數(shù)據(jù)用于Spark應(yīng)用&使用Spark將結(jié)果寫回HDFS。

以各種文件格式讀寫文件。

使用Spark API對數(shù)據(jù)執(zhí)行標(biāo)準(zhǔn)的提取、轉(zhuǎn)換、加載(ETL)過程。

使用metastore表作為Spark應(yīng)用程序的輸入源或輸出接收器。

在Spark中應(yīng)用查詢數(shù)據(jù)集的基礎(chǔ)知識。

使用Spark過濾數(shù)據(jù)。

編寫計(jì)算聚合統(tǒng)計(jì)信息的查詢。

使用Spark連接不同的數(shù)據(jù)集。

產(chǎn)生分級或分類的數(shù)據(jù)。

這門課是給誰的
本課程專為希望利用Hadoop和Apache Spark的力量來理解大數(shù)據(jù)的數(shù)據(jù)科學(xué)家、大數(shù)據(jù)分析師和數(shù)據(jù)工程師設(shè)計(jì)。
這門課程也非常適合大學(xué)生和剛畢業(yè)的學(xué)生，他們渴望在一家希望填補(bǔ)大數(shù)據(jù)相關(guān)職位的公司找到工作，或者任何只想在使用Spark-SQL的大數(shù)據(jù)環(huán)境中應(yīng)用他們的SQL技能的人。
希望進(jìn)入數(shù)據(jù)工程領(lǐng)域的軟件工程師和開發(fā)人員也會(huì)發(fā)現(xiàn)本課程很有幫助。

總結(jié)

以上是生活随笔為你收集整理的SparkSQL和Hadoop(面向数据科学家和大数据分析师)的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇： Autocad 3D 完全学习教程
下一篇： Unity与C#创建一个3D平台游戏 L