當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Databricks 第1篇：初识Databricks，创建工作区、集群和Notebook

發(fā)布時(shí)間：2023/12/14 编程问答 58 豆豆

生活随笔收集整理的這篇文章主要介紹了 Databricks 第1篇：初识Databricks，创建工作区、集群和Notebook 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

Azure Databricks是一個(gè)可擴(kuò)展的數(shù)據(jù)分析平臺，基于Apache Spark。Azure Databricks 工作區(qū)(Workspace)是一個(gè)交互式的環(huán)境，工作區(qū)把對象(notebook、library、dashboards、experiments)組織成文件夾，用于數(shù)據(jù)集成和數(shù)據(jù)分析。

一，Azure Databricks的基本概念

1，工作區(qū)是一個(gè)交互式的環(huán)境

工作區(qū)是一個(gè)交互式的環(huán)境，可以管理Databricks的集群、Notebook、Job等對象。

2，集群是運(yùn)行Notebook和job的資源

在使用工作區(qū)中，要進(jìn)行數(shù)據(jù)集成和數(shù)據(jù)分析，必須創(chuàng)建集群(Cluster)，Cluser代表運(yùn)行notebook和job的計(jì)算資源，并用于存儲相應(yīng)的配置信息。

Cluster有兩種類型：通用(All-purpose)和job，all-purpose集群是交互式的，用于通用的數(shù)據(jù)集成和數(shù)據(jù)分析任務(wù)，而job類型的集群用于定時(shí)運(yùn)行job。

Job用于立即或按照計(jì)劃來運(yùn)行notebook或library。job類型的集群在job開始時(shí)創(chuàng)建，在job完成時(shí)結(jié)束。

根據(jù)cluster的類型，把Azure Databricks的工作負(fù)載(workload)分為兩個(gè)類型：data engineering (job) 和 data analytics (all-purpose)。

數(shù)據(jù)工程：(自動(dòng))工作負(fù)載在Job群集上運(yùn)行，Azure Databricks作業(yè)計(jì)劃程序?yàn)槊總€(gè)工作負(fù)載創(chuàng)建了一個(gè)工作群集。
數(shù)據(jù)分析：(交互式)工作負(fù)載在all-purpose集群上運(yùn)行，交互式工作負(fù)載通常在Azure Databricks筆記本中運(yùn)行命令，但是在現(xiàn)有的通用集群上運(yùn)行作業(yè)也被視為交互式工作負(fù)載。

3，Notebook是一個(gè)基于Web的記事本

Notebook是一個(gè)包含可執(zhí)行命令的記事本，用戶可以在Notebook中編寫Python命令，編輯命令，并執(zhí)行命令，獲得輸出的結(jié)果，并可以對結(jié)果進(jìn)行可視化處理，Notebook的功能和UI類似于Jupyter Notebook。

二，創(chuàng)建Workspace

通過Azure UI來創(chuàng)建工作區(qū)，從Azure Services中找到Azure Databricks。

創(chuàng)建工作區(qū)，選擇訂閱用于管理資源和成本，需要設(shè)置訂閱(Subscription)和資源組(Resource group)，選擇定價(jià)策略(Pricing Tier)。

選擇“Review + Create”，點(diǎn)擊Create 按鈕來創(chuàng)建工作區(qū)。等到工作區(qū)部署完成之后，打開Azure Databricks Service，點(diǎn)擊“Launch Workspace”登錄到工作區(qū)門戶。

三，創(chuàng)建Spark Cluster

Spark Cluster可以看作是Databricks的計(jì)算資源，因此必須創(chuàng)建集群。

1，登錄到工作區(qū)門戶

登錄(Launch)到新建的工作區(qū)門戶中，從“Common Tasks”列表中點(diǎn)擊“New Cluster”。

2，配置集群?

Cluster Mode：集群的模式共有三種，High concurrency(高并發(fā))、Standard(標(biāo)準(zhǔn))和Single Node(單節(jié)點(diǎn))。標(biāo)準(zhǔn)模式是推薦模式，通常用于單用戶的集群。

Pool：Pool是一組空閑的隨時(shí)可用的實(shí)例，可減少集群啟動(dòng)和自動(dòng)縮放的時(shí)間。當(dāng)連接到Pool的集群需要一個(gè)實(shí)例時(shí)，它首先嘗試分配Pool的中一個(gè)實(shí)例，如果該P(yáng)ool沒有空閑的實(shí)例，那么該P(yáng)ool將通過從實(shí)例提供者分配有ige新的實(shí)例來擴(kuò)展，以滿足集群的需求。集群釋放實(shí)例后，它將返回到Pool中，并可以提供給其他集群使用。只有連接到Pool的集群才能使用該P(yáng)ool的空閑實(shí)例。實(shí)例在Pool中處于空閑狀態(tài)時(shí)是免費(fèi)的。

Databricks Runtime：運(yùn)行時(shí)版本配置，選擇用于創(chuàng)建集群的image，運(yùn)行時(shí)是在集群上運(yùn)行的一組核心組件。

Enable autoscaling：勾選自動(dòng)縮放，根據(jù)工作負(fù)載的不同，集群在最大節(jié)點(diǎn)數(shù)量和最小節(jié)點(diǎn)數(shù)量之間自動(dòng)縮放。

Terminate after xx minutes of inactivity：當(dāng)集群不活動(dòng)時(shí)，延遲一定時(shí)間后，結(jié)束集群。

配置完成之后，點(diǎn)擊頂部的“Create Clustere” 按鈕創(chuàng)建集群。

四，創(chuàng)建Notebook

Notebook是一個(gè)包含可執(zhí)行命令的記事本，用戶可以在Notebook中編寫Python命令，編輯命令，并執(zhí)行命令，獲得輸出的結(jié)果，并可以對結(jié)果進(jìn)行可視化處理。

從Common Tasks中選擇“New Notebook”，輸入Notebook的Name，選擇編程語言Python、選擇集群，點(diǎn)擊對話框底部的“Create”按鈕創(chuàng)建Notebook。

在新建的Notebook中輸入命令，打印"hello world"，點(diǎn)擊"Shift+Enter"，執(zhí)行命令

參考文檔：

Quickstart: Run a Spark job on Azure Databricks Workspace using the Azure portal

總結(jié)

以上是生活随笔為你收集整理的Databricks 第1篇：初识Databricks，创建工作区、集群和Notebook的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。