Databricks 第1篇:初识Databricks,创建工作区、集群和Notebook
Azure Databricks是一個(gè)可擴(kuò)展的數(shù)據(jù)分析平臺,基于Apache Spark。Azure Databricks 工作區(qū)(Workspace)是一個(gè)交互式的環(huán)境,工作區(qū)把對象(notebook、library、dashboards、experiments)組織成文件夾,用于數(shù)據(jù)集成和數(shù)據(jù)分析。
一,Azure Databricks的基本概念
1,工作區(qū)是一個(gè)交互式的環(huán)境
工作區(qū)是一個(gè)交互式的環(huán)境,可以管理Databricks的集群、Notebook、Job等對象。
2,集群是運(yùn)行Notebook和job的資源
在使用工作區(qū)中,要進(jìn)行數(shù)據(jù)集成和數(shù)據(jù)分析,必須創(chuàng)建集群(Cluster),Cluser代表運(yùn)行notebook和job的計(jì)算資源,并用于存儲相應(yīng)的配置信息。
Cluster有兩種類型:通用(All-purpose)和job,all-purpose集群是交互式的,用于通用的數(shù)據(jù)集成和數(shù)據(jù)分析任務(wù),而job類型的集群用于定時(shí)運(yùn)行job。
Job用于立即或按照計(jì)劃來運(yùn)行notebook或library。job類型的集群在job開始時(shí)創(chuàng)建,在job完成時(shí)結(jié)束。
根據(jù)cluster的類型,把Azure Databricks的工作負(fù)載(workload)分為兩個(gè)類型:data engineering (job) 和 data analytics (all-purpose)。
- 數(shù)據(jù)工程:(自動(dòng))工作負(fù)載在Job群集上運(yùn)行,Azure Databricks作業(yè)計(jì)劃程序?yàn)槊總€(gè)工作負(fù)載創(chuàng)建了一個(gè)工作群集。
- 數(shù)據(jù)分析:(交互式)工作負(fù)載在all-purpose集群上運(yùn)行,交互式工作負(fù)載通常在Azure Databricks筆記本中運(yùn)行命令,但是在現(xiàn)有的通用集群上運(yùn)行作業(yè)也被視為交互式工作負(fù)載。
3,Notebook是一個(gè)基于Web的記事本
Notebook是一個(gè)包含可執(zhí)行命令的記事本,用戶可以在Notebook中編寫Python命令,編輯命令,并執(zhí)行命令,獲得輸出的結(jié)果,并可以對結(jié)果進(jìn)行可視化處理,Notebook的功能和UI類似于Jupyter Notebook。
二,創(chuàng)建Workspace
通過Azure UI來創(chuàng)建工作區(qū),從Azure Services中找到Azure Databricks。
創(chuàng)建工作區(qū),選擇訂閱用于管理資源和成本,需要設(shè)置訂閱(Subscription)和資源組(Resource group),選擇定價(jià)策略(Pricing Tier)。
選擇“Review + Create”,點(diǎn)擊Create 按鈕來創(chuàng)建工作區(qū)。等到工作區(qū)部署完成之后,打開Azure Databricks Service,點(diǎn)擊“Launch Workspace”登錄到工作區(qū)門戶。
三,創(chuàng)建Spark Cluster
Spark Cluster可以看作是Databricks的計(jì)算資源,因此必須創(chuàng)建集群。
1,登錄到工作區(qū)門戶
登錄(Launch)到新建的工作區(qū)門戶中,從“Common Tasks”列表中點(diǎn)擊“New Cluster”。
2,配置集群?
Cluster Mode:集群的模式共有三種,High concurrency(高并發(fā))、Standard(標(biāo)準(zhǔn))和Single Node(單節(jié)點(diǎn))。標(biāo)準(zhǔn)模式是推薦模式,通常用于單用戶的集群。
Pool:Pool是一組空閑的隨時(shí)可用的實(shí)例,可減少集群啟動(dòng)和自動(dòng)縮放的時(shí)間。當(dāng)連接到Pool的集群需要一個(gè)實(shí)例時(shí),它首先嘗試分配Pool的中一個(gè)實(shí)例,如果該P(yáng)ool沒有空閑的實(shí)例,那么該P(yáng)ool將通過從實(shí)例提供者分配有ige新的實(shí)例來擴(kuò)展,以滿足集群的需求。集群釋放實(shí)例后,它將返回到Pool中,并可以提供給其他集群使用。只有連接到Pool的集群才能使用該P(yáng)ool的空閑實(shí)例。實(shí)例在Pool中處于空閑狀態(tài)時(shí)是免費(fèi)的。
Databricks Runtime:運(yùn)行時(shí)版本配置,選擇用于創(chuàng)建集群的image,運(yùn)行時(shí)是在集群上運(yùn)行的一組核心組件。
Enable autoscaling:勾選自動(dòng)縮放,根據(jù)工作負(fù)載的不同,集群在最大節(jié)點(diǎn)數(shù)量和最小節(jié)點(diǎn)數(shù)量之間自動(dòng)縮放。
Terminate after xx minutes of inactivity:當(dāng)集群不活動(dòng)時(shí),延遲一定時(shí)間后,結(jié)束集群。
配置完成之后,點(diǎn)擊頂部的“Create Clustere” 按鈕創(chuàng)建集群。
四,創(chuàng)建Notebook
Notebook是一個(gè)包含可執(zhí)行命令的記事本,用戶可以在Notebook中編寫Python命令,編輯命令,并執(zhí)行命令,獲得輸出的結(jié)果,并可以對結(jié)果進(jìn)行可視化處理。
從Common Tasks中選擇“New Notebook”,輸入Notebook的Name,選擇編程語言Python、選擇集群,點(diǎn)擊對話框底部的“Create”按鈕創(chuàng)建Notebook。
在新建的Notebook中輸入命令,打印"hello world",點(diǎn)擊"Shift+Enter",執(zhí)行命令
參考文檔:
Quickstart: Run a Spark job on Azure Databricks Workspace using the Azure portal
總結(jié)
以上是生活随笔為你收集整理的Databricks 第1篇:初识Databricks,创建工作区、集群和Notebook的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: gr-osmosdr的安装
- 下一篇: 牛客网刷题网址