hadoop 传感器数据_读取模式错误,计算引擎操作复杂……面对Hadoop这些问题该如何应对?...
作者 |?Monte Zweben
譯者 | 天道酬勤,責(zé)編 | Carol
封圖 | CSDN 付費(fèi)下載自視覺中國(guó)
Apache Hadoop于2006年出現(xiàn)在IT領(lǐng)域,它使用商品硬件,為組織提供前所未有的數(shù)據(jù)量存儲(chǔ)能力。不僅解決了數(shù)據(jù)集的大小問題,還解決了數(shù)據(jù)類型問題,比如由物聯(lián)網(wǎng)設(shè)備、傳感器、服務(wù)器和社交媒體生成的數(shù)據(jù),企業(yè)對(duì)這些數(shù)據(jù)的分析越來越感興趣。數(shù)據(jù)量、速度和多樣性的結(jié)合被普遍稱為大數(shù)據(jù)。
讀取模式在Hadoop的普及中起著至關(guān)重要的作用。企業(yè)認(rèn)為他們不必再擔(dān)心定義哪些表包含哪些數(shù)據(jù)以及它們是如何相互連接的繁瑣過程了—這個(gè)過程花了幾個(gè)月的時(shí)間,而且在完成之前無需執(zhí)行任何數(shù)據(jù)倉(cāng)庫(kù)查詢。在這個(gè)發(fā)展的新世界里,企業(yè)在基于Hadoop的存儲(chǔ)庫(kù)(稱為數(shù)據(jù)湖)中存儲(chǔ)盡可能多的數(shù)據(jù),并擔(dān)心以后如何對(duì)其進(jìn)行分析。
企業(yè)開始出現(xiàn)數(shù)據(jù)湖。這些數(shù)據(jù)湖由商業(yè)大數(shù)據(jù)分發(fā)支持的——平臺(tái)中支持許多獨(dú)立的開源計(jì)算引擎,這些引擎使數(shù)據(jù)湖以不同方式分析數(shù)據(jù)。最重要的是,所有這些都是開源的,可以免費(fèi)試用!不過,用起來會(huì)出現(xiàn)什么問題?今天一起來看看。
讀取模式是錯(cuò)誤的
被譽(yù)為Hadoop優(yōu)勢(shì)的特性被證明是其致命弱點(diǎn)。首先,隨著寫模式限制的解除,TB級(jí)的結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)開始流入數(shù)據(jù)湖。由于Hadoop的數(shù)據(jù)治理框架和功能仍在定義中,企業(yè)難以確定其數(shù)據(jù)湖的內(nèi)容和數(shù)據(jù)沿襲。
另外,數(shù)據(jù)還沒有準(zhǔn)備好。企業(yè)對(duì)數(shù)據(jù)湖中的數(shù)據(jù)失去信心,慢慢地,這些數(shù)據(jù)湖開始變成數(shù)據(jù)沼澤。讀取模式的“構(gòu)建它,它們就會(huì)到來”的哲學(xué)失敗了。
Hadoop復(fù)雜性和管道式的計(jì)算引擎
其次,Hadoop發(fā)行版提供了許多開源計(jì)算引擎,例如Apache Hive,Apache Spark和Apache Kafka,僅舉幾例,但這證明是一件好事。一個(gè)恰當(dāng)?shù)睦印粋€(gè)商業(yè)Hadoop平臺(tái)由26個(gè)這樣的獨(dú)立引擎組成。這些計(jì)算引擎操作起來很復(fù)雜,需要專門的技術(shù)才能將他們連接在一起,這在市場(chǎng)上很難找到。
錯(cuò)誤的焦點(diǎn):數(shù)據(jù)湖與應(yīng)用程序
第三個(gè)也是最重要的一個(gè),由于企業(yè)優(yōu)先考慮將所有企業(yè)數(shù)據(jù)存儲(chǔ)在一個(gè)中心位置,所有開發(fā)人員都可以使用這些數(shù)據(jù)——一個(gè)數(shù)據(jù)倉(cāng)庫(kù),不考慮應(yīng)用程序如何使用數(shù)據(jù),數(shù)據(jù)湖項(xiàng)目就開始失敗了。
因此,Hadoop集群常常成為企業(yè)數(shù)據(jù)管道的網(wǎng)關(guān),這些數(shù)據(jù)管道過濾、處理和轉(zhuǎn)換數(shù)據(jù),然后導(dǎo)出到其他數(shù)據(jù)庫(kù)和數(shù)據(jù)集市,用于下游報(bào)告,并且?guī)缀跤肋h(yuǎn)無法在操作架構(gòu)中找到通往真實(shí)業(yè)務(wù)應(yīng)用程序的方式。
數(shù)據(jù)湖最終變成了一組巨大的完全不同的計(jì)算引擎,它們?cè)谕耆煌墓ぷ髫?fù)載上運(yùn)行,共享相同的存儲(chǔ),這很難管理。這個(gè)生態(tài)系統(tǒng)中的資源隔離和管理工具正在改善,但它們?nèi)杂泻荛L(zhǎng)的路要走。所有這些復(fù)雜性——只是為了報(bào)告。
大多數(shù)情況下,企業(yè)無法將重點(diǎn)從使用數(shù)據(jù)湖作為廉價(jià)的數(shù)據(jù)存儲(chǔ)庫(kù)和處理管道轉(zhuǎn)移到使用數(shù)據(jù)并支持關(guān)鍵任務(wù)應(yīng)用程序的平臺(tái)。例如,Apache Hive和Apache Spark是Hadoop數(shù)據(jù)湖中使用最廣泛的計(jì)算引擎。這兩種引擎都用于分析目的——處理類似SQL的查詢(Hive)或執(zhí)行類似SQL的數(shù)據(jù)轉(zhuǎn)換并構(gòu)建預(yù)測(cè)模型(Spark)。這些數(shù)據(jù)湖實(shí)現(xiàn)對(duì)于如何在應(yīng)用程序中使用數(shù)據(jù)不夠關(guān)注。
未來的戰(zhàn)略
如果你關(guān)心Hadoop生態(tài)系統(tǒng)的最新發(fā)展,在證明數(shù)據(jù)湖的價(jià)值方面面臨越來越大的壓力,那么你應(yīng)該首先關(guān)注操作應(yīng)用程序,然后再回到數(shù)據(jù)。
通過關(guān)注具有數(shù)據(jù)和智能的應(yīng)用程序的現(xiàn)代化,你最終獲得能夠利用數(shù)據(jù)根據(jù)經(jīng)驗(yàn)預(yù)測(cè)未來可能發(fā)生的事情的應(yīng)用程序,并能夠積極主動(dòng)地做出決策,從而產(chǎn)生卓越的業(yè)務(wù)結(jié)果。以下是成功的應(yīng)用程序現(xiàn)代化策略的五個(gè)要素:
(1)?選擇一個(gè)現(xiàn)代化的應(yīng)用程序:首先,選擇一個(gè)你想要現(xiàn)代化的應(yīng)用程序,而不是集中精力在數(shù)據(jù)上。最適合的解決方案是是許多在市場(chǎng)上落后的定制應(yīng)用程序之一,這些應(yīng)用程序需要變得更加敏捷、智能和數(shù)據(jù)驅(qū)動(dòng)。一旦確定了可以為你帶來競(jìng)爭(zhēng)優(yōu)勢(shì)的應(yīng)用程序,你就可以集中精力采購(gòu)支持該應(yīng)用程序所需的數(shù)據(jù),以及是否可以從數(shù)據(jù)湖中獲取該數(shù)據(jù)。
(2) 使用橫向擴(kuò)展SQL進(jìn)行應(yīng)用程序現(xiàn)代化:多年來,SQL一直是企業(yè)工作負(fù)載中的主力軍,在你組織中有數(shù)百名開發(fā)人員,業(yè)務(wù)分析師和IT人員完全熟悉SQL。不會(huì)因?yàn)閷⒃糞QL應(yīng)用程序重寫為低級(jí)NOSQL API而產(chǎn)生額外的時(shí)間、費(fèi)用和風(fēng)險(xiǎn)。選擇一個(gè)平臺(tái),使你能夠維護(hù)SQL的熟悉的模式和強(qiáng)大的功能,使應(yīng)用程序現(xiàn)代化,但是要在一個(gè)能夠在廉價(jià)的基礎(chǔ)設(shè)施上彈性地向外擴(kuò)展的架構(gòu)上實(shí)現(xiàn)。橫向擴(kuò)展使整個(gè)群集具有強(qiáng)大的計(jì)算能力,使其比在集中式系統(tǒng)上運(yùn)行的舊SQL系統(tǒng)快得多。通過橫向擴(kuò)展,你還可以添加更多容量,并隨著工作負(fù)載的變化而減少容量。
(3)采用ACID平臺(tái):ACID遵從性是一種機(jī)制,通過該機(jī)制事務(wù)可以維護(hù)數(shù)據(jù)庫(kù)中的完整性,并允許用戶執(zhí)行諸如提交和回滾等操作。對(duì)于操作應(yīng)用程序來說,這是一項(xiàng)至關(guān)重要的功能,它可以確保數(shù)據(jù)庫(kù)在發(fā)出提交之前,不會(huì)使更改對(duì)其他人可見。選擇在數(shù)據(jù)庫(kù)中的各個(gè)事務(wù)級(jí)別上提供ACID功能的平臺(tái)。否則,所有這些一致性后果都需要在應(yīng)用程序代碼中處理。所有傳統(tǒng)的SQL系統(tǒng)都兼容ACID。數(shù)據(jù)湖不滿足這一點(diǎn),使得應(yīng)用程序難以編寫。
(4) 結(jié)合分析:根據(jù)Gartner最近的一篇博客,在過去有充分的理由將IT基礎(chǔ)架構(gòu)分為操作(OLTP)和分析(OLAP)組件,但現(xiàn)在不再如此。ETL用延遲扼殺了我們的SLA。以前,操作和分析工作負(fù)載會(huì)相互干擾,必須將它們分開。此外,舊數(shù)據(jù)平臺(tái)的性能非常差,我們必須將操作方案轉(zhuǎn)換為更適合分析工作負(fù)載的星型方案或雪花型方案。ETL不再是必須的,你可以經(jīng)常使用操作模式在操作平臺(tái)上運(yùn)行分析。通過實(shí)現(xiàn)這個(gè)平臺(tái),確保你的應(yīng)用程序在一個(gè)平臺(tái)上運(yùn)行,該平臺(tái)能夠最大程度地減少數(shù)據(jù)移動(dòng)并且不會(huì)增加應(yīng)用程序的延遲。與昨天或上周的數(shù)據(jù)相比,它提供了你當(dāng)前的見解,報(bào)告和儀表盤。
(5) 嵌入本機(jī)機(jī)器學(xué)習(xí):應(yīng)用程序現(xiàn)代化的主要原因之一是將AI和ML注入應(yīng)用程序中,使它從經(jīng)驗(yàn)中學(xué)習(xí),動(dòng)態(tài)地適應(yīng)變化并及時(shí)做出決策。為了使你的應(yīng)用程序智能化,選擇一個(gè)在數(shù)據(jù)庫(kù)級(jí)別內(nèi)置了機(jī)器學(xué)習(xí)功能的平臺(tái)是至關(guān)重要的,這樣更新的數(shù)據(jù)可供模型進(jìn)行實(shí)驗(yàn),訓(xùn)練和執(zhí)行。
這與迄今為止使用的數(shù)據(jù)湖完全不同。這種方法通過目前可以利用數(shù)據(jù)湖的應(yīng)用程序,更快地為業(yè)務(wù)線提供了切實(shí)的商業(yè)價(jià)值。
這種方法將確保除了為你的業(yè)務(wù)提供競(jìng)爭(zhēng)優(yōu)勢(shì)的應(yīng)用程序現(xiàn)代化之外,還可以保留在數(shù)據(jù)湖中的投資。
原文鏈接:https://hackernoon.com/what-happened-to-hadoop-what-should-you-do-now-3i1i3v6r
本文為 CSDN 翻譯,轉(zhuǎn)載請(qǐng)注明出處。
推薦閱讀云計(jì)算,巨頭們的背水一戰(zhàn)
整理了一份 Docker系統(tǒng)知識(shí),從安裝到熟練操作看這篇就夠了 | 原力計(jì)劃
借助大數(shù)據(jù)進(jìn)行社交媒體營(yíng)銷,企業(yè)們得這么玩!
追憶童年,教你用Python畫出兒時(shí)卡通人物
AI 終極問題:我們的大腦是一臺(tái)超級(jí)計(jì)算機(jī)嗎?
公鏈的歷史交叉口:PoS還能走多遠(yuǎn)?
總結(jié)
以上是生活随笔為你收集整理的hadoop 传感器数据_读取模式错误,计算引擎操作复杂……面对Hadoop这些问题该如何应对?...的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: python现在时间减去过去时间等于20
- 下一篇: 微小宝公众号排行榜_榜单 广东省技工院