當(dāng)前位置：首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

hadoop 传感器数据_读取模式错误，计算引擎操作复杂……面对Hadoop这些问题该如何应对？...

發(fā)布時(shí)間：2024/7/23 编程问答 32 豆豆

生活随笔收集整理的這篇文章主要介紹了 hadoop 传感器数据_读取模式错误，计算引擎操作复杂……面对Hadoop这些问题该如何应对？... 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

作者 |?Monte Zweben

譯者 | 天道酬勤，責(zé)編 | Carol

封圖 | CSDN 付費(fèi)下載自視覺中國(guó)

Apache Hadoop于2006年出現(xiàn)在IT領(lǐng)域，它使用商品硬件，為組織提供前所未有的數(shù)據(jù)量存儲(chǔ)能力。不僅解決了數(shù)據(jù)集的大小問題，還解決了數(shù)據(jù)類型問題，比如由物聯(lián)網(wǎng)設(shè)備、傳感器、服務(wù)器和社交媒體生成的數(shù)據(jù)，企業(yè)對(duì)這些數(shù)據(jù)的分析越來越感興趣。數(shù)據(jù)量、速度和多樣性的結(jié)合被普遍稱為大數(shù)據(jù)。

讀取模式在Hadoop的普及中起著至關(guān)重要的作用。企業(yè)認(rèn)為他們不必再擔(dān)心定義哪些表包含哪些數(shù)據(jù)以及它們是如何相互連接的繁瑣過程了—這個(gè)過程花了幾個(gè)月的時(shí)間，而且在完成之前無需執(zhí)行任何數(shù)據(jù)倉(cāng)庫(kù)查詢。在這個(gè)發(fā)展的新世界里，企業(yè)在基于Hadoop的存儲(chǔ)庫(kù)(稱為數(shù)據(jù)湖)中存儲(chǔ)盡可能多的數(shù)據(jù)，并擔(dān)心以后如何對(duì)其進(jìn)行分析。

企業(yè)開始出現(xiàn)數(shù)據(jù)湖。這些數(shù)據(jù)湖由商業(yè)大數(shù)據(jù)分發(fā)支持的——平臺(tái)中支持許多獨(dú)立的開源計(jì)算引擎，這些引擎使數(shù)據(jù)湖以不同方式分析數(shù)據(jù)。最重要的是，所有這些都是開源的，可以免費(fèi)試用！不過，用起來會(huì)出現(xiàn)什么問題？今天一起來看看。

讀取模式是錯(cuò)誤的

被譽(yù)為Hadoop優(yōu)勢(shì)的特性被證明是其致命弱點(diǎn)。首先，隨著寫模式限制的解除，TB級(jí)的結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)開始流入數(shù)據(jù)湖。由于Hadoop的數(shù)據(jù)治理框架和功能仍在定義中，企業(yè)難以確定其數(shù)據(jù)湖的內(nèi)容和數(shù)據(jù)沿襲。

另外，數(shù)據(jù)還沒有準(zhǔn)備好。企業(yè)對(duì)數(shù)據(jù)湖中的數(shù)據(jù)失去信心，慢慢地，這些數(shù)據(jù)湖開始變成數(shù)據(jù)沼澤。讀取模式的“構(gòu)建它，它們就會(huì)到來”的哲學(xué)失敗了。

Hadoop復(fù)雜性和管道式的計(jì)算引擎

其次，Hadoop發(fā)行版提供了許多開源計(jì)算引擎，例如Apache Hive，Apache Spark和Apache Kafka，僅舉幾例，但這證明是一件好事。一個(gè)恰當(dāng)?shù)睦印粋€(gè)商業(yè)Hadoop平臺(tái)由26個(gè)這樣的獨(dú)立引擎組成。這些計(jì)算引擎操作起來很復(fù)雜，需要專門的技術(shù)才能將他們連接在一起，這在市場(chǎng)上很難找到。

錯(cuò)誤的焦點(diǎn)：數(shù)據(jù)湖與應(yīng)用程序

第三個(gè)也是最重要的一個(gè)，由于企業(yè)優(yōu)先考慮將所有企業(yè)數(shù)據(jù)存儲(chǔ)在一個(gè)中心位置，所有開發(fā)人員都可以使用這些數(shù)據(jù)——一個(gè)數(shù)據(jù)倉(cāng)庫(kù)，不考慮應(yīng)用程序如何使用數(shù)據(jù)，數(shù)據(jù)湖項(xiàng)目就開始失敗了。

因此，Hadoop集群常常成為企業(yè)數(shù)據(jù)管道的網(wǎng)關(guān)，這些數(shù)據(jù)管道過濾、處理和轉(zhuǎn)換數(shù)據(jù)，然后導(dǎo)出到其他數(shù)據(jù)庫(kù)和數(shù)據(jù)集市，用于下游報(bào)告，并且?guī)缀跤肋h(yuǎn)無法在操作架構(gòu)中找到通往真實(shí)業(yè)務(wù)應(yīng)用程序的方式。

數(shù)據(jù)湖最終變成了一組巨大的完全不同的計(jì)算引擎，它們?cè)谕耆煌墓ぷ髫?fù)載上運(yùn)行，共享相同的存儲(chǔ)，這很難管理。這個(gè)生態(tài)系統(tǒng)中的資源隔離和管理工具正在改善，但它們?nèi)杂泻荛L(zhǎng)的路要走。所有這些復(fù)雜性——只是為了報(bào)告。

大多數(shù)情況下，企業(yè)無法將重點(diǎn)從使用數(shù)據(jù)湖作為廉價(jià)的數(shù)據(jù)存儲(chǔ)庫(kù)和處理管道轉(zhuǎn)移到使用數(shù)據(jù)并支持關(guān)鍵任務(wù)應(yīng)用程序的平臺(tái)。例如，Apache Hive和Apache Spark是Hadoop數(shù)據(jù)湖中使用最廣泛的計(jì)算引擎。這兩種引擎都用于分析目的——處理類似SQL的查詢(Hive)或執(zhí)行類似SQL的數(shù)據(jù)轉(zhuǎn)換并構(gòu)建預(yù)測(cè)模型(Spark)。這些數(shù)據(jù)湖實(shí)現(xiàn)對(duì)于如何在應(yīng)用程序中使用數(shù)據(jù)不夠關(guān)注。

未來的戰(zhàn)略

如果你關(guān)心Hadoop生態(tài)系統(tǒng)的最新發(fā)展，在證明數(shù)據(jù)湖的價(jià)值方面面臨越來越大的壓力，那么你應(yīng)該首先關(guān)注操作應(yīng)用程序，然后再回到數(shù)據(jù)。

通過關(guān)注具有數(shù)據(jù)和智能的應(yīng)用程序的現(xiàn)代化，你最終獲得能夠利用數(shù)據(jù)根據(jù)經(jīng)驗(yàn)預(yù)測(cè)未來可能發(fā)生的事情的應(yīng)用程序，并能夠積極主動(dòng)地做出決策，從而產(chǎn)生卓越的業(yè)務(wù)結(jié)果。以下是成功的應(yīng)用程序現(xiàn)代化策略的五個(gè)要素:

(1)?選擇一個(gè)現(xiàn)代化的應(yīng)用程序：首先，選擇一個(gè)你想要現(xiàn)代化的應(yīng)用程序，而不是集中精力在數(shù)據(jù)上。最適合的解決方案是是許多在市場(chǎng)上落后的定制應(yīng)用程序之一，這些應(yīng)用程序需要變得更加敏捷、智能和數(shù)據(jù)驅(qū)動(dòng)。一旦確定了可以為你帶來競(jìng)爭(zhēng)優(yōu)勢(shì)的應(yīng)用程序，你就可以集中精力采購(gòu)支持該應(yīng)用程序所需的數(shù)據(jù)，以及是否可以從數(shù)據(jù)湖中獲取該數(shù)據(jù)。

(2) 使用橫向擴(kuò)展SQL進(jìn)行應(yīng)用程序現(xiàn)代化：多年來，SQL一直是企業(yè)工作負(fù)載中的主力軍，在你組織中有數(shù)百名開發(fā)人員，業(yè)務(wù)分析師和IT人員完全熟悉SQL。不會(huì)因?yàn)閷⒃糞QL應(yīng)用程序重寫為低級(jí)NOSQL API而產(chǎn)生額外的時(shí)間、費(fèi)用和風(fēng)險(xiǎn)。選擇一個(gè)平臺(tái)，使你能夠維護(hù)SQL的熟悉的模式和強(qiáng)大的功能，使應(yīng)用程序現(xiàn)代化，但是要在一個(gè)能夠在廉價(jià)的基礎(chǔ)設(shè)施上彈性地向外擴(kuò)展的架構(gòu)上實(shí)現(xiàn)。橫向擴(kuò)展使整個(gè)群集具有強(qiáng)大的計(jì)算能力，使其比在集中式系統(tǒng)上運(yùn)行的舊SQL系統(tǒng)快得多。通過橫向擴(kuò)展，你還可以添加更多容量，并隨著工作負(fù)載的變化而減少容量。

(3)采用ACID平臺(tái)：ACID遵從性是一種機(jī)制，通過該機(jī)制事務(wù)可以維護(hù)數(shù)據(jù)庫(kù)中的完整性，并允許用戶執(zhí)行諸如提交和回滾等操作。對(duì)于操作應(yīng)用程序來說，這是一項(xiàng)至關(guān)重要的功能，它可以確保數(shù)據(jù)庫(kù)在發(fā)出提交之前，不會(huì)使更改對(duì)其他人可見。選擇在數(shù)據(jù)庫(kù)中的各個(gè)事務(wù)級(jí)別上提供ACID功能的平臺(tái)。否則，所有這些一致性后果都需要在應(yīng)用程序代碼中處理。所有傳統(tǒng)的SQL系統(tǒng)都兼容ACID。數(shù)據(jù)湖不滿足這一點(diǎn)，使得應(yīng)用程序難以編寫。

(4) 結(jié)合分析：根據(jù)Gartner最近的一篇博客，在過去有充分的理由將IT基礎(chǔ)架構(gòu)分為操作(OLTP)和分析(OLAP)組件，但現(xiàn)在不再如此。ETL用延遲扼殺了我們的SLA。以前，操作和分析工作負(fù)載會(huì)相互干擾，必須將它們分開。此外，舊數(shù)據(jù)平臺(tái)的性能非常差，我們必須將操作方案轉(zhuǎn)換為更適合分析工作負(fù)載的星型方案或雪花型方案。ETL不再是必須的，你可以經(jīng)常使用操作模式在操作平臺(tái)上運(yùn)行分析。通過實(shí)現(xiàn)這個(gè)平臺(tái)，確保你的應(yīng)用程序在一個(gè)平臺(tái)上運(yùn)行，該平臺(tái)能夠最大程度地減少數(shù)據(jù)移動(dòng)并且不會(huì)增加應(yīng)用程序的延遲。與昨天或上周的數(shù)據(jù)相比，它提供了你當(dāng)前的見解，報(bào)告和儀表盤。

(5) 嵌入本機(jī)機(jī)器學(xué)習(xí)：應(yīng)用程序現(xiàn)代化的主要原因之一是將AI和ML注入應(yīng)用程序中，使它從經(jīng)驗(yàn)中學(xué)習(xí)，動(dòng)態(tài)地適應(yīng)變化并及時(shí)做出決策。為了使你的應(yīng)用程序智能化，選擇一個(gè)在數(shù)據(jù)庫(kù)級(jí)別內(nèi)置了機(jī)器學(xué)習(xí)功能的平臺(tái)是至關(guān)重要的，這樣更新的數(shù)據(jù)可供模型進(jìn)行實(shí)驗(yàn)，訓(xùn)練和執(zhí)行。

這與迄今為止使用的數(shù)據(jù)湖完全不同。這種方法通過目前可以利用數(shù)據(jù)湖的應(yīng)用程序，更快地為業(yè)務(wù)線提供了切實(shí)的商業(yè)價(jià)值。

這種方法將確保除了為你的業(yè)務(wù)提供競(jìng)爭(zhēng)優(yōu)勢(shì)的應(yīng)用程序現(xiàn)代化之外，還可以保留在數(shù)據(jù)湖中的投資。

原文鏈接：https://hackernoon.com/what-happened-to-hadoop-what-should-you-do-now-3i1i3v6r

本文為 CSDN 翻譯，轉(zhuǎn)載請(qǐng)注明出處。

推薦閱讀

云計(jì)算，巨頭們的背水一戰(zhàn)
整理了一份 Docker系統(tǒng)知識(shí)，從安裝到熟練操作看這篇就夠了 | 原力計(jì)劃
借助大數(shù)據(jù)進(jìn)行社交媒體營(yíng)銷，企業(yè)們得這么玩！
追憶童年，教你用Python畫出兒時(shí)卡通人物
AI 終極問題：我們的大腦是一臺(tái)超級(jí)計(jì)算機(jī)嗎？
公鏈的歷史交叉口：PoS還能走多遠(yuǎn)？

真香，朕在看了！

總結(jié)

以上是生活随笔為你收集整理的hadoop 传感器数据_读取模式错误，计算引擎操作复杂……面对Hadoop这些问题该如何应对？...的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇： python现在时间减去过去时间等于20
下一篇：微小宝公众号排行榜_榜单广东省技工院