日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

《Spark与Hadoop大数据分析》——1.2 大数据科学以及Hadoop和Spark在其中承担的角色...

發布時間:2025/7/14 编程问答 33 豆豆
生活随笔 收集整理的這篇文章主要介紹了 《Spark与Hadoop大数据分析》——1.2 大数据科学以及Hadoop和Spark在其中承担的角色... 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

1.2 大數據科學以及Hadoop和Spark在其中承擔的角色

數據科學的工作體現在以下這兩個方面:

要從數據中提取其深層次的規律性,意味著要使用統計算法提煉出有價值的信息。數據產品則是一種軟件系統,其核心功能取決于對數據的統計分析和機器學習的應用。Google AdWords或Facebook里的“你可能認識的人”就是數據產品的兩個例子。

1.2.1 從數據分析到數據科學的根本性轉變

從數據分析到數據科學的根本轉變的根源,是對更準確的預測和創建更好的數據產品需求的不斷增長。

讓我們來看一個示例,其中解釋了數據分析和數據科學之間的差異。

問題:某大型電信公司有多個呼叫中心,負責收集呼叫者信息并將其存儲在數據庫和文件系統中。該公司已經對呼叫中心數據實施數據分析,提供了以下分析結果:

現在,該電信公司希望減少客戶流失,改善客戶體驗,提高服務質量,并通過以接近實時的方式了解客戶的情況,進行交叉銷售和向上銷售。

解決方案:分析客戶的聲音。客戶的聲音比任何其他信息都有更深刻的含義。我們可以使用CMU Sphinx等工具將所有呼叫轉換為文本,并在Hadoop平臺上進行擴展。我們可以進行文本分析以從數據中獲取分析結果,獲得高精確度的呼叫–文本轉換,創建適合該公司的模型(語言和聲學),并根據業務發生變化的頻度,隨時重新訓練模型。此外,可以利用機器學習和自然語言處理(natural language processing,NLP)技術創建用于文本分析的模型,提供以下指標,合并到數據分析的指標里:

請注意,這個用例的業務需求產生了從數據分析到實現機器學習和NLP算法的數據科學的根本轉變。為了實施這個解決方案,需要使用新的工具和技術,還需要一個新的角色:數據科學家。

數據科學家具備多種技能—統計、軟件編程和業務專業知識。數據科學家能夠創建數據產品,并從數據中提煉出價值。讓我們來看看數據科學家與其他角色有什么不同。這會有助于我們理解在數據科學和數據分析項目中有哪些角色,以及他們要承擔哪些工作。

1. 數據科學家與軟件工程師

數據科學家和軟件工程師角色之間的區別如下:

2. 數據科學家與數據分析師

數據科學家和數據分析師角色之間的區別如下:

3. 數據科學家與業務分析師

數據科學家和業務分析師角色之間的區別如下:

1.2.2 典型數據科學項目的生命周期

讓我們學習如何了解和執行典型的數據科學項目。

從圖1-4中所示的典型數據科學項目的生命周期可以看出,數據科學項目的生命周期是迭代的,而如圖1-3所示的數據分析項目的生命周期卻不是迭代的。在對項目結果進行改善的情況下,定義問題和結果以及溝通這兩個階段沒有包含在迭代中。然而,整個項目的生命周期是迭代式的,它需要在生產實施后不斷地改進。

在數據預處理階段,定義問題和結果的步驟與數據分析項目類似,如圖1-3所示。所以,讓我們來討論數據科學項目所需的新步驟。

1. 假設和建模

對于具體問題,要考慮所有能夠和預期結果相匹配的可行解決方案。這通常涉及關于這個問題的根本原因的假設。這樣,關于業務狀況的問題就會浮現出來,例如為什么客戶會取消服務,為什么支持電話會顯著增加,以及為什么客戶會放棄購物車。

如果我們對數據有更深入的理解,根據某個假設就可以確定合適的模型。這就關系到理解數據的屬性及其相互關系,并通過定義用于測試、訓練和生產的數據集來構建建模所需的環境。我們可以利用機器學習算法(如邏輯回歸、K均值聚類、決策樹或樸素貝葉斯等)來構建合適的模型。

2. 衡量有效性

模型的執行是通過針對數據集運行確定的模型來進行的。通過利用正確的輸出對結果進行核對可以衡量模型的有效性。我們可以使用測試數據驗證結果,并創建像均方差(Mean Squared Error,MSE)之類衡量有效性的指標。

3. 做出改進

從衡量結果可以看到需要改進的程度有多大。要考慮你會做出哪些改變。你可以問自己以下問題:

一旦你實施了改進措施,就要對它們再次進行測試,并將它們與以前的衡量結果進行比較,以進一步改進解決方案。

4. 交流結果

針對結果的交流是數據科學項目生命周期中的重要一步。數據科學家描述數據中的發現的方式是把這些發現和業務問題關聯起來。報表和儀表板是交流結果的常用工具。

1.2.3 Hadoop和Spark 承擔的角色

Apache Hadoop為你提供了分布式存儲和資源管理功能,而Spark為你提供了數據科學應用程序所需的內存級性能。對于數據科學項目來說,Hadoop和Spark有以下的優點:

總結

以上是生活随笔為你收集整理的《Spark与Hadoop大数据分析》——1.2 大数据科学以及Hadoop和Spark在其中承担的角色...的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。