日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

《大数据导论》一第1章 理解大数据

發布時間:2025/1/21 编程问答 100 豆豆
生活随笔 收集整理的這篇文章主要介紹了 《大数据导论》一第1章 理解大数据 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
本節書摘來自華章出版社《大數據導論》一書中的第1章,第1.1節,作者托馬斯·埃爾(Thomas?Erl),瓦吉德·哈塔克(Wajid?Khattak),保羅·布勒(Paul?Buhler),更多章節內容可以訪問云棲社區“華章計算機”公眾號查看。


第1章

理解大數據

大數據是一門專注于對大量的、頻繁產生于不同信息源的數據進行存儲、處理和分析的學科。當傳統的數據分析、處理和存儲技術手段無法滿足當前需求的時候,大數據的實踐解決方案就顯得尤為重要。具體地說,大數據能滿足許多不同的需求,例如,將多個沒有聯系的數據集結合在一起,或是處理大量非結構化的數據,抑或是從時間敏感的行為中獲取隱藏的信息等。

雖然大數據看起來像是一門新興的學科,卻已有多年的發展歷史。對大型數據集的管理與分析是一個存在已久的問題—從利用勞動密集方法進行早期人口普查的工作,到計算保險收費背后的精算學科,都涉及這個方面的問題,大數據就由此發展起來。

作為對傳統的基于統計學分析方法的優化,大數據加入了更加新的技術,利用計算資源和方法的優勢來執行分析算法。在當今數據集持續地擴大化、擴寬化、復雜化和數據流化的背景之下,這種優化十分重要。自《圣經》時代以來,統計學方法一直在告訴我們通過抽樣調查的手段能夠粗略地測量人口。但計算機科學目前的發展使我們完全有能力處理那樣龐大的數據集,因此抽樣調查的手法正在逐漸“失寵”。

對于大數據的數據集的分析是一項綜合數學、統計學、計算機科學等多項專業學科的跨學科工作。這種多學科、多觀點的混合,常常會使人對大數據及大數據分析這門學科所涵蓋的內容產生疑問,每個人都會有不同的見解。大數據問題所涵蓋的內容范圍也會隨著軟硬件技術的更新而變化。這是因為我們在定義大數據的時候考慮了數據特征對于數據解決方案本身的影響。比如30年前,1GB的數據就稱得上是大數據,而且我們還會為這份數據專門申請計算資源,而如今,1GB的數據十分常見,面向消費者的設備就能對其進行快速的存儲、轉移、復制或者其他處理。

大數據時代下的企業數據,常常通過各種應用、傳感器以及外部資源聚集到企業的數據集中。這些數據經過大數據解決方案的處理后,能夠直接應用于企業,或者添加到數據倉庫中豐富現有的數據。這種大數據解決方案處理的結果,將會給我們帶來許多深層知識和益處,例如:

運營優化

可實踐的知識

新市場的發現

精確的預測

故障和欺詐的檢測

詳細的信息記錄

優化的決策

科學的新發現

顯然,大數據的應用面和潛在優勢十分廣闊。然而,在何時選用大數據分析手段的問題上,還有大量的問題需要考慮。當然,我們需要去理解這些存在的問題,并與大數據的優勢進行權衡,最終才能做出一個合理的決策并提出合適的解決方案。這些內容我們將在第二部分單獨討論。

1.1 概念與術語

作為開端,我們首先要定義幾個基本概念和術語,以便大家理解。

1.1.1 數據集

我們把一組或者一個集合的相關聯的數據稱作數據集。數據集中的每一個成員數據,都應與數據集中的其他成員擁有相同的特征或者屬性。以下是一些數據集的例子:

存儲在一個文本文件中的推文(tweet)

一個文件夾中的圖像文件

存儲在一個CSV格式文件中的從數據庫中提取出來的行數據

存儲在一個XML文件中的歷史氣象觀測數據

圖1.1中顯示了三種不同數據格式的數據集。


1.1.2 數據分析

數據分析是一個通過處理數據,從數據中發現一些深層知識、模式、關系或是趨勢的過程。數據分析的總體目標是做出更好的決策。舉個簡單的例子,通過分析冰淇淋的銷售額數據,發現一天中冰淇淋甜筒的銷量與當天氣溫的關系。這個分析結果可以幫助商店根據天氣預報來決定每天應該訂購多少冰淇淋。通過數據分析,我們可以對分析過的數據建立起關系與模式。圖1.2顯示了代表數據分析的符號。


1.1.3 數據分析學

數據分析學是一個包含數據分析,且比數據分析更為寬泛的概念。數據分析學這門學科涵蓋了對整個數據生命周期的管理,而數據生命周期包含了數據收集、數據清理、數據組織、數據分析、數據存儲以及數據管理等過程。此外,數據分析學還涵蓋了分析方法、科學技術、自動化分析工具等。在大數據環境下,數據分析學發展了數據分析在高度可擴展的、大量分布式技術和框架中的應用,使之有能力處理大量的來自不同信息源的數據。圖1.3顯示了代表數據分析學的符號。


大數據分析(學)的生命周期通常會對大量非結構化且未經處理過的數據進行識別、獲取、準備和分析等操作,從這些數據中提取出能夠作為模式識別的輸入,或者加入現有的企業數據庫的有效信息。

不同的行業會以不同的方式使用大數據分析工具和技術。以下述三者為例:

在商業組織中,利用大數據的分析結果能降低運營開銷,還有助于優化決策。

在科研領域,大數據分析能夠確認一個現象的起因,并且能基于此提出更為精確的預測。

在服務業領域,比如公眾行業,大數據分析有助于人們以更低的開銷提供更好的服務。

大數據分析使得決策有了科學基礎,現在做決策可以基于實際的數據而不僅僅依賴于過去的經驗或者直覺。根據分析結果的不同,我們大致可以將分析歸為以下4類:

描述性分析

診斷性分析

預測性分析

規范性分析

不同的分析類型將需要不同的技術和分析算法。這意味著在傳遞多種類型的分析結果的時候,可能會有大量不同的數據、存儲、處理要求。如圖1.4所示,生成高質量的分析結果將加大分析環境的復雜性和開銷。


1.描述性分析

描述性分析往往是對已經發生的事件進行問答和總結。這種形式的分析需要將數據置于生成信息的上下文中考慮。

相關問題可能包括:

過去12個月的銷售量如何?

根據事件嚴重程度和地理位置分類,收到的求助電話的數量如何?

每一位銷售經理的月銷售額是多少?

據估計,生成的分析結果80%都是自然可描述的。描述性分析提供了較低的價值,但也只需要相對基礎的訓練集。

如圖1.5所示,進行描述性分析常常借助即席報表和儀表板(dashboard)。報表常常是靜態的,并且是以數據表格或圖表形式呈現的歷史數據。查詢處理往往基于企業內部存儲的可操作數據,例如客戶關系管理系統(CRM)或者企業資源規劃系統(ERP)。


2.診斷性分析

診斷性分析旨在尋求一個已經發生的事件的發生原因。這類分析的目標是通過獲取一些與事件相關的信息來回答有關的問題,最后得出事件發生的原因。

相關的問題可能包括:

為什么Q2商品比Q1賣得多?

為什么來自東部地區的求助電話比來自西部地區的要多?

為什么最近三個月內病人再入院的比率有所提升?

診斷性分析比描述性分析提供了更加有價值的信息,但同時也要求更加高級的訓練集。如圖1.6所示,診斷性分析常常需要從不同的信息源搜集數據,并將它們以一種易于進行下鉆和上卷分析的結構加以保存。而診斷性分析的結果可以由交互式可視化界面顯示,讓用戶能夠清晰地了解模式與趨勢。診斷性分析是基于分析處理系統中的多維數據進行的,而且,與描述性分析相比,它的查詢處理更加復雜。

3.預測性分析

預測性分析常在需要預測一個事件的結果時使用。通過預測性分析,信息將得到增值,這種增值主要表現在信息之間是如何相關的。這種相關性的強度和重要性構成了基于過去事件對未來進行預測的模型的基礎。這些用于預測性分析的模型與過去已經發生的事件的潛在條件是隱式相關的,理解這一點很重要。如果這些潛在的條件改變了,那么用于預測性分析的模型也需要進行更新。


預測性分析提出的問題常常以假設的形式出現,例如:

如果消費者錯過了一個月的還款,那么他們無力償還貸款的幾率有多大?

如果以藥品B來代替藥品A的使用,那么這個病人生存的幾率有多大?

如果一個消費者購買了商品A和商品B,那么他購買商品C的概率有多大?

預測性分析嘗試著預測事件的結果,而預測則基于模式、趨勢以及來自于歷史數據和當前數據的期望。這將讓我們能夠分辨風險與機遇。

這種類型的分析涉及包含外部數據和內部數據的大數據集以及多種分析方法。與描述性分析和診斷性分析相比,這種分析顯得更有價值,同時也要求更加高級的訓練集。如圖1.7所示,這種工具通常通過提供用戶友好的前端接口對潛在的錯綜復雜的數據進行抽象。


4.規范性分析

規范性分析建立在預測性分析的結果之上,用來規范需要執行的行動。其注重的不僅是哪項操作最佳,還包括了其原因。換句話說,規范性分析提供了經得起質詢的結果,因為它們嵌入了情境理解的元素。因此,這種分析常常用來建立優勢或者降低風險。

下面是兩個這類問題的樣例:

這三種藥品中,哪一種能提供最好的療效?

何時才是拋售一只股票的最佳時機?

規范性分析比其他三種分析的價值都高,同時還要求最高級的訓練集,甚至是專門的分析軟件和工具。這種分析將計算大量可能出現的結果,并且推薦出最佳選項。解決方案從解釋性的到建議性的均有,同時還能包括各種不同情境的模擬。

這種分析能將內部數據與外部數據結合起來。內部數據可能包括當前和過去的銷售數據、消費者信息、產品數據和商業規則。外部數據可能包括社會媒體數據、天氣情況、政府公文等等。如圖1.8所示,規范性分析涉及利用商業規則和大量的內外部數據來模擬事件結果,并且提供最佳的做法。


1.1.4 商務智能

商務智能(BI)通過分析由業務過程和信息系統生成的數據讓一個組織能夠獲取企業績效的內在認識。分析的結果可以用于改進組織績效,或者通過修正檢測出的問題來管理和引導業務過程。商務智能在企業中使用大數據分析,并且這種分析通常會被整合到企業數據倉庫中以執行分析查詢。如圖1.9所示,商務智能的輸出能以儀表板顯示,它允許管理者訪問和分析數據,且可以潛在地改進分析查詢,從而對數據進行深入挖掘。


1.1.5 關鍵績效指標

關鍵績效指標(KPI)是一種用來衡量一次業務過程是否成功的度量標準。它與企業整體的戰略目標和任務相聯系。同時,它常常用來識別經營業績中的一些問題,以及闡釋一些執行標準。因此,KPI通常是一個測量企業整體績效的特定方面的定量參考指標。如圖1.10所示,它常常通過專門的儀表板顯示。儀表板將多個關鍵績效指標聯合起來展示,并且將實測值與關鍵績效指標閾值相比較。


總結

以上是生活随笔為你收集整理的《大数据导论》一第1章 理解大数据的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。