日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

1.1 大数据概论

發(fā)布時(shí)間:2024/3/24 编程问答 29 豆豆
生活随笔 收集整理的這篇文章主要介紹了 1.1 大数据概论 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

?

1.1 大數(shù)據(jù)概論

任務(wù)目的

  • 了解大數(shù)據(jù)的概念及其特征
  • 熟悉大數(shù)據(jù)的典型應(yīng)用場(chǎng)景
  • 了解大數(shù)據(jù)部門的業(yè)務(wù)流程

任務(wù)清單

  • 任務(wù)1:大數(shù)據(jù)概念
  • 任務(wù)2:大數(shù)據(jù)特點(diǎn)
  • 任務(wù)3:大數(shù)據(jù)應(yīng)用場(chǎng)景
  • 任務(wù)4:大數(shù)據(jù)發(fā)展前景
  • 任務(wù)5:業(yè)務(wù)流程分析

任務(wù)1:大數(shù)據(jù)概念

何謂“大數(shù)據(jù)”(Big Data),“大數(shù)據(jù)”計(jì)量單位已經(jīng)超過(guò)TB級(jí)別發(fā)展到PB、EB、ZB、YB甚至是BB級(jí)別。

“大數(shù)據(jù)”是一個(gè)較為抽象的概念,至今尚無(wú)確切、統(tǒng)一的定義,各方對(duì)“大數(shù)據(jù)”給出了10余種不同的定義,比較典型的是:

最早提出“大數(shù)據(jù)”這一概念的全球知名咨詢公司麥肯錫的定義:“大數(shù)據(jù)”是指在一定時(shí)間內(nèi)無(wú)法用傳統(tǒng)數(shù)據(jù)庫(kù)軟件工具采集、存儲(chǔ)、管理和分析其內(nèi)容的數(shù)據(jù)集合。

 研究機(jī)構(gòu)Gartner是這樣定義“大數(shù)據(jù)”的:“大數(shù)據(jù)”是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長(zhǎng)率和多樣化的信息資產(chǎn)。

 若從技術(shù)角度來(lái)看,大數(shù)據(jù)技術(shù)的戰(zhàn)略意義不在于掌握龐大的數(shù)據(jù)信息,而在于對(duì)這些含有意義的數(shù)據(jù)進(jìn)行專業(yè)化處理。如果把大數(shù)據(jù)比作一種產(chǎn)業(yè),那么這種產(chǎn)業(yè)實(shí)現(xiàn)盈利的關(guān)鍵,在于提高對(duì)數(shù)據(jù)的“加工能力”,通過(guò)“加工”實(shí)現(xiàn)數(shù)據(jù)的“增值”。

任務(wù)2:大數(shù)據(jù)特點(diǎn)

  一般認(rèn)為,大數(shù)據(jù)主要具有以下5個(gè)方面的典型特征,即規(guī)模性(Volume)、多樣性(Variety)、高速性(Velocity)、價(jià)值性(Value)、以及真實(shí)性(Veracity),即所謂的5V,接下來(lái),通過(guò)一張圖來(lái)具體描述。

?

  接下來(lái)針對(duì)圖中的 5V 特征進(jìn)行簡(jiǎn)要介紹,具體如下。

1. 規(guī)模性(Volume)

  大數(shù)據(jù)的特征首先就是數(shù)據(jù)規(guī)模大

  從前MP3時(shí)代,一個(gè)小小的MB級(jí)別的MP3就可以滿足很多人的需求,然而隨著時(shí)間的推移,存儲(chǔ)單位從過(guò)去的GB到TB,乃至現(xiàn)在的PB、EB級(jí)別。隨著信息技術(shù)的高速發(fā)展,數(shù)據(jù)開始爆發(fā)性增長(zhǎng)。社交網(wǎng)絡(luò)(微博、推特、臉書)、移動(dòng)網(wǎng)絡(luò)、各種智能工具,服務(wù)工具等,都成為數(shù)據(jù)的來(lái)源。

  淘寶網(wǎng)近4億的會(huì)員每天產(chǎn)生的商品交易數(shù)據(jù)約20TB;臉書約10億的用戶每天產(chǎn)生的日志數(shù)據(jù)超過(guò)300TB。迫切需要智能的算法、強(qiáng)大的數(shù)據(jù)處理平臺(tái)和新的數(shù)據(jù)處理技術(shù),來(lái)統(tǒng)計(jì)、分析、預(yù)測(cè)和實(shí)時(shí)處理如此大規(guī)模的數(shù)據(jù)。

  數(shù)據(jù)相關(guān)計(jì)量單位的換算關(guān)系下表所示:

2. 多樣性(Variety)

  廣泛的數(shù)據(jù)來(lái)源,決定了大數(shù)據(jù)形式的多樣性。大數(shù)據(jù)可以分為三類:

  一是結(jié)構(gòu)化數(shù)據(jù),指的是可以使用關(guān)系型數(shù)據(jù)庫(kù)表示和存儲(chǔ),表現(xiàn)為二維形式的數(shù)據(jù)。一般特點(diǎn)是:數(shù)據(jù)以行為單位,一行數(shù)據(jù)表示一個(gè)實(shí)體的信息,每一行數(shù)據(jù)的屬性是相同的。如財(cái)務(wù)系統(tǒng)數(shù)據(jù)、信息管理系統(tǒng)數(shù)據(jù)、醫(yī)療系統(tǒng)數(shù)據(jù)等;

  二是非結(jié)構(gòu)化的數(shù)據(jù),指的是數(shù)據(jù)結(jié)構(gòu)不規(guī)則或不完整,沒有預(yù)定義的數(shù)據(jù)模型,不方便用數(shù)據(jù)庫(kù)二維邏輯表來(lái)表現(xiàn)的數(shù)據(jù)。如視頻、圖片、音頻等;

  三是半結(jié)構(gòu)化數(shù)據(jù),是結(jié)構(gòu)化數(shù)據(jù)的一種形式,它并不符合關(guān)系型數(shù)據(jù)庫(kù)或其他數(shù)據(jù)表的形式關(guān)聯(lián)起來(lái)的數(shù)據(jù)模型結(jié)構(gòu),但包含相關(guān)標(biāo)記,用來(lái)分隔語(yǔ)義元素以及對(duì)記錄和字段進(jìn)行分層。因此,它也被稱為自描述的結(jié)構(gòu)。半結(jié)構(gòu)化數(shù)據(jù),屬于同一類實(shí)體可以有不同的屬性,即使他們被組合在一起,這些屬性的順序并不重要。如HTML文檔、JSON數(shù)據(jù)、郵件、網(wǎng)頁(yè)等。

  有統(tǒng)計(jì)顯示,目前結(jié)構(gòu)化數(shù)據(jù)占據(jù)整個(gè)互聯(lián)網(wǎng)數(shù)據(jù)量的75%以上,而產(chǎn)生價(jià)值的大數(shù)據(jù),往往是這些非結(jié)構(gòu)化數(shù)據(jù)。

3. 高速性(Velocity)

  數(shù)據(jù)的增長(zhǎng)速度和處理速度是大數(shù)據(jù)高速性的重要體現(xiàn)。與以往的報(bào)紙、書信等傳統(tǒng)數(shù)據(jù)載體生產(chǎn)傳播方式不同,在大數(shù)據(jù)時(shí)代,大數(shù)據(jù)的交換和傳播主要是通過(guò)互聯(lián)網(wǎng)和云計(jì)算等方式實(shí)現(xiàn)的,其生產(chǎn)和傳播數(shù)據(jù)的速度是非常迅速的。

  另外,海量數(shù)據(jù)的背后帶來(lái)的是更大的挑戰(zhàn),即如何快速計(jì)算分析大數(shù)據(jù)已經(jīng)成為當(dāng)下熱門的話題。舉個(gè)常見的例子,我們經(jīng)常使用百度搜索去找自己想要的商品,那么百度是在成千上萬(wàn)的結(jié)果中毫秒級(jí)的找到符合你關(guān)鍵詞的選項(xiàng)呢,這就需要大數(shù)據(jù)的高速處理能力。

4. 價(jià)值性(Value)

  大數(shù)據(jù)的核心特征是價(jià)值,其實(shí)價(jià)值密度的高低和數(shù)據(jù)總量的大小是成反比的,即數(shù)據(jù)價(jià)值密度越高數(shù)據(jù)總量越小,數(shù)據(jù)價(jià)值密度越低數(shù)據(jù)總量越大。

  任何有價(jià)值的信息的提取依托的就是海量的基礎(chǔ)數(shù)據(jù)。當(dāng)然,目前大數(shù)據(jù)背景下有個(gè)未解決的問(wèn)題,如何通過(guò)強(qiáng)大的機(jī)器算法更迅速地在海量數(shù)據(jù)中完成數(shù)據(jù)的價(jià)值提純。

5. 真實(shí)性(Veracity)

  真實(shí)性,其實(shí)就是數(shù)據(jù)的質(zhì)量,海量數(shù)據(jù)并不一定都能反映用戶真實(shí)的行為信息或者客觀事物的真實(shí)信息。以網(wǎng)頁(yè)訪客數(shù)據(jù)為例,很多網(wǎng)站為了賺取更多的廣告費(fèi)用,會(huì)使用作弊機(jī)器人對(duì)廣告進(jìn)行點(diǎn)擊,這樣其實(shí)就造成了作弊流量,而這些流量并不能反映用戶真實(shí)需求。

任務(wù)3:大數(shù)據(jù)應(yīng)用場(chǎng)景

  大數(shù)據(jù)無(wú)處不在,大數(shù)據(jù)應(yīng)用于各個(gè)行業(yè),包括金融、汽車、餐飲、電信、能源、體能和娛樂(lè)等在內(nèi)的社會(huì)各行各業(yè)都已經(jīng)融入了大數(shù)據(jù)的印跡。

1. 電商大數(shù)據(jù)——精準(zhǔn)營(yíng)銷法寶

  電商是最早利用大數(shù)據(jù)進(jìn)行精準(zhǔn)營(yíng)銷的行業(yè),除了精準(zhǔn)營(yíng)銷,電商可以依據(jù)客戶消費(fèi)習(xí)慣來(lái)提前為客戶備貨,并利用便利店作為貨物中轉(zhuǎn)點(diǎn),在客戶下單15分鐘內(nèi)將貨物送上門,提高客戶體驗(yàn)。

  例如:馬云的菜鳥網(wǎng)絡(luò)宣稱的24小時(shí)完成在中國(guó)境內(nèi)的送貨;以及劉強(qiáng)東宣傳未來(lái)京東將在15分鐘完成送貨上門都是基于客戶消費(fèi)習(xí)慣的大數(shù)據(jù)分析和預(yù)測(cè)。

2. 金融大數(shù)據(jù)——財(cái)源滾滾來(lái)

  隨著大數(shù)據(jù)技術(shù)的應(yīng)用,越來(lái)越多的金融企業(yè)也開始投身到大數(shù)據(jù)應(yīng)用實(shí)踐中。

  麥肯錫的一份研究顯示,金融業(yè)在大數(shù)據(jù)價(jià)值潛力指數(shù)中排名第一。

  典型的案例有:花旗銀行利用IBM沃森電腦為財(cái)富管理客戶推薦產(chǎn)品;美國(guó)銀行利用客戶點(diǎn)擊數(shù)據(jù)集為客戶提供特色服務(wù),如有競(jìng)爭(zhēng)的信用額度;招商銀行利用客戶刷卡、存取款、電子銀行轉(zhuǎn)帳、微信評(píng)論等行為數(shù)據(jù)進(jìn)行分析,每周給客戶發(fā)送針對(duì)性廣告信息,里面有顧客可能感興趣的產(chǎn)品和優(yōu)惠信息。

  可見,大數(shù)據(jù)在金融行業(yè)的應(yīng)用可以總結(jié)為以下五個(gè)方面:精準(zhǔn)營(yíng)銷、風(fēng)險(xiǎn)管控、決策支持、效率提升以及產(chǎn)品設(shè)計(jì)

3. 醫(yī)療大數(shù)據(jù)——看病更高效

  大數(shù)據(jù)讓就醫(yī)、看病更簡(jiǎn)單。隨著大數(shù)據(jù)在醫(yī)療行業(yè)的深度融合,大數(shù)據(jù)平臺(tái)積累了海量的病例、病例報(bào)告、治愈方案、藥物報(bào)告等信息資源,所有常見的病例、既往病例等都記錄在案,醫(yī)生通過(guò)有效、連續(xù)的診療記錄,能夠給病人優(yōu)質(zhì)、合理的診療方案。這樣不僅提高醫(yī)生的看病效率,而且能夠降低誤診率,從而讓患者在最短的時(shí)間接受最好的治療。

4. 零售大數(shù)據(jù)——最懂消費(fèi)者

  零售行業(yè)大數(shù)據(jù)應(yīng)用有兩個(gè)層面,一個(gè)層面是零售行業(yè)可以了解客戶消費(fèi)喜好和趨勢(shì),進(jìn)行商品的精準(zhǔn)營(yíng)銷,降低營(yíng)銷成本。另一層面是依據(jù)客戶購(gòu)買產(chǎn)品,為客戶提供可能購(gòu)買的其它產(chǎn)品,擴(kuò)大銷售額,也屬于精準(zhǔn)營(yíng)銷范疇。例如:美國(guó)零售業(yè)的傳奇故事——“啤酒與尿布”。

5. 交通大數(shù)據(jù)——暢通出行

  交通作為人類行為的重要組成和重要條件之一,對(duì)于大數(shù)據(jù)的感知也是最急迫的。目前,交通的大數(shù)據(jù)應(yīng)用主要在兩個(gè)方面,一方面可以利用大數(shù)據(jù)傳感器數(shù)據(jù)來(lái)了解車輛通行密度,合理進(jìn)行道路規(guī)劃包括單行線路規(guī)劃。另一方面可以利用大數(shù)據(jù)來(lái)實(shí)現(xiàn)即時(shí)信號(hào)燈調(diào)度,提高已有線路運(yùn)行能力。

6. 輿情監(jiān)控大數(shù)據(jù)——名偵探柯南

  《黑貓警長(zhǎng)》大家都很熟悉,它講述的是“黑貓警長(zhǎng)”如何精明能干、對(duì)壞人窮追不舍、跌宕起伏的故事情節(jié)。拿到大數(shù)據(jù)時(shí)代背景下的話,雖然它也能體現(xiàn)“黑貓警長(zhǎng)”的盡職盡責(zé)、聰明能干,但更多的會(huì)歸結(jié)到一個(gè)問(wèn)題:為何還是如此的被動(dòng)、低效?疾病可以預(yù)防,難道犯罪不能預(yù)防么?

  答案是肯定的。國(guó)家正在將大數(shù)據(jù)技術(shù)用于輿情監(jiān)控,其收集到的數(shù)據(jù)除了解民眾訴求,降低群體事件之外,還可以用于犯罪管理。

任務(wù)4:大數(shù)據(jù)發(fā)展前景

1. 大數(shù)據(jù)發(fā)展前景之國(guó)家政策

  黨的十八大提出“實(shí)施國(guó)家大數(shù)據(jù)戰(zhàn)略”,國(guó)務(wù)院印發(fā)《促進(jìn)大數(shù)據(jù)發(fā)展行動(dòng)綱要》,大數(shù)據(jù)技術(shù)和應(yīng)用處于創(chuàng)新突破期,國(guó)內(nèi)市場(chǎng)需求處于爆發(fā)期,我國(guó)大數(shù)據(jù)產(chǎn)業(yè)面臨重要的發(fā)展機(jī)遇。

  黨的十九大提出“推動(dòng)互聯(lián)網(wǎng)、大數(shù)據(jù)、人工智能和實(shí)體經(jīng)濟(jì)深度融合”。

?

2. 大數(shù)據(jù)發(fā)展前景之國(guó)際方面

  國(guó)際數(shù)據(jù)公司IDC預(yù)測(cè),到2020年,企業(yè)基于大數(shù)據(jù)計(jì)算分析平臺(tái)的支出將突破5000億美元。目前,我國(guó)大數(shù)據(jù)人才只有46萬(wàn),未來(lái)3到5年人才缺口達(dá)150萬(wàn)之多。

?

3. 大數(shù)據(jù)發(fā)展前景之高校方面

  2016年北京大學(xué)、對(duì)外經(jīng)濟(jì)貿(mào)易大學(xué)、中南大學(xué)首次成功申請(qǐng)到“數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)”本科新專業(yè)。2017年,第二批32所高校獲批。2018年教育部最新公布的高校新增專業(yè)名單中,有248所學(xué)校獲批,是過(guò)去兩次審批通過(guò)額度近8倍。

?

  目前,全國(guó)共有283所本科高校開設(shè)“數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)”專業(yè),270所高職院校成功申報(bào)“大數(shù)據(jù)技術(shù)與應(yīng)用”專業(yè),199所本科高校在建設(shè)人工智能專業(yè)。

任務(wù)5:業(yè)務(wù)流程分析

  • 產(chǎn)品人員提需求:統(tǒng)計(jì)總用戶數(shù)、日活躍用戶數(shù)、回流用戶數(shù)等
  • ?

    ? ? ?2.數(shù)據(jù)部門搭建數(shù)據(jù)平臺(tái)、分析數(shù)據(jù)指標(biāo)

    ?

    ? ? ?3.數(shù)據(jù)可視化(報(bào)表展示,郵件發(fā)送,Echarts)

    ?

    ?

    總結(jié)

    以上是生活随笔為你收集整理的1.1 大数据概论的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

    如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。