日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

大数据项目分析

發(fā)布時間:2023/12/20 编程问答 31 豆豆
生活随笔 收集整理的這篇文章主要介紹了 大数据项目分析 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

隨著社會的進(jìn)步,大數(shù)據(jù)的高需求,高薪資,高待遇,促使很多人都來學(xué)習(xí)和轉(zhuǎn)行到大數(shù)據(jù)這個行業(yè)。學(xué)習(xí)大數(shù)據(jù)是為了什么?成為一名大數(shù)據(jù)高級工程師。而大數(shù)據(jù)工程師能得到高薪、高待遇的能力在哪?自然是項目經(jīng)驗。下面給大家大概介紹一下在阿里的"雙11"、"雙12"、"雙旦"即將到來的"618"與騰訊大數(shù)據(jù)都用上的十二個大數(shù)據(jù)項目:

一個大數(shù)據(jù)分析項目關(guān)鍵構(gòu)成如下:

信息采集組、數(shù)據(jù)清洗組、數(shù)據(jù)融合組、數(shù)據(jù)挖掘組、數(shù)據(jù)可視化組。

根據(jù)每組的名稱很好理解。

信息采集組主要是通過網(wǎng)絡(luò)爬蟲來采集數(shù)據(jù),當(dāng)然還可以根據(jù)業(yè)務(wù)需求,通過不同的方式來采集數(shù)據(jù);

數(shù)據(jù)清洗組主要就是把一些無效的臟數(shù)據(jù)找出來剔除或者替換,任務(wù)量其實很大,因為爬來的數(shù)據(jù)臟數(shù)據(jù)量很大,這個組的工作周期一般很長,任務(wù)也很重;

數(shù)據(jù)融合組主要就是把爬來的課程信息把相似的歸類,有上下級關(guān)系的就按照子類父類的關(guān)系列好,這一組的工作非常不好完成,目前我們做的融合效果不算好,想融合好算是一個難點。

數(shù)據(jù)挖掘組就是拿到可用的數(shù)據(jù)之后通過數(shù)據(jù)挖掘算法,去研究之前設(shè)定好的影響因子之間的因果關(guān)系,主要的分類算法有決策樹、貝葉斯分類、基于規(guī)則的分類、神經(jīng)網(wǎng)絡(luò)、持向量機、懶惰學(xué)習(xí)算法中的K-最近鄰分類和基于案例的推理等算法;

數(shù)據(jù)可視化組顧名思義就是把數(shù)據(jù)挖掘組的成果可視化展示,這樣可以直觀的看到數(shù)據(jù)之間的關(guān)系,并利用數(shù)據(jù)分析和開發(fā)工具發(fā)現(xiàn)其中未知信息的處理過程

了解大數(shù)據(jù)的項目構(gòu)成,那么怎么成功的做成一個項目呢?該怎么去做呢?

成功項目的標(biāo)志

成功很多時候跟失敗是反過來的:

一是項目用例(目標(biāo)/實用價值)清晰。

從上到下,大家都明白這個大數(shù)據(jù)要做什么,包括企業(yè)的財務(wù)主管和具體業(yè)務(wù)部門,比方說營銷部門,這個大數(shù)據(jù)項目是用在營銷部門的,他們也很清楚,負(fù)責(zé)執(zhí)行的技術(shù)部門也很清楚,這個搞清楚了以后,對大家上下一心做好項目是非常重要的。

二是項目規(guī)劃完善+快速迭代研發(fā)試錯穩(wěn)步推進(jìn)。

一個項目規(guī)劃的時候,不要做成規(guī)劃三個月、六個月,你用傳統(tǒng)的老辦法去做,最后發(fā)現(xiàn)實際上第一階段結(jié)束了以后,你去做測試完全沒有達(dá)到你想要的效果。我們做一個大項目要用快速迭代的方法來做,每個星期可以推出一個功能,進(jìn)行快速測試,內(nèi)部市場、外部市場都測試成功,下一個星期就可以進(jìn)行下一個功能的研發(fā)、擴(kuò)展、推廣。這樣的話,可以通過迅速的試錯,比方說第二個星期做的方向不對,或者有些功能沒有辦法實現(xiàn),或者跟我設(shè)計的不一樣,這樣的試錯代價會比較低,不會等到6個月才發(fā)現(xiàn)有重大的錯誤,調(diào)整了以后第三個星期可以接著來,可以換一個方向,可以調(diào)整開發(fā)的內(nèi)容,或者是功能,三個月以后,已經(jīng)經(jīng)過了四、五個星期的測試和研發(fā)了,基本上犯錯的可能性就比較低了。

三是所選技術(shù)符合大數(shù)據(jù)項目功能要求。

很多人都聽說過要上一個大數(shù)據(jù)項目必須要用一些特殊的技術(shù),大數(shù)據(jù)項目最重要的不是選高大上的平臺,或者是特殊的技術(shù),最重要的是選一款符合最初設(shè)計的業(yè)務(wù)功能的技術(shù),這個技術(shù)可能相對來說比較簡單,可能是SAS軟件,或者是JAVA程序,沒必要上高大上的技術(shù),最重要的是符合你的要求。很多企業(yè)選了高大上,最后發(fā)現(xiàn),實際上錢花了很多,但是沒有達(dá)到預(yù)期的要求,因為你選了高大上的東西以后,會影響到各個方面的整合和所需要的數(shù)據(jù)量,預(yù)算會很大,成本也會比較高,很難實現(xiàn)盈利的目標(biāo)。所以最重要的是選一款適合你這個項目目標(biāo)的技術(shù),這個非常重要。

四是項目團(tuán)隊擁有各方面專業(yè)知識技能。

大數(shù)據(jù)技術(shù)就像企業(yè)做的任何一款創(chuàng)新產(chǎn)品和項目一樣,需要雇傭所有的對這個項目有貢獻(xiàn)的,可能會受影響的資源,可能包括人力資源,包括技術(shù)資源,包括市場資源,包括運營資源等等各個方面的資源調(diào)動,形成這么一個團(tuán)隊,上面有領(lǐng)導(dǎo)的支持,中間有大家的共識,最下面的一線執(zhí)行人員也很清楚自己要做什么,這方面要協(xié)調(diào)好,要有專門的技術(shù),這個很重要。

五是項目成果獲得業(yè)務(wù)用例期望成果。?這個項目做了三個月、六個月,做出來了,是不是獲得了業(yè)務(wù)用例期望的結(jié)果,是一個非常重要的標(biāo)志。很多時候,很難是百分之百,一般80%的項目達(dá)不到完全預(yù)期的結(jié)果,可能是80%的預(yù)期達(dá)到了,那已經(jīng)很好了,可能達(dá)到50%,也不錯,因為是一個創(chuàng)新的項目,可以根據(jù)達(dá)到的預(yù)期項目進(jìn)行不停地調(diào)整,最差的是只達(dá)到了20%,很多企業(yè)做的項目結(jié)果,這是一個統(tǒng)計的結(jié)果,是大家能看得見的。根據(jù)業(yè)界的標(biāo)準(zhǔn),到了50%基本上算比較成功了,到了80%就是相當(dāng)好了。 成功大數(shù)據(jù)項目的衡量標(biāo)準(zhǔn)

成功的項目橫向標(biāo)準(zhǔn)是五點:

一是項目在預(yù)定的時間里可以實現(xiàn)或者接近預(yù)定的目標(biāo);

二是這個項目或者產(chǎn)品實現(xiàn)了傳統(tǒng)數(shù)據(jù)方法沒有辦法帶來的特殊的內(nèi)部和外部的商業(yè)價值;

三是在有限的大數(shù)據(jù)投資的條件下,給特定的業(yè)務(wù)帶來的好處可以輕松復(fù)制到其它的業(yè)務(wù)領(lǐng)域,比如說營銷部門獲得的成功會推廣到產(chǎn)品的研發(fā)部門,或者是推廣到業(yè)務(wù)運營部門,這樣會花很小的代價,但是做了更多的事兒。

四是受益的業(yè)務(wù)部門可以運用大數(shù)據(jù)工具進(jìn)行高效便捷的工作,這其實是最直接了當(dāng)?shù)?#xff0c;因為本來我們要做一款大數(shù)據(jù)的產(chǎn)品,或者是服務(wù)項目就是為了提高運營效率和工作效率。

五是通過這個項目實施企業(yè)獲得了新的商業(yè)模式和成長點,這個是最重要的,從戰(zhàn)略的角度講,這個大數(shù)據(jù)產(chǎn)品和項目成功實現(xiàn)了企業(yè)轉(zhuǎn)型和升級。

成功大數(shù)據(jù)項目的路線圖

成功大數(shù)據(jù)的路線圖分為六步:

第一步:確定對企業(yè)業(yè)務(wù)有重大影響的大數(shù)據(jù)用例和創(chuàng)新方向。

第二步:我們要制定基于大數(shù)據(jù)項目的詳盡的產(chǎn)品服務(wù)創(chuàng)新規(guī)劃。

第三步:要詳細(xì)了解大數(shù)據(jù)項目所需要的業(yè)務(wù)功能要求和選擇與之相匹配的技術(shù)。

第四步:就大數(shù)據(jù)項目帶來的商業(yè)利益在企業(yè)內(nèi)部達(dá)成共識。

第五步:我們要選擇容易實現(xiàn)的目標(biāo)入手,快速迭代研發(fā)、試錯、穩(wěn)步推進(jìn)。也就是說不要剛開始就要搞高大上、大而全的項目,因為失敗的幾率幾乎是百分之百,非常容易失敗,因為預(yù)算太大,選的工具太復(fù)雜,調(diào)動的資源很多,很難一下子實現(xiàn)所有的目標(biāo),所以通常我們從一個曉得目標(biāo),容易實現(xiàn)的目標(biāo)開始,這樣可以鼓勵士氣,錯誤犯在研發(fā)的初期,而不是在中期和最后,這個最重要。

第六步:做大數(shù)據(jù)項目和產(chǎn)品一定要挖掘和實現(xiàn)大數(shù)據(jù)能給我們帶來的特殊價值,這是其它的方法或者是其它類的數(shù)據(jù)做不到的,只有實現(xiàn)了這種特殊的價值,我們才能實現(xiàn)業(yè)務(wù)所需要的具體功能,不管是擴(kuò)展市場的份額,或者是更精準(zhǔn)的了解你的客戶需求,還是說你要增加邊際利潤率,或者是提高產(chǎn)品上市的速度,縮短研發(fā)周期,這些都是大數(shù)據(jù)可以做的。另外就是跨界創(chuàng)新,傳統(tǒng)企業(yè)可以通過大數(shù)據(jù)這個紐帶跟其他企業(yè)的業(yè)務(wù)結(jié)合起來。

下面我就給大家介紹一下十二個各個領(lǐng)域都包含的項目案列

1,離線數(shù)據(jù)處理:項目內(nèi)容為通過對網(wǎng)站訪問日志的采集和清洗,結(jié)合數(shù)據(jù)庫中的結(jié)構(gòu)化用戶數(shù)據(jù),統(tǒng)計并展示網(wǎng)站的PV、UV情況,以對網(wǎng)站的運行情況進(jìn)行監(jiān)控。通過此項目,回顧并串聯(lián)前面講述的離線數(shù)據(jù)處理相關(guān)技術(shù),如:FIune、Sqoop、Hive、Spark等,了解和掌握PB級數(shù)據(jù)離線處理的一般過程和架構(gòu)。

2,流式數(shù)據(jù)處理:項目內(nèi)容為通過對數(shù)據(jù)庫交易數(shù)據(jù)修改的實時同步,監(jiān)控網(wǎng)站實時交易情況,以提高網(wǎng)站交易情況監(jiān)控的時效性,降低網(wǎng)站運行的風(fēng)險。 通過此項目,回顧并串聯(lián)前面講述的實時數(shù)據(jù)處理相關(guān)技術(shù),如:kafka、Spark、Streaning和HBase等,了解和掌握實時數(shù)據(jù)處理的一般過程和架構(gòu)。

3,推薦系統(tǒng):項目內(nèi)容,基于公開數(shù)據(jù)庫的商品推薦,某大型互金公司產(chǎn)品推薦系統(tǒng)剖析, 通過對公司實際推薦項目的剖析和根據(jù)真實數(shù)據(jù)搭建推薦系統(tǒng)的實操演練,了解推薦系統(tǒng)的一般架構(gòu)和常用算法。

4,搜索系統(tǒng):項目內(nèi)容,通過網(wǎng)站爬蟲爬取網(wǎng)站數(shù)據(jù),然后基于KlastlcSeard和Klbana搭建一個完整的搜索系統(tǒng)。

5,系統(tǒng)運行情況儀表盤:?通過對網(wǎng)站訪問日志的采集和清洗,結(jié)合數(shù)據(jù)庫中的結(jié)構(gòu)化用戶數(shù)據(jù),統(tǒng)計并展示網(wǎng)站的PV,UV情況,以對網(wǎng)站的運行情況進(jìn)行監(jiān)控。通過此項目,回顧并串聯(lián)前面講述的離線數(shù)據(jù)處理相關(guān)技術(shù),如Flume,Sqoop,Hive,Spark等,掌握PB級數(shù)據(jù)離線處理的一般過程和架構(gòu)。

6,?實時交易監(jiān)控系統(tǒng)?: 過對數(shù)據(jù)庫交易數(shù)據(jù)修改的實時同步,監(jiān)控網(wǎng)站實時交易情況,以提高網(wǎng)站交易情況監(jiān)控的時效性,降低網(wǎng)站運行的風(fēng)險。通過此項目,回顧并串聯(lián)前面講述的實時數(shù)據(jù)處理相關(guān)技術(shù),如Kafka,Spark Streaming和HBase等,掌握實時數(shù)據(jù)處理的一般過程和架構(gòu)。

7,推薦系統(tǒng)理論與實戰(zhàn):?講解推薦系統(tǒng)的相關(guān)背景,常用算法及通用架構(gòu);基于公開數(shù)據(jù)集從零構(gòu)建一個電影推薦系統(tǒng)。通過對公司實際推薦項目的剖析和根據(jù)真實數(shù)據(jù)搭建推薦系統(tǒng)的實操演練,了解推薦系統(tǒng)的一般架構(gòu)和常用算法

8,數(shù)據(jù)倉庫搭建理論與實戰(zhàn):?講解數(shù)據(jù)倉庫搭建的方法論,常用建模理論;以互金公司數(shù)據(jù)倉庫搭建場景作為切入,實例演示數(shù)據(jù)倉庫搭建過程及技術(shù)架構(gòu)。

9,分布式業(yè)務(wù)監(jiān)控系統(tǒng):?講解業(yè)務(wù)監(jiān)控系統(tǒng)需求背景,基于大數(shù)據(jù)的技術(shù)方案;通過實例代碼搭建完整的業(yè)務(wù)監(jiān)控系統(tǒng)

10,基于ES的日志系統(tǒng)?: 基于Flume,ElasticSearch等技術(shù)搭建系統(tǒng)日志收集與查詢系統(tǒng)。

11,信貸需求預(yù)測系統(tǒng):?以京東信貸需求預(yù)測競賽為背景,實例講解數(shù)據(jù)挖掘項目中如何設(shè)計特征,模型基礎(chǔ),建模以及調(diào)參等。

12,用戶畫像系統(tǒng)?: 講解用戶畫像系統(tǒng)的需求背景,基于大數(shù)據(jù)技術(shù)的解決方案;通過實例代碼演示用戶畫像系統(tǒng)的搭建。

轉(zhuǎn)載:https://blog.csdn.net/wj1314250/article/details/80679791

總結(jié)

以上是生活随笔為你收集整理的大数据项目分析的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。