日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

小草说----大数据和机器学习为什么这样火

發布時間:2023/12/14 编程问答 16 豆豆
生活随笔 收集整理的這篇文章主要介紹了 小草说----大数据和机器学习为什么这样火 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

小草說—-大數據和機器學習為什么這樣火

標簽(空格分隔): SPARK機器學習


歡迎關注小小草的微信號:大數據機器學習。日后不定期分享大數據,機器學習的學習資料與博文,希望與大家共同學習進步~


很多年前,當我還在應付著微分方程,條件概率,用問卷星寫抽樣調查報告在QQ群發求填,對著30多條就被稱為大樣本的數據做檢驗和回歸的時候,“大數據”的概念已經如火如荼地在微博圈和朋友圈里圈圈相傳了。

但是到底大數據是什么,和我們生活有什么關系,企業是怎么“大數據”的,它到底在星星之火,還是燃燒燎原,到底是蹣跚隕落還是晨輝未起呢?一切都似乎神秘不可窺探。

寫這篇文章絕不是給大家科普,小女子尚未到達大談己論的火候,只當是對我接觸大數據與機器學習以來所思所想所見所學的一道梳理與記錄。

大數據有多大?

大數據是數據,就像紅蘋果是蘋果,美少女是少女一樣,只是加上了一個平無奇常的定語,便賦予了獨有的屬性———“大”!這里我說不出它有多大,也不知道大小的界線,每個企業的數據量都不同,要不你自行腦補一下,大到沒地方存儲,大到簡單的計算都非常慢非常吃力,就像一個大胖子,全身的肉都下垂到地上了,動一下都汗流浹背,張嘴講話都挪不動臉上的肉,哈哈。

數據來自何處?

我將數據的來源分成三大類:

第一,公司自有的用戶行為數據,公司有自己的網站,只要有用戶打開了這個網站,所有的操作與行為都會被詳細記錄,包括從什么頁面跳轉過來,進入網站各個頁面的時間點,在每個頁面停留的時間段,用戶的IP,通過IP號還可以知道用戶所在的城市與區域,當然每個用戶在網站上的購買行為等等都是公司的可以自由支配的數據。如此一來,擁有越多活躍用戶的網站將掌握越豐富的數據,從而也可以從數據中挖掘更多意想不到的價值,比如淘寶,京東,攜程網等等。

第二,與其他數據龍頭的公司合作,所謂數據龍頭公司,就是上一點中那些擁有巨大數據的公司,如果有資源與人脈,你也許可以與淘寶合作,獲得一部分你想要的消費行為數據,從而實現你的分析需求。另外,像電信,移動這類巨頭,如果能合作,便可以獲得用戶的上網行為數據,只要你上網,那么你的所有網絡行為在電信都是有記錄的,通過數據挖掘可能會獲得巨大的商業價值。

第三,爬蟲爬取數據。爬蟲可以模擬人登入各類網站,然后爬取網站上的數據與內容,比如可以爬取大眾點評上所有店的信息,包括它的評價數,評分,地址,類別等。只要網站上有這個信息,便能獲得。爬蟲的缺點是,許多網站,比如微博會有反爬蟲的措施,一個IP號反復登入超過某個頻率便會被拉黑;另外,登入許多網站時需要輸入驗證碼也是一中反爬蟲的方式,扭曲的字母與數字人可以看清但機器卻時常難以分辨。

以上三種是我所接觸到的主要的數據獲取方式。

在這里說個小小題外話,我之前一直想為什么咨詢公司現在很少有將大數據結合起來的,現在想到可能的原因是咨詢公司沒有自己的數據,企業寧可自己高額招聘分析人員也絕不可能將自己數據交給咨詢公司去做診斷與分析,況且數據是接連不斷的,而咨詢公司提供的服務是一時的。(感覺這里還是有新的商業模式可以挖掘的,各位客官如何看?)

大數據存儲在哪里?

每天產生幾億的數據,要源源不斷地增量存儲,而且數據的格式多姿多彩,傳統的方式肯定無法再滿足了。購買高性能的大型服務器,不但昂貴,而且也只能滿足一時的數據量。

此時,我要普及一個很重要的概念————“分布式”。什么是分布式呢,舉一個簡單的例子,一臺普通的電腦(假設8G內存,4核,1T硬盤),當我的數據超過1T的時候,我又買了臺電腦,將這兩臺電腦部署在一起,我就可以存2T的數據了,同理,隨著數據量不斷的擴大,我可以不斷地買新電腦加入這個集群,我的數據通過某種機制被分布在了多臺電腦上,同時會有一個入口讓你自由存取集群里的數據。我們稱每臺PC為一個節點,在這些節點組成的大家庭中,有一個主節點如同皇帝,其他為從節點如同各地方的官員,形成了一個從容運行的生態系統。原來在單臺電腦上需要運行10個小時的算法程序,在集群中可能只需要1個小時(因為內存,核數增多了)。這就是所謂的“分布式”,它還帶著另一個優點,就是可擴展,集群的大小可以根據企業的發展和數據增量來自由擴展。
這樣是不是比去買一臺相同性能的大型服務器要棒好多呢~

了解了分布式的概念,你可能會問,那總要有個工具或者載體能夠把這些獨立的PC連接起來形成一個集群的呀~對呀,我現在就要介紹一下hadoop,這個詞我第一次聽到是在一門研究生課上,有一張PPT一閃而過我卻一直記著這個詞,后來學了hadoop開發才對它有進一步的了解。hadoop 現在最穩定的是版本2,Hadoop2現在由三個部分組成:hdfs, yarn,mapreduce

hdfs是分布式存儲數據的文件系統,里面也有一臺節點為皇帝叫namenode,負責管理其他從節點,其他節點叫datanode,按塊存儲著數據,并且聽從namenode的差遣;

mapreduce是一個計算框架,當我們想對數據就行分析的時候,就會從hdfs上讀取數據然后通過mapreduce進行計算,計算完的結果同樣可以存儲會hdfs上;

yarn是一個資源調度框架,集群里有那么多pc組成,那么在mapreduce執行計算任務的時候,誰干什么,誰有多少資源,以及任務的執行都是歸yarn管的。

hadoop的主要成員各司其職,形成了一個核心的大數據框架。

具體他們的運行原理我在這里就不長篇大論地講了,有興趣的小伙伴可以關注我的公眾號,我會定期發送筆記與學習文檔給大家。(話說現在hadoop3版本據說已經出來了)

在這個hadoop集群中,我們照樣可以安裝mysql等關系型數據庫,也可以安裝hbase這樣的列式存儲的數據庫,來實現數據的存儲與讀取,我有許多朋友都在從事hadoop大數據開發的工作,在企業無論大小,都在嘗試著部署自己的大數據集群,因為在利用數據之前,建立一個有效的系統能穩定安全高效地將數據有條有序地存放好是關鍵首步。

大數據如何分析?

說起分析,我覺得其實是企業大張旗鼓,費盡心機投身于大數據的關鍵與核心。撇開賣數據來賺錢,數據其實不產生實際的價值,只有通過分析數據,幫助企業決策與定位,從而提高企業業績,才能產生真正的價值。那么分析的過程就尤為重要了。

我自定義將數據分析的程度分成兩類,一類是淺層的描述分析;一類是深層的建模分析。

之所以這樣分,是因為企業不同的發展程度與業務需求,對于現階段數據分析的程度也不同。去拉勾網,前程無憂等招聘網站搜索數據分析師,不同企業的要求是不同的。

有些企業只要求你掌握mysql,sql server等關系型數據庫和nosql查詢,甚至有些還停留在熟練使用excel上。這類企業可能只需要通過sql去增刪查減數據,為各業務部門提供銷售,經營,供應鏈等數據的報表,在計算上涉及加減乘除以及其他描述性統計的功能。

第二類企業會需要你使用SAS,SPSS,Eviews等分析工具,這些工具能不僅能實現增刪查減與描述性統計的功能,還能夠使用其中的功能進行數據建模分析,不會寫coding的小伙伴也可以使用它們的圖形化界面去靈活操作。

第三類企業會進入更深層次,它們不但需要你掌握sql,還需要你能熟練利用R,Python語言進行數據挖掘,進行數據建模。R和Python有非常豐富的算法包可以直接調用,但對于一些不常用的算法,分析師也需要自己用代碼寫算法程序。

第四類企業是在第三類企業基礎上的大數據升華。隨著數據量增大,單純地將python,R在本地機器上運行已經無法承載了,于是目前有一個備受青睞的框架————Spark! Spark是一種內存計算框架,比起hadoop的mapreduce速度簡直是神一樣的存在。Spark的具體介紹我過后再驚心動魄地和大家講解,在這里只說它的兩個優點,第一它也封裝了越來越多的機器學習的包,我們可以直接調用;第二它支持R,Python,Java,Scala四種語言,就是說你只要會其中任何一種,都可以使用Spark去實現快速地算法程序。原來要跑幾個小時,現在輕松幾分鐘,是不是高效地不要不要的~

以上就是目前比較普遍的分析情形,隨著數據量的增大,像Spark這類框架也許會持續走紅,企業們也正在向大數據領域逐漸地學習與嘗試。

大數據分析之機器學習

上面說了Spark機器學習,機器學習其實是由來已久的,大家記不記得大學里概率論這門課中會教條件概率,樸素貝葉斯公式,全概率公式,那么這個樸素貝葉斯其實就是機器學習中的一種分類算法。你的QQ郵箱分辨垃圾郵件與非垃圾郵件,沃爾瑪可能會將消費者分為有錢消費者和普通消費者,信用卡部會將用戶分為正常用戶和潛在的違約用戶等等,可能背后都會涉及到貝葉斯算法。分類的算法還有支持向量機,決策樹,邏輯回歸。

另外還有一種最常見的機器學習算法是推薦算法,比如酷狗音樂向你推薦你可能喜歡的歌曲,優酷向你推薦你可能喜歡的電影,淘寶和京東向你推薦你可能喜歡的商品,你自己都不知道懷孕了亞馬遜就向你推送胎教音樂了,等等這些背后都是推薦算法的運作。推薦算法分為基于用戶的推薦與基于物品的推薦,還是一樣,后續文章我會對這些算法詳細說明。

所謂機器學習就是讓機器去學習一組數據,找到從中隱晦的規律,建立模型,當下一個數據進來的時候,機器能根據這個模型做出準確地預測。機器學習的這些算法在金融領域的量化投資上也是十分常用。

那么你可能會問了,貝葉斯這些東東幾十年前國外的論文就一大堆,其理論早就成熟了,為啥機器學習現在才火起來呢?這個原因我之前自己想過,上周領導給我們培訓的時候,我發現想的和領導一樣,所以我才敢在這里大談一下,哈哈。

其實很簡單,成熟的理論無法用到實踐中產生商業價值自然得不到人們的關注,也只有數學家和學術研究者對其錯綜復雜的推導之美愛之深切(曾經有位老師在課上推導了一黑板的公式,然后望著黑板,由心而生地感嘆了一句“so beautiful!”,我才理解他們的感情)。那么現在情況變了,商人也好,程序員也好,已經開始目不轉睛地愛上了數據挖掘,晦澀難懂又無法商業化的公式和算法,如今已經可以通過一些大數據的工具(比如SPARK)活靈活現地巧妙應用了,從數據的獲取到價值的展示短短的幾天甚至一天就可以實現。你叫它怎么能不火起來呢,哈哈。

有些小伙伴會說機器學習和大數據很多年前就火過一段時間了,好像也沒啥花頭。我個人覺得,之前的火是燃燒在人們“口中”,現在的火是點燃在“企業的實踐中”,之前是大公司一家獨大,現在是中小企業人人皆可嘗試。

結束語

能看到這里的小伙伴真是不容易,歡迎點個贊讓我知道你們是誰,哈哈。

另外要注明的是,以上所有言論都是我的一家之言,錯誤的地方希望小伙伴們能指正。

再另外,感興趣的小伙伴歡迎關注我的公眾號,文章都是自己寫的,以后會不斷更新,有技術資料也有文藝日志。

再另外,我不是程序員,也不準叫我女程序員。

掃描二維碼,關注小草-墨色鳳舞的微信公眾號,本小草是一顆偽程序猿草,和,偽文藝草,等待大家帶我飛

總結

以上是生活随笔為你收集整理的小草说----大数据和机器学习为什么这样火的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。