云计算大会有感—MapReduce和UDF
生活随笔
收集整理的這篇文章主要介紹了
云计算大会有感—MapReduce和UDF
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
(轉載請注明出處:http://blog.csdn.net/buptgshengod)
1.參會有感
? ? ? 首先還是非常感謝CSDN能給我票,讓我有機會參加這次中國云計算峰會。感覺不寫點什么對不起CSDN送我的門票(看到網上賣一千多一張呢)。 ? ? ? ? 還是得從國家會議中心說起,兩年前lz曾經在那當過IDF的志愿者,當時是純體力勞動,負責給參會人員發一些雜志什么的,當時苦逼的為了多蹭一個盒飯躲到柜子后面直到開飯。真沒想到兩年后可以以來賓的身份參加國家會議中心的大會(雖然午餐還是苦逼的盒飯吧),這次真的可以走進主會議場聆聽專家們的報告。說實話,一進主會議場看到幾千個碼農,都是差不多的裝扮,真的有點小震撼。 ? ? ? ? 聽了幾個院士和運營商老總的報告,最震撼的還是微軟副總裁王亞勤先生的演講,感覺挺震撼的。不得不說微軟就是微軟(大家可以搜搜這段演講看一下),他說的有一句話很有意思“從互聯網讓我們從物理變為虛擬,現在云讓我們從虛擬變回物理”(沒看懂的可以留言討論哈)。 ? ? ? ? 參加這次大會不是為了學一個算法或是什么,應該是從宏觀上了解云的發展。李德毅院士說:云就是計算P級數據的能力。確實,隨著數據過剩的時代已經到來。數據成了解決問題的基礎,算法是解決問題的工具,云就是我們的途徑。2.云就在身邊
? ? ?下面寫下我最近在操作阿里云的一些感受,博主參加了阿里的天貓大數據競賽,靠著抱大腿戰術成功入圍S2,阿里給每個進入S2階段的隊伍開設了服務器端的賬號。先秀一下,阿里云端的虛擬機界面,(苦逼的xp)下面一行黑色的就是阿里云odps的命令行工具,在里面可以進行數據庫操作,主要是sql語句。我的理解是這個odps就是hadoop的改版,不知道這種說法對不對。 ? ? ? ? 記得當年,我們寢室的czx問我們幾個什么是云,旭哥說了:“我覺得云就是分布式?!?/span>
(1)MR ? ? ? ?
? ? ? ? 分布式就是將大量的數據運算按照一定規則分配到云上的無數個服務器上,并行完成,這樣就可以極大地提高運算效率。然而,如何分配,計算完又如何將數據匯總,這就依賴于MapReduce了,這里簡稱MR。 ? ? ? ? MR來源于google的一篇論文,MR分為mapper和reducer,mapper是將數據切割為key,value對的形式,reducer是對每個key的value的邏輯進行計算。driver負責一些傳入傳出的數據入口。上個圖吧,這是我在阿里服務器上的一個MR程序? ? ? ? 寫好的MR程序,export成為jar文件,再傳到云上,將數據庫的table輸入就可以實現對應的算法了。
?(2)udf
? ? ? ? ?udf就是實現云端的sql的function函數。舉個例子,比如說有個表,里面的數據是412142=>3522。我們想以中間的箭頭符號為分隔,獲取412142或是3522.因為sql中是沒有類似于splite的函數的。所以我們要寫一個sql的function實現這個功能。這個function我們用java寫好,只要將生成的jar文件放到云端,就可以調用。? ? ? ?
? ? ? ? ? 以上是我對于云的一些感受和看法,歡迎大家留言討論!
總結
以上是生活随笔為你收集整理的云计算大会有感—MapReduce和UDF的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: linux修改path路径
- 下一篇: 斯坦福机器学习公开课学习笔记(1)—机器