邓仰东专栏|机器学习的那些事儿(一)
目錄
1.緒論
1.1.概述
1.2 機器學習簡史
1.3 機器學習改變世界:基于GPU的機器學習實例
??? ?1.3.1 基于深度神經網絡的視覺識別
???? 1.3.2 AlphaGO
??? ?1.3.3 IBM Waston
1.4 機器學習方法分類和本書組織
在這一章里面,我們首先審視正在高歌猛進的數據科學,了解使用GPU進行機器學習計算的重要性。接下來,我們回顧機器學習的發展歷程,并且檢閱當前機器學習技術的幾項最高成就:人工智能圍棋(AlphaGo)、深度神經網絡圖像識別(ImageNet)和IBM Waston人工智能系統,從而領略機器學習技術震撼世界的腳步。第三部分,我們對機器學習算法進行概略分類,并且根據分類結果介紹本書內容。
1.1 概述
我們生活在一個偉大的時代,人類文明史上最卓越的心智成就以前所未有的深度、廣度和速度交匯融合,催生出潛力無限的數據科學(data science)。數據科學是在人類社會數字化程度充分發展的前提下,綜合計算機科學、數學和神經科學等領域的理論和技術成果,以數據挖掘作為應用形式,通過對數據進行存儲、分析和可視化等各種處理,從中提煉信息并形成知識,從而引導優化決策的科學。簡單說來,數據科學就是針對大數據的理論和方法。
當前,數據科學已經深度融入我們的日常生活,我們可以從一天的平凡生活中檢查一下數據科學在怎樣發揮作用的:上下班路上,導航系統會分析數據告訴我們不同路線的擁堵情況并且實時預測預計行程時間,如果乘坐公車的話,還可以通過歷史數據和實時路況預報公車到站時間;我們打電話時,電信運營商會通過采集我們打電話的模式,諸如地點、時間段和服務套餐情況(但是不能使用時頻、語音和個人帳號信息),推斷我們的身份、生活習慣和經濟狀況,從而確定相應的推送內容;
我們上網沖浪時,搜索引擎提供的內容當然是對海量網頁進行分析處理的結果,而且也會我把我們的搜索內容拿去分析,從中提煉熱點搜索趨勢,并且對我們的行為進行推斷;購物時,無論是電商還是傳統商戶,都可能分析我們的購物歷史決定向我們推薦商品,而在付款之中或之后,銀行的數據分析系統會判斷這是一次正常消費還是一次欺詐;
工作時,即使我們不直接使用數據分析工具,也幾乎不可避免地在產生或者消費數據,有些公司(例如惠普)甚至使用預測軟件分析每個雇員辭職的可能性(?有趣的是,數據分析師自己經常被判別為潛在離職風險較高的雇員,因為社會需求極為迫切。)
除此之外,還有更多的數據分析系統在暗中“琢磨”我們,比如說醫療保險公司在算計我們未來的健康趨勢,由此決定保費應該怎樣變化,社交網絡公司在計算是否發現了你的同學或者熟人,或者怎樣讓你的社交圈通過最短路徑和其它群落連接起來,還有基金公司會分析社交網絡上大家的情感趨勢,以此作為預測證券價格漲落的依據,如果你是單身而且在征婚網站登記的話,還會有數據分析引擎根據你的資料進行分類和匹配,為你尋找合適的另一半。
數據科學向社會生活的滲透正在以不可阻擋的勢頭在更大范圍上更加深化。表1-1是遠不完全(實際上完整枚舉數據應用已經成為不可能完成的任務)的典型數據科學應用的清單。
?
表1.1 典型數據應用
| 公司/組織 | 代表性數據應用 | 亮點 |
| 谷歌Google | 對全球35萬億個網頁進行索引,并形成1億G字節的索引記錄 | 全部Internet搜索服務的89%由Google提供 |
| 亞馬遜Amazon | 采集并分析其7.5億顧客的購物行為(包括購物和瀏覽),分析顧客的收入和偏好,從而為顧客進行商品推薦 | Amazon的推薦系統是其成為美國最大線上零售商(年產值900億美元)的主要助力,也是其品牌的重要標志 |
| 網飛Netflix | 根據電影內容進行分類,并根據用戶觀看電影的歷史進行喜好分析并推薦電影 | 非結構化數據學習的經典技術,是Netflix用戶和流量繼續加速增長的主要動力 |
| 沃爾瑪 Walmart | 利用購物籃分析推薦商品,使用社會和環境數據預測購買需求 | 沃爾瑪自行開發的Data Café數據分析系統處理一個擁有2000億組交易數據的數據庫,能夠把銷售問題平均解決時間從2~3周降低至20分鐘左右 |
| 歐洲核子研究組織CERN | 分析數據中的特殊能量特征,從中確定是否發現特定粒子 | 每年產生30PB數據,主要是粒子對撞機中粒子碰撞時產生的光信號,2013年通過分析數據發現了希格斯玻色子 |
| 羅爾斯-羅伊斯Rolls-Royce | 分析發動機實時監控數據,確定優化維護和修理方案 | 支撐全球500家以上航空公司和150多支空軍的航空發動機,大數據技術顯著降低了運維成本 |
| 殼牌石油Shell | 分析地址數據發現油田 | 大幅度提高了勘探精度 |
| 蓮花F1車隊 Lotus F1 Team | 分析賽場數據實時調整塞車參數,利用數據建立仿真模型優化賽車設計 | 把青年車手Marlon Stockinger的賽季總成績從2013年的全球第18名提高到2014年的第9名 |
| 臉書 | 分析用戶數據推送廣告 | 2014年占據美國24%的在線廣告份額,創收53億美元;預計2017年市場份額達到27%,創收100億美元 |
| 皇家蘇格蘭銀行 Royal Bank of Scotland | 分析交易數據最大化客戶盈利以及支撐各種客戶關系管理需求 | 通過海量數據挖掘支撐金融個性化服務 |
| 目標超市 Target | 分解消費者行為預測懷孕可能性并據此推送產品推薦 | 能夠比以往多發現30%以上孕婦 |
| 匹茲堡大學醫療中心 | 出院前預測病人未來30天再次住院的可能性 | 降低治療風險 |
| 倫敦股票交易所 | 分析數據決定投資方案 | 約40%的股票交易由數據應用自行驅動 |
| 大陸航空公司 | 分析航班數據 | 有效降低航班延誤和航線利用率 |
| 奧巴馬競選團隊 | 分析選民數據推測哪些選民更容易被競選活動影響 | 取得了驚人的程序 |
| 惠普 HP | 分析全球35萬名員工的辭職風險 | 預計收益3億美元 |
| 美國國稅局 | 分析納稅人數據發現水手欺詐 | 在不增加工作人時的前提下提升發現逃稅率25倍 |
隨著人類社會數字化程度的迅速提升,目前全球數據規模已經達到44萬億GB。數據增長的速度更是驚人,我們可以從圖1-1中看看當前各大網站一分鐘的數據量。讀者可以想象一下,在閱讀這一頁的過程中,全球數據又增加了多少。
數據產生的來源和數量增長之快,以至于2013年的一份分析報告指出全球數據的90%是在此前兩年中產生的([1]?SINTEF. "Big Data, for better or worse: 90% of world's data generated over last two years." Science Daily, 22 May 2013.)也就是說每兩年產生的數據是此前全部數據的10倍,而且我們可以大膽的猜測到本書出版之時,95%甚至更多的數據實在過去三年內產生的。
數據規模是如此之大,種類又是如此之多,以至于一般認為當前我們能夠分析的數據只是全部數據的0.5%。那么我們怎樣才能充分利用海量數據,而不是“湮沒在數據中卻饑渴于無法獲得知識(Drowning in Data yet Starving for Knowledge)”呢?答案是顯然的,機器學習算法必須借助更強勁的計算硬件(嚴格講應該是能效比更高的硬件。)和更加靈活的程序設計技術。
?圖1-1 全球1分鐘內產生的數據
然而,我們手中并沒有一種硬件能夠同時在上述兩項要求上都能表現最佳。圖1-2是對常見計算平臺的比較。在圖1-2的左側,是執行順序程序的CPU,其編程模式符合人類的思維方式,編程工具完備而成熟,然而性能相對有限。
特別是自從2000年以后,傳統上以增加時鐘頻率提升CPU性能的方法已經遇到瓶頸,繼續提高頻率提升性能有限,反而帶來功耗的大幅度增加。數字信號處理器是對CPU進行訂制,針對特定應用引入專用指令和硬件從而提高性能的處理器,其編程靈活性有所下降,但是能夠提高相應應用的性能。數字信號處理器曾經是高性能的標志,但是隨著多核CPU的出現,已經逐漸退出高性能計算市場,主要用于嵌入式產品。
多核CPU是在集成電路工藝的集成能力繼續提升而單核性能飽和的產物,通過引入多個并行執行指令的CPU內核保證整體性能的增加。多核CPU必須使用并行程序才能獲得更好的性能,其編程靈活性有所限制。
?圖1-2 常見計算平臺的計算能力和可編程性
在圖1-2的右端是專用集成電路,即針對特定應用采用特定算法而設計的硬件平臺,完全不具備編程能力,但是性能可以達到極致。
在當前市場需求多元化并且高速變化的背景下,缺乏可編程能力是嚴重的缺陷,因此專用集成電路只有在用量極大的前提下才具有競爭力,越來越多的電子產品使用系統芯片,即集成專用集成電路和嵌入式處理器的芯片。以FPGA為代表的可編程硬件比專用集成電路性能低一個檔次,但是具有硬件編程能力,因此也成為一種重要的計算平臺。
專用處理器也是折衷可編程性和性能的產物,其思想是針對特定應用設計指令集,其中某些指令可以通過專用硬件直接執行,從而在保持一定編程靈活性的基礎上改善性能。然而,專用處理器的應用范圍比較窄,因此編程工具極為有限、使用人群較小,因而也限制了靈活性。
圖1-2的中央是圖形處理器(Graphics Processing Unit,簡稱GPU),其前身是為圖形渲染應用而設計的專用處理器,但是經過30年的發展,隨著圖形應用的復雜度越來越高、性能要求越來越突出,已經演變為具有高度計算能力和高度可編程能力的計算平臺。
在各種計算硬件中,GPU比較完美地折衷了性能和靈活性。注意以上討論中,我們所說的性能其實指特定制造工藝下單位面積提供的性能,不同制造工藝下的不同類硬件平臺的性能錯綜復雜。
由于GPU擁有圖形渲染市場的支持,能夠保證其出貨量,因此能夠使用最先進的制造工藝并且制造較大的芯片,從而能夠提供極高的單片性能,在較低工藝下制造的專用集成電路和FPGA反而不容易達到使用最新工藝的GPU的性能。從2006年開始,NVIDIA和AMD等GPU制造商意識到GPU可以成為一種與CPU互補的通用計算平臺,相繼退出一系列編程工具,從而極大地開闊了GPU的應用。
從2010年開始,機器學習成為全球化熱點,眾多企業、科研和政府機構開始在日常工作中大量使用數據挖掘工具,而機器學習算法普遍具有計算密集特點,特別適合GPU硬件執行,因此,圖形處理器幾乎一夜之間成為機器學習最重要的應用平臺。
參考文獻
[1]?SINTEF. "Big Data, for better or worse: 90% of world's data generated over last two years." Science Daily, 22 May 2013.
關注LinkSpark公眾號,了解更多人工智能相關資訊!
總結
以上是生活随笔為你收集整理的邓仰东专栏|机器学习的那些事儿(一)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Modbus Tcp服务端使用说明书
- 下一篇: HDU - 6078 Wavel Seq