GMIS 2017 大会陈雨强演讲:机器学习模型,宽与深的大战
GMIS 2017 大會(huì)陳雨強(qiáng)演講:機(jī)器學(xué)習(xí)模型,寬與深的大戰(zhàn)
2017-05-27 19:15:36 ????GMIS 2017??? 1?0?05 月 27 日,機(jī)器之心主辦的為期兩天的全球機(jī)器智能峰會(huì)(GMIS 2017)在北京 898 創(chuàng)新空間順利開幕。中國科學(xué)院自動(dòng)化研究所復(fù)雜系統(tǒng)管理與控制國家重點(diǎn)實(shí)驗(yàn)室主任王飛躍為本次大會(huì)做了開幕式致辭,他表示:「我個(gè)人的看法是再過幾年,我們90%的工作是人工智能提供的,就像我們今天大部分工作是機(jī)器提供的一樣。我們知道人工智能會(huì)給我們提供一個(gè)更美好的未來。」大會(huì)第一天重要嘉賓「LSTM 之父」Jürgen Schmidhuber、Citadel 首席人工智能官鄧力、騰訊 AI Lab 副主任俞棟、英特爾 AIPG 數(shù)據(jù)科學(xué)部主任 Yinyin Liu、GE Transportation Digital Solutions CTO Wesly Mukai 等知名人工智能專家參與峰會(huì),并在主題演講、圓桌論壇等互動(dòng)形式下,從科學(xué)家、企業(yè)家、技術(shù)專家的視角,解讀人工智能的未來發(fā)展。
下午,第四范式聯(lián)合創(chuàng)始人、首席研究科學(xué)家陳雨強(qiáng)發(fā)表了主題為《機(jī)器學(xué)習(xí)模型:寬與深的大戰(zhàn)》的演講,他不僅探討分享了學(xué)界中的深度模型和工業(yè)界中的寬度模型,同時(shí)還分析了這兩種模型的各自特點(diǎn)。以下是該演講的主要內(nèi)容:
工業(yè)界需要可擴(kuò)展的機(jī)器學(xué)習(xí)系統(tǒng)
人工智能的興起是計(jì)算能力、機(jī)器學(xué)習(xí)以及分布式計(jì)算發(fā)展的結(jié)果。在實(shí)際的工業(yè)界之中,我們需要一個(gè)可擴(kuò)展的機(jī)器學(xué)習(xí)系統(tǒng)(Scalable Machine Learning System),而不僅僅是一個(gè)可擴(kuò)展系統(tǒng)(Scalable System)。
第一點(diǎn),數(shù)據(jù)處理的能力隨機(jī)器的增加而增加,這是傳統(tǒng)的可擴(kuò)展。第二點(diǎn),智能水平和體驗(yàn)壁壘要隨著業(yè)務(wù)、數(shù)據(jù)量的增加而同時(shí)增加。這個(gè)角度的 Scalable 是很少被提到的,但這個(gè)層面上的可擴(kuò)展性才是人工智能被推崇的核心原因。
比如,過去建立競爭壁壘主要通過業(yè)務(wù)創(chuàng)新或是通過借助新的渠道(比方說互聯(lián)網(wǎng))提升效率。在這樣的方式中,由于產(chǎn)品本身相對容易被抄襲,那么資本投入、運(yùn)營與渠道是關(guān)鍵。但隨著數(shù)據(jù)的增加與 AI 的普及,現(xiàn)在有了一種新的方式,就是用時(shí)間與數(shù)據(jù)創(chuàng)造壁壘。可以看出,由人工智能產(chǎn)生的競爭壁壘是不斷循環(huán)迭代而得到提升、更容易拉開差距的高墻。
可擴(kuò)展的機(jī)器學(xué)習(xí)系統(tǒng)需要高 VC 維
我們知道 VC 維理論,該理論形式化地描述了機(jī)器學(xué)習(xí)算法對復(fù)雜函數(shù)擬合的能力。在機(jī)器學(xué)習(xí)中,VC 維度越高,模型越復(fù)雜,所需要的數(shù)據(jù)量也越多。
如上圖所示,因?yàn)檫^去的數(shù)據(jù)不大,訓(xùn)練損失函數(shù)在不斷下降,而測試損失函數(shù)則先下降再上升。因此有小數(shù)據(jù)量的模型要避免過擬合,VC 維就不能太高。因此我們需要控制 VC 維,以讓訓(xùn)練數(shù)據(jù)的測試損失和訓(xùn)練損失同時(shí)下降。
但隨著如今數(shù)據(jù)量劇增,我們發(fā)現(xiàn)低 VC 維模型效果并不理想,但高的 VC 維模型的性能在不斷上升。因此,在我們有越來越多數(shù)據(jù)時(shí),要關(guān)心的是欠擬合而不是過擬合,要關(guān)心的是怎樣提高 VC 維讓模型更加聰明。
因此,如果要成功在工業(yè)界使用人工智能,VC 維是非常重要的問題。
如果我們已經(jīng)有很多數(shù)據(jù),那么提升 VC 維的方法有兩條:一種是從特征提升,一種是從模型提升。我們把特征分為兩類:一類特征叫宏觀特征,比如描述類特征如年齡、統(tǒng)計(jì)類特征如整體的點(diǎn)擊率、或整體的統(tǒng)計(jì)信息;另一類為微觀特征,最典型的是 ID 類的特征,每個(gè)人都有特征,每個(gè)物品也有特征,人和物品組合也有特征。相應(yīng)的模型也分為兩類,一部分是簡單模型如線性模型,另一類是復(fù)雜模型如深度學(xué)習(xí)模型。因此,我們可以引出工業(yè)界機(jī)器學(xué)習(xí)四個(gè)象限的概念。
模型 X 特征,工業(yè)界機(jī)器學(xué)習(xí)的四個(gè)象限
如上圖所示,第一象限是簡單模型加宏觀特征,在現(xiàn)在的工業(yè)界比較難以走通,很難得到極致化的優(yōu)化效果。這個(gè)象限內(nèi),要解決的問題是怎樣找出特征之間的關(guān)系與各自的統(tǒng)計(jì)特性。
第二象限是簡單模型加復(fù)雜特征,最成功的典型案例是 Google AdWords。Google AdWords 占 Google 70% 以上的收入,Google 的展示廣告也是用的這樣的技術(shù),占了 Google 大概剩下的 20% 左右的收入。
第三象限是復(fù)雜模型、宏觀特征典型的應(yīng)用,比如 Bing ads,2013 年他們提出 BPR(Bayesian Probit Regression)來 Model 每個(gè)特征的置信度。
第四象限,復(fù)雜模型和微觀特征,現(xiàn)在還是熱門研究的領(lǐng)域,它最難的一點(diǎn)是模型的規(guī)模實(shí)在太大。這種模型可能會(huì)有極其巨量的參數(shù)。雖然數(shù)據(jù)很多,但如此多的參數(shù)還是很難還是難以獲得的。所以怎么解決模型的復(fù)雜問題、正則化問題,還是目前研究的重要方向。
如何沿著模型優(yōu)化?
沿著模型優(yōu)化主要由學(xué)術(shù)界主導(dǎo)。他們主要的研究是非線性模型,總結(jié)起來有三種方法:核函數(shù)、提升方法和深度神經(jīng)網(wǎng)絡(luò)。提升方法和深度神經(jīng)網(wǎng)絡(luò)現(xiàn)在非常流行,提升方法最經(jīng)典的是梯度提升樹(GBDT),而深度神經(jīng)網(wǎng)絡(luò)也在很多行業(yè)產(chǎn)生了顛覆性的變化。大約十年前,核函數(shù)也是很流行的。借助核函數(shù),支持向量機(jī)(SVM)有了異常強(qiáng)大的非線性能力。
對于工業(yè)界中的具體問題,基于思考或觀察得到新的假設(shè),加入新的模型、結(jié)構(gòu),以獲得更多的參數(shù),這是工業(yè)界優(yōu)化這一項(xiàng)限的步驟。
因此,通過機(jī)器學(xué)習(xí)首先,觀察數(shù)據(jù);第二,找到規(guī)律;第三,根據(jù)規(guī)律做模型的假設(shè);第四,對模型假設(shè)中的參數(shù)用數(shù)據(jù)進(jìn)行擬合;第五,把擬合的結(jié)果用到線上,看看效果怎么樣。這是模型這條路在工業(yè)界上優(yōu)化的方法。
如何沿特征優(yōu)化?
特征優(yōu)化主要是工業(yè)界主導(dǎo)的。就像剛才提到的,Google 使用了上千億的特征,百度也使用了上千億的特征,這些特征都是從最細(xì)的角度描述數(shù)據(jù),模型也是簡單粗暴。
沿模型優(yōu)化這條路的主要特點(diǎn)是什么?模型一定是分布式的,同時(shí)工程挑戰(zhàn)是非常大的。針對這些難點(diǎn),很多會(huì)議上都在研究如何高效并行,以及如何保證高效并行的時(shí)候快速收斂。ASP、BSP 等模型和同步、異步的算法,都是為了保證高效分布式的同時(shí)能快速收斂。
應(yīng)為線性模型理論較為成熟,工業(yè)界對模型本身的優(yōu)化相對沒有那么多,其更主要的工作是針對具體的應(yīng)用提取特征。之所以有那么多特征,是因?yàn)槲覀儗λ杏^察到的微觀變量都進(jìn)行建模。
所以,當(dāng)我們不能給出比較好的數(shù)據(jù)假設(shè)時(shí),不知道為什么產(chǎn)生突變時(shí),可以更多的依賴數(shù)據(jù),用潛在參數(shù)建模可能性,通過數(shù)據(jù)學(xué)到該學(xué)的知識(shí)。
寬度還是深度?
那么沿著寬度走好還是沿著深度走好?其實(shí)并沒有那個(gè)模型在所有情況下都更好,換一句話說機(jī)器學(xué)習(xí)沒有免費(fèi)的午餐(No Free-Lunch):不存在萬能模型。
沒有免費(fèi)午餐定理,即所有的機(jī)器學(xué)習(xí)都是一個(gè)偏置,這個(gè)偏置是代表你對于數(shù)據(jù)的假設(shè),偏置本身不會(huì)有誰比誰更好這樣的概念。如果使用更多的模型假設(shè),就需要更少的數(shù)據(jù),但如果模型本身越不符合真實(shí)分布,風(fēng)險(xiǎn)就越大。當(dāng)然我們也可以使用更少的模型假設(shè),用數(shù)據(jù)支持模型,但你需要更多的數(shù)據(jù)支持,更好的特征刻畫,然后表示出分布。總結(jié)起來對于我們工業(yè)界來說,機(jī)器學(xué)習(xí)并沒有免費(fèi)的午餐,一定要做出對業(yè)務(wù)合適的選擇。
寬與深的大戰(zhàn)?
追求更高的 VC 維有兩條路:一個(gè)是走寬的、離散的那條路,即 Google AdWords 的道路;也可以走深的那條路,比如深度學(xué)習(xí)。這就是深與寬的大戰(zhàn),因?yàn)閷捙c深在工業(yè)界都有非常成功的應(yīng)用案例,堅(jiān)信寬與深的人很長一段時(shí)間是并不互相理解的。堅(jiān)信深度學(xué)習(xí)、復(fù)雜模型的人認(rèn)為,寬的道路模型太簡單了,20 年就把所有的理論研究透徹,沒有什么更多的創(chuàng)新,這樣的技術(shù)不可能在復(fù)雜問題上得到好的結(jié)果。堅(jiān)信寬的模型的人,攻擊深度模型在某些問題上從來沒有真正把所有的數(shù)據(jù)都用好,從來沒有發(fā)揮出數(shù)據(jù)全部的價(jià)值,沒有真正的做到特別細(xì)致的個(gè)性化。的確深度模型推理做得好,但個(gè)性化、記憶方面差很多。
寬與深的模型并沒有誰比誰好,這就是免費(fèi)午餐定理:不同業(yè)務(wù)使用不同的模型,不同的模型有不同的特點(diǎn)。我們對比一下寬度模型與深度模型:寬度模型有比較準(zhǔn)確的記憶能力,深度模型有比較強(qiáng)的推理能力;寬度模型可以說出你的歷史,在什么情況下點(diǎn)過什么廣告,深度模型會(huì)推理出下次你可能喜歡哪一類東西。寬度模型是依靠層次化特征進(jìn)行泛化的,有很強(qiáng)的解釋性,雖說特征很多,但是每一個(gè)預(yù)估、為什么有這樣的預(yù)估、原因是什么,可以非常好的解釋出來;深度模型是非常難以解釋的,你很難知道為什么給出這樣的預(yù)估。寬度模型對平臺(tái)、對工程要求非常高,需要訓(xùn)練數(shù)據(jù)非常多、特征非常多;深度模型對訓(xùn)練數(shù)據(jù)、對整個(gè)模型要求相對較低一點(diǎn),但現(xiàn)在也是越來越高的。還有一個(gè)非常關(guān)鍵的區(qū)別點(diǎn),如果你是 CEO、CTO,你想建一個(gè)機(jī)器學(xué)習(xí)的系統(tǒng)與團(tuán)隊(duì),這兩條路有非常大的區(qū)別。寬度模型可以比較方便與統(tǒng)一的加入業(yè)務(wù)知識(shí),所以優(yōu)化寬度模型的人是懂機(jī)器學(xué)習(xí)并且偏業(yè)務(wù)的人員,把專業(yè)的知識(shí)加入建模,其中特征工程本身的創(chuàng)新是提升的關(guān)鍵;如果走深度模型,模型的創(chuàng)新是關(guān)鍵,提升模型更關(guān)鍵來自于做 Machine Learning 的人,他們從業(yè)務(wù)獲得知識(shí)并且得到一些假設(shè),然后把假設(shè)加入模型之中進(jìn)行嘗試。
同時(shí)寬與深的結(jié)合已經(jīng)逐漸成為一個(gè)研究熱點(diǎn),Google 在 16 年 4 月份發(fā)表的一篇論文,介紹他們的最新工作「Deep & Wide Model」。模型分為 Deep 與 Wide 兩部分,好處是它既能對比較細(xì)的特征有記憶,同時(shí)也有推理的能力。我們認(rèn)為將來的方向都應(yīng)該朝這路走。
除此之外,近期還有不少工作在探索這個(gè)方向,總的來說這方面還是非常前沿的、非常熱門的研究領(lǐng)域。
如何上線:從監(jiān)督學(xué)習(xí)到強(qiáng)化學(xué)習(xí)
不管是寬模型、深模型還是兼顧寬與深的模型,其實(shí)線下做好的模型實(shí)際上是一個(gè)監(jiān)督學(xué)習(xí)模型,并不能保證它線上效果好。
最后跟大家分享一點(diǎn),寬度和深度其實(shí)是兩條路數(shù)、兩個(gè)派系。在我們想替換的時(shí)候,就會(huì)發(fā)現(xiàn)深度模型很難把它替換成寬度模型,或者寬度模型很難把它替換成深度模型。因?yàn)槿绻覀冋嬲阉鼞?yīng)用于線上系統(tǒng)時(shí),其實(shí)是一個(gè)強(qiáng)化學(xué)習(xí)問題,而不只是簡單的機(jī)器學(xué)習(xí)問題。你在線上使用的時(shí)候會(huì)發(fā)現(xiàn),你碰到的數(shù)據(jù)和你線下訓(xùn)練的數(shù)據(jù)是不一樣的,你的基線模型效果越好,你的數(shù)據(jù)是越有偏差,訓(xùn)練出來的模型越難真正在線上產(chǎn)生好的效果。所以說,我們需要有很多機(jī)制讓這個(gè)事情做得更好,包括更多的強(qiáng)化學(xué)習(xí)等方式。
最后總結(jié)一下,深度學(xué)習(xí)和寬度學(xué)習(xí),其實(shí)并沒有誰比誰一定更好,我們要針對具體的業(yè)務(wù),選擇最合適你的機(jī)器學(xué)習(xí)框架、機(jī)器學(xué)習(xí)模型來解決我們的問題。
總結(jié)
以上是生活随笔為你收集整理的GMIS 2017 大会陈雨强演讲:机器学习模型,宽与深的大战的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: GMIS 2017大会杨强演讲:迁移学习
- 下一篇: GMIS 2017 大会余凯演讲:深度学