机器学习竞赛中,为什么GBDT往往比深度学习更有效?
在過去的幾年里,大多數(shù)的推薦算法都是基于深度學(xué)習(xí)(DL)方法。遵循我們領(lǐng)域的一般研究實踐,這些工作證明了新的DL方法在離線實驗中優(yōu)于其他不基于深度學(xué)習(xí)的模型。然而,在與推薦相關(guān)的機器學(xué)習(xí)競賽中(如與年度ACM ? RecSys大會一起舉行的挑戰(zhàn)賽)沒有觀察到基于DL的模型的這種幾乎一致的成功。取而代之的是,成功的解決方案主要包括大量的特征工程和使用梯度提升的技術(shù)。
在本文中,我們探討了這種令人驚訝的現(xiàn)象的可能原因。我們考慮多個可能的因素,如問題設(shè)置、數(shù)據(jù)集和DL方法的特點和復(fù)雜性;競賽參與者的背景;或評估方法的特殊性。
然而,當(dāng)我們觀察推薦任務(wù)的機器學(xué)習(xí)競賽的結(jié)果時,我們無法觀察到近年來DL方法對非DL技術(shù)的勝利。例如,當(dāng)我們看一下每年在ACM推薦系統(tǒng)大會(ACM ? RecSys)上舉行的挑戰(zhàn)賽時,我們發(fā)現(xiàn)其他技術(shù)在排行榜上占據(jù)主導(dǎo)地位。具體地說,在這些依賴于相對古老的梯度提升樹的方法似乎總是能拿名次。而成功的一個關(guān)鍵在于特征工程過程的有效性,這通常需要對該領(lǐng)域有很好的理解。為了證明這一差異,我們看了2017年至2019年與ACM ?RecSys舉行的挑戰(zhàn)相關(guān)的研討會的會議記錄。
最新ACM RecSys挑戰(zhàn)賽的DL方案分析
在2017年至2019年ACM RecSys挑戰(zhàn)賽的前五大解決方案中,只有一個方案完全依賴于DL方法的組合:在2018年挑戰(zhàn)賽中排名第二的方案。
他們解決自動播放列表問題的方法:將Autoencoder處理曲目和藝術(shù)家列表與字符級 CNN處理音樂曲目標(biāo)題相結(jié)合。所有其他解決方案通?;谔卣鞴こ?、梯度提升或各種技術(shù)的組合,包括矩陣分解、支持向量機、邏輯回歸、基于內(nèi)容的技術(shù)或最近鄰技術(shù)等。
在一些融合方案中,也經(jīng)常包含DL模型。選手也經(jīng)常會給出單個模型的結(jié)果,我們經(jīng)常觀察到,即使使用相同的特征集,DL模型也沒有達到梯度提升的性能。
在2018年獲勝的兩階段模型中,第一階段使用了CNN組件,但據(jù)作者的說法,它在第一階段模型中表現(xiàn)最差。在GBDT類模型與DL技術(shù)結(jié)合時。為了避免過度擬合,DL方案只訓(xùn)練了一個epoch,最后它對整體提升也很小。
在2019年競爭第二名的解決方案中,作者說,效果最好的單模型是使用的XGBoost。他們試驗了基于LSTM和基于Transformer的神經(jīng)體系結(jié)構(gòu),使用相同的一組特征,對查詢后顯示給用戶的商品序列進行建模。此外,他們用預(yù)先訓(xùn)練的XGBoost模型的預(yù)測輸出葉(一種稱為葉編碼的技術(shù))豐富了特征集。然而,根據(jù)作者的說法,“即使是這樣,我們發(fā)現(xiàn)深度學(xué)習(xí)模型很難與GBM效果相匹配。”
ACM RecSys 2020挑戰(zhàn)賽的勝出團隊將三個梯度提升決策樹(即XGBoost)融合在一起,對100多個工程特性進行了訓(xùn)練,最終得出了最終的預(yù)測結(jié)果。
他們探索了一些利用文本內(nèi)容(BERT標(biāo)記)的神經(jīng)方法,但最終的解決方案中沒有包含這些方法。
從其它推薦系統(tǒng)和數(shù)據(jù)科學(xué)競賽中觀察表格數(shù)據(jù)
類似的情況也可以在Kaggle等流行平臺上舉辦的推薦系統(tǒng)競賽中找到。例如,
在Outbrain Click Prediction競賽(2017)中,FFM是前三名獲獎解決方案中的核心技術(shù)。
在Criteo(2014)和Avazu5(2014)主辦的CTR(點擊率)預(yù)測競賽中,同樣的技術(shù)也取得了成功。
與后兩項比賽不同的是,Outbrain比賽的任務(wù)是排名(而不是CTR預(yù)測)。然而,FFM技術(shù)在三年后繼續(xù)表現(xiàn)最好,同樣是為了這個替代的預(yù)測目標(biāo)。在這些競爭中,神經(jīng)網(wǎng)絡(luò)扮演了次要的角色,繼FFM、帶有FTRL優(yōu)化和XGBoost的logistic回歸模型。
當(dāng)我們用一般的表格數(shù)據(jù)來看待其他數(shù)據(jù)科學(xué)競賽時,我們的觀察結(jié)果是相似的。近三年來Kaggle競爭的表格數(shù)據(jù)來看,大多數(shù)以GBM為核心模型。偶爾有例外,例如Porto Seguro’s Safe Driver Prediction和Predicting Molecular Properties 競賽,其中獲勝的解決方案依賴于DL模型。
在前者中,所提供的特征名稱是匿名的,不可能將領(lǐng)域知識用于特征工程。我們可以推測這是一個有利于使用DL模型的因素。
在后一場比賽中,獲勝的解決方案是一個精心設(shè)計的具有自我關(guān)注能力的圖神經(jīng)網(wǎng)絡(luò)(GNN)。在這里,數(shù)據(jù)的底層圖結(jié)構(gòu)可能對基于圖的體系結(jié)構(gòu)有利。
對于此類現(xiàn)象的潛在原因,我們確定了三大潛在差異和解釋:
數(shù)據(jù)集和問題特征;
研究者的目標(biāo)和動;
評估方法
問題是否不同
我們觀察到的差異的一個潛在原因可能在于學(xué)術(shù)研究和競賽中所討論問題的特點。
數(shù)據(jù)集相關(guān)方面
數(shù)據(jù)集相關(guān)方面:數(shù)據(jù)量大, ?ACM RecSys ?Challenge等比賽提供的數(shù)據(jù)集通常包含數(shù)百萬個交互,旨在代表行業(yè)數(shù)據(jù)。例如,2017年挑戰(zhàn)賽的XING數(shù)據(jù)集包含超過3.2億次記錄交互。自2006年Netflix以1億的ratings,這樣大的數(shù)據(jù)集在推薦系統(tǒng)研究中并不少見。然而,在學(xué)術(shù)界,最近的DL方法通常是基于更小的數(shù)據(jù)集,只包含100000個交互,甚至更少。
DL方法的一個流行假設(shè)是,當(dāng)有大量的數(shù)據(jù)可用于訓(xùn)練時,DL會尤其有效。如果這是真的,這些方法將從比賽中使用的大數(shù)據(jù)集中獲益。然而,另一方面,訓(xùn)練深層神經(jīng)網(wǎng)絡(luò)的計算成本很高,這也是為什么即使是最近的學(xué)術(shù)論文在評估時也使用相對較小的數(shù)據(jù)集的原因之一。在競爭對手沒有處理大計算能力的情況下(例如,具有大內(nèi)存的gpu可以容納用于高基數(shù)分類特征的巨型嵌入表),因此他們可能會求助于其他方法,如梯度提升樹模型等。
競賽和實際部署之間的一個決定性區(qū)別可能是真實世界系統(tǒng)中可用的數(shù)據(jù)量。比賽中的數(shù)據(jù)是從短時間內(nèi)用戶子集中采樣的,而部署的系統(tǒng)利用現(xiàn)有模型的迭代再訓(xùn)練來維護用戶和商品豐富的交互歷史。因此,DL方法在已部署系統(tǒng)中的優(yōu)勢可能只會在更多的數(shù)據(jù)出現(xiàn)時才顯現(xiàn)出來可用。與數(shù)據(jù)集特性相關(guān)的另一個方面是,學(xué)術(shù)界使用的一些數(shù)據(jù)集(如傳統(tǒng)的MovieLens100k電影收視率集合)比競賽數(shù)據(jù)集和一般真實世界的數(shù)據(jù)集稀疏。眾所周知,高數(shù)據(jù)稀疏性可能導(dǎo)致過度擬合,這可能特別適用于某些DL架構(gòu)。這里需要考慮的一個重要方面是,實際上競爭數(shù)據(jù)集通常在記錄的交互數(shù)量方面很大。然而,有時這些互動是在一個狹窄的時間窗口內(nèi)收集的,例如,幾個星期。因此,由許多DL模型學(xué)習(xí)的用戶和項目嵌入通常只基于每個用戶和項目的非常小的交互集。
在額外的數(shù)據(jù)方面,過去的三個ACM ? RecSys挑戰(zhàn)中,提供了各種類型的元數(shù)據(jù),即不僅提供了用戶和商品之間的交互,而且數(shù)據(jù)集還分別包含了有關(guān)工作、藝術(shù)家和酒店的信息。通常認為DL方法的優(yōu)點是它們非常適合于異構(gòu)或多模式數(shù)據(jù),并且能夠檢測和利用此類數(shù)據(jù)中的復(fù)雜交互,例如通過使用共享表示。同樣,元數(shù)據(jù)的可用性原則上應(yīng)該對DL方法有利,但是我們只觀察到一些例子,比如,CNN被用來利用元數(shù)據(jù)信息。
在某些情況下,更多元數(shù)據(jù)特性的可用性甚至?xí)谀承┓矫嬲`導(dǎo)DL方法。在推薦系統(tǒng)競賽中,最常見的任務(wù)是對用戶交互進行bianry分類或根據(jù)其預(yù)測的相關(guān)性對商品進行排名。這些任務(wù)需要負樣本(不存在的user ? item交互)進行評估,大多數(shù)算法也使用這些負樣本進行訓(xùn)練。完美的場景應(yīng)該是有真正的負樣本,這些樣本實際上被用戶看到而忽略了。然而,競賽數(shù)據(jù)集中的負樣本通常是由商品的某些概率分布(例如,基于項目的最近性、流行性、,“共現(xiàn)”(co-occurrence)或“內(nèi)容相似性”(content ?similarity),試圖模擬用戶在瀏覽會話中可能看到(或忽略)的商品。
如果負項的分布與正項的分布不太接近,復(fù)雜模型可以學(xué)習(xí)模式,將正樣本和負樣本從可用的泄漏特征中分離出來,并利用這種方式進行準(zhǔn)確預(yù)測。當(dāng)一組更豐富的功能可用時,這種風(fēng)險會增加。
當(dāng)存在這種泄漏特征時,神經(jīng)網(wǎng)絡(luò)很容易過度擬合,即使使用諸如L2正則化或dropout之類的正則化技術(shù)。相比之下,樹的集合(例如GBDT、隨機森林)則使用諸如bagging(實例抽樣和替換)、feature ? bagging(列抽樣)和boosting(優(yōu)化以正確預(yù)測前一個訓(xùn)練步驟中的錯誤)來對抗過度擬合。最后,這些技術(shù)可能會產(chǎn)生更一般化的模型(即低方差誤差)。
預(yù)測相關(guān)方面
在學(xué)術(shù)界,最常見的問題是rating預(yù)測、bianry分類和給定歷史用戶項交互矩陣的top-n推薦。
在許多研究工作中,一個相應(yīng)的假設(shè)是,對于每個用戶來說,在訓(xùn)練階段有一些過去的交互是已知的。然而,在過去三次ACM-RecSys挑戰(zhàn)中的預(yù)測問題是不同的。
2017年,挑戰(zhàn)的離線部分的目標(biāo)是預(yù)測哪些用戶會對新發(fā)布的工作邀請感興趣,這與商品冷啟動問題相對應(yīng)。與典型的學(xué)術(shù)研究不同,使用了一種非常具體的評價指標(biāo),考慮了用戶對推薦的各種反應(yīng)。
2018年,我們的任務(wù)是給定最初的幾首歌曲創(chuàng)建音樂播放列表continuation。
2019年的目標(biāo)是預(yù)測用戶在給定的會話中點擊了哪一個酒店搜索結(jié)果。特別是在后兩種情況下,問題不是傳統(tǒng)的矩陣補全設(shè)定,而是基于會話和上下文感知的推薦問題;
在商品冷啟動和用戶冷啟動推薦場景中使用神經(jīng)網(wǎng)絡(luò)時,通常商品和用戶嵌入會像初始化一樣隨機,沒有預(yù)測能力。因此,利用用戶和商品元數(shù)據(jù)(例如,人口統(tǒng)計、內(nèi)容特性)和上下文信息(例如最近的交互、時間、位置)是判斷給定用戶是否對給定上下文中的特定項感興趣的關(guān)鍵。
近年來,針對基于會話和順序推薦任務(wù),提出了一些基于DL的方法。然而,特別是對于基于會話的方法,基于rnn或注意力的DL方法并不一定比基于概念上更簡單的技術(shù),例如基于最近鄰的方法。請注意,許多基于會話的深度學(xué)習(xí)算法僅依賴于協(xié)同信息(即,用戶-商品交互),但沒有考慮副信息,這可能是限制其有效性的一個因素。
例如,在之前新聞領(lǐng)域的實驗表明,簡單的基于會話的算法(例如,基于kNN和關(guān)聯(lián)規(guī)則)能夠提供比基于RNN和基于GNN(圖神經(jīng)網(wǎng)絡(luò))的模型更高的精度,當(dāng)只考慮用戶-商品交互時。只有當(dāng)附加信息被添加到一個基于RNN的體系結(jié)構(gòu)(CHAMELEON)中時,該體系結(jié)構(gòu)設(shè)計用于處理冷啟動問題,其精度比任何其他基于會話的算法高20%。
研究人員和他們的目標(biāo)不同嗎?
另一個我們看不到DL方法持續(xù)獲勝的潛在原因可能與參加比賽的人有關(guān)。例如,可以假設(shè)一些參與者無法訪問GPU驅(qū)動的硬件,這就是為什么他們求助于其他計算要求較低的技術(shù)。另一種假設(shè)是,挑戰(zhàn)參與者會定期參加數(shù)據(jù)科學(xué)競賽??紤]到梯度提升在這類比賽中的流行和過去的成功,人們可以推測,這些參與者要么偏愛更傳統(tǒng)的模式,要么不精通最新的深度學(xué)習(xí)技術(shù)。
然而,當(dāng)研究人員關(guān)注這些假設(shè)時,很難維持這些假設(shè)。表現(xiàn)最好的貢獻來自具有不同背景的團隊。有來自專注于人工智能的公司的團隊,有從事推薦系統(tǒng)的學(xué)術(shù)研究小組的成員,還有一些個人,假設(shè)是獨立的研究人員或機器學(xué)習(xí)愛好者,但他們的背景并不多。至少對于來自公司的參與者,我們可以假設(shè)他們配置了足夠的計算資源。此外,當(dāng)查看來自工業(yè)界和學(xué)術(shù)界的單個研究人員簡介時,也會發(fā)現(xiàn)這些參與者非常了解DL方法,并且在某些情況下,如上所述,報告他們在解決方案中添加DL方案的經(jīng)驗。
盡管如此,研究人員和挑戰(zhàn)選手可能有不同的目標(biāo)、偏好和工作流程。在競賽中,參賽者通常依靠常規(guī)的科學(xué)數(shù)據(jù)和競賽數(shù)據(jù)來獲得勝利。這些模型在數(shù)據(jù)預(yù)處理方面非常輕量級(例如,不需要特征縮放),進行自動特征選擇,對過度擬合具有魯棒性,并且可以解釋,從而提供對最重要特征的見解。另一方面,神經(jīng)網(wǎng)絡(luò)通常需要在特征規(guī)范化、體系結(jié)構(gòu)設(shè)計、正則化或損失函數(shù)方面有深入的專業(yè)知識,而且它們還需要專門的硬件(GPU)來實現(xiàn)高性能。此外,由于對預(yù)處理、體系結(jié)構(gòu)設(shè)計和超參數(shù)選擇的敏感性,神經(jīng)模型通常需要努力和時間才能獲得更好的結(jié)果。僅僅找到一個網(wǎng)絡(luò)體系結(jié)構(gòu)(包括結(jié)構(gòu)、層和節(jié)點的數(shù)量)的問題就可以打開一個巨大的設(shè)計空間,在這個空間中可以找到一個性能良好的解決方案。由于比賽的時間跨度通常相對較短,因此當(dāng)給出表格數(shù)據(jù)時,DL模型可能不是參賽者的首選。
根據(jù)我們的經(jīng)驗,挑戰(zhàn)賽參賽者在處理表格數(shù)據(jù)時通常會在特征探索和工程設(shè)計上投入大量時間。另一方面,學(xué)術(shù)研究者通常更關(guān)注科學(xué)方面,例如針對給定的問題或領(lǐng)域探索和提出復(fù)雜的訓(xùn)練算法和神經(jīng)體系結(jié)構(gòu)設(shè)計。他們在實驗中一般不注重特征工程和泄漏的開發(fā)。例如,有論文報道了將混合推薦的新神經(jīng)體系結(jié)構(gòu)與XGBoost模型進行比較的實驗,XGBoost模型使用相同的豐富特性集。
是評估過程不一致嗎?
在學(xué)術(shù)研究和競賽中,如何設(shè)置性能比較實驗以及如何實際進行評價是完全不同的。我們在表1中說明了主要差異。
這兩種基準(zhǔn)測試算法之間的差異是顯著的。在競賽中這樣做的方式似乎更客觀,也不容易受到研究人員的潛在偏見的影響,他們是唯一在發(fā)表前對自己的提案進行評估的人。實際上,在學(xué)術(shù)環(huán)境中,研究人員在決定實驗裝置的具體細節(jié)時有很大的自由。擁有這種自由是絕對重要的,因為它允許研究人員探索新的結(jié)構(gòu)和研究以前沒有研究過的問題。這種自由的一個潛在的缺點可能是,研究人員可能會有意識或無意識地以實驗配置結(jié)束,這些配置支持他們的假設(shè),即他們新提出的方法比以前的方法更好。上下文中的一個典型問題可能在于基線的選擇和優(yōu)化。也就是說,可能是因為新的Baseline太弱了。
最近的研究提供了幾個例子,其中DL方法與論文中報道的方法相比,并不總是優(yōu)于現(xiàn)有的并且通常相當(dāng)簡單的方法。當(dāng)然,在學(xué)術(shù)文獻中,我們無法知道DL方法在多大程度上戰(zhàn)勝了以往的方法論問題。這一點尤其不清楚,因為在數(shù)字圖書館時代之前,也曾觀察到類似的問題,例如在信息檢索領(lǐng)域。
我們可以在不同的學(xué)術(shù)評價方法和方法中觀察誰來設(shè)計和研究。然而,最終,這些差異是否與學(xué)術(shù)論文和競賽中獲獎模式之間觀察到的差異密切相關(guān),目前仍不清楚。在行業(yè)中也可以看到類似的差異,推薦的成功是以組織為導(dǎo)向的,通常是縱向的關(guān)鍵績效指標(biāo)。例如,谷歌在他們的在線實驗中報告說,與具有相同特征集的線性模型相比,他們的廣度和深度模型在在線獲取方面的收益增加了3.9%。從更積極的方面來說,我們可以越來越多地觀察到學(xué)術(shù)研究人員通過公開代碼、超參數(shù)選擇和數(shù)據(jù)集來更加關(guān)注可重復(fù)性。這將導(dǎo)致其他研究人員有機會客觀獨立地驗證實驗和結(jié)果。
討論和總結(jié)
我們的工作突出了許多潛在的原因,為什么DL方法不能一直贏得推薦系統(tǒng)的競爭。也可能存在其他原因,例如,這只是發(fā)生在特定比賽系列中的巧合。
事實上,一年之內(nèi)有一個完全基于DL的第二個解決方案??赡苁荄L方法對于這些類型的問題“只是不能很好地工作”。然而,考慮到DL在機器學(xué)習(xí)的其他應(yīng)用領(lǐng)域和工業(yè)中的成功,這樣一個概括的解釋似乎不太可能。
總的來說,我們認為DL方法在推薦問題上的潛力還沒有得到充分的開發(fā)。也許我們還需要更好的方法來并行地組合不同的信息源。結(jié)合前10期作品的成功經(jīng)驗,提出了相關(guān)建議。尤其是在需要考慮某些細節(jié)的情況下,比如在新聞領(lǐng)域,我們有一個永久性的項目冷啟動問題。另一種在競賽中使用DL獲得更好結(jié)果的潛在方法可能是開發(fā)和使用能夠?qū)崿F(xiàn)高性能“開箱即用”的工具,即不需要進行廣泛的特征工程和神經(jīng)結(jié)構(gòu)設(shè)計。在DL的上下文中,例如,這樣的AutoML技術(shù)NAS。
然而,我們的討論也強調(diào)了在學(xué)術(shù)研究中不要忘記非DL方法的重要性。近年來,我們有時觀察到新提出的方法只與其他DL方法進行比較,而不再考慮以前的方法。當(dāng)后來發(fā)現(xiàn)這些基線DL方法并不一定比我們以前的方法更好時,例如。,由于以上提到的方法問題,我們再次以“提升不會add ?up”結(jié)束,這種以DL為中心的基線模式也出現(xiàn)在行業(yè)數(shù)據(jù)集的在線評估中,而且這一建議也可能適用于此。
最后,人們可能會質(zhì)疑機器學(xué)習(xí)競賽對于一般科學(xué)過程的重要性。這樣的比賽在某些方面強化了一種“追逐排行榜”的文化,在這種文化中,主要的、通常唯一的目標(biāo)是在一組準(zhǔn)確度指標(biāo)上比以前的方法高出幾個百分點。這可能會導(dǎo)致這樣的結(jié)果:這些改進在實踐中是否重要的問題從未被問過。此外,為什么某個解決方案導(dǎo)致了改進,這也變得無關(guān)緊要,因為這樣的研究方法不是基于基礎(chǔ)理論或研究假設(shè)的。另一方面,競賽可以對科學(xué)研究產(chǎn)生一些積極的影響。例如,通過這樣的競賽,組織可以與學(xué)術(shù)界分享他們感興趣的問題。此外,競爭是學(xué)術(shù)研究人員獲取數(shù)據(jù)集的重要來源之一,也是吸引研究人員在未來不斷建立更好的推薦系統(tǒng)的有效手段。
后臺回復(fù)關(guān)鍵詞【入群】
加入賣萌屋NLP/IR/Rec與求職討論群
后臺回復(fù)關(guān)鍵詞【頂會】
獲取ACL、CIKM等各大頂會論文集!
總結(jié)
以上是生活随笔為你收集整理的机器学习竞赛中,为什么GBDT往往比深度学习更有效?的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 对话系统答非所问?快试试这篇ACL'21
- 下一篇: 梳理百年深度学习发展史-七月在线机器学习