【学术相关】为什么很多国内学者的AI的论文复现不了?
吳恩達(dá)老師曾經(jīng)說過,看一篇論文的關(guān)鍵,是復(fù)現(xiàn)作者的算法。
然而,很多論文根本就復(fù)現(xiàn)不了,這是為什么呢?
一、數(shù)據(jù)關(guān)系
因?yàn)樽髡呤褂玫臄?shù)據(jù)比較私密,一般人拿不到,這種情況下,即使作者提供了源代碼,但是讀者卻拿不到數(shù)據(jù),也就沒法復(fù)現(xiàn)算法。
這種情況在國(guó)內(nèi)學(xué)術(shù)界很普遍,數(shù)據(jù)別人沒有,這就好像一位奧數(shù)老師,自己出了一道奧數(shù)題,自己解答出來,然后把解題過程寫了論文,這類論文往往說服力不夠,故事性不夠強(qiáng)。
二、硬件原因
深度學(xué)習(xí)的很多算法,是靠大力出奇跡的方法做出來的。比如谷歌、facebook的一些算法,依靠強(qiáng)大的硬件訓(xùn)練出來。
普通研究者沒有那么強(qiáng)大的硬件資源,估計(jì)達(dá)不到他們的1%的算力,根本無法復(fù)現(xiàn)算法。
三、數(shù)據(jù)劃分和訓(xùn)練方式
有些論文公開了代碼,也公開了數(shù)據(jù),但是論文里沒有提到數(shù)據(jù)劃分問題,數(shù)據(jù)如果比較少的話,不同的劃分會(huì)導(dǎo)致結(jié)果不同。
四、眾所周知的原因
這個(gè)原因大家心知肚明,我就不說太明白了,這個(gè)情況出現(xiàn)在很多國(guó)內(nèi)作者的論文里。這個(gè)在公開數(shù)據(jù)上比較少見。
很多國(guó)內(nèi)的學(xué)者發(fā)的論文,通常的套路是:
1. 定義一個(gè)很新但是意義不大的問題;
2. 面向github編程;
3. 網(wǎng)絡(luò)中加一些attention,module,normalization,loss,加到不會(huì)崩為止;
4. 編故事,寫小說,看上去邏輯挺清晰的,但是不給別人復(fù)現(xiàn)的機(jī)會(huì)。
理想的論文什么樣?
1.效果可以復(fù)現(xiàn),論文里每一個(gè)實(shí)驗(yàn)邏輯都很通暢,論文所有實(shí)驗(yàn)形成的邏輯鏈完備,使用公開數(shù)據(jù)集,效果和論文基本一致。
能夠達(dá)到這種的一般是領(lǐng)域內(nèi)的大佬,比如陳天奇、何愷明。
2.使用公開數(shù)據(jù),公開代碼,論文細(xì)節(jié)清楚,能復(fù)現(xiàn)論文的效果。盡管很多論文的作者也不能說明為什么這么設(shè)計(jì)的網(wǎng)絡(luò)效果好,這個(gè)應(yīng)該是深度學(xué)習(xí)可解釋性差的原因。因?yàn)樗麄児_了代碼,在公開數(shù)據(jù)集上效果好,能復(fù)現(xiàn)效果,所以也是好論文。
文末推薦
最后,推薦一個(gè)網(wǎng)站:paperswithcode.com/,很多優(yōu)秀論文的代碼都能找到。
往期精彩回顧適合初學(xué)者入門人工智能的路線及資料下載(圖文+視頻)機(jī)器學(xué)習(xí)入門系列下載中國(guó)大學(xué)慕課《機(jī)器學(xué)習(xí)》(黃海廣主講)機(jī)器學(xué)習(xí)及深度學(xué)習(xí)筆記等資料打印《統(tǒng)計(jì)學(xué)習(xí)方法》的代碼復(fù)現(xiàn)專輯 AI基礎(chǔ)下載機(jī)器學(xué)習(xí)交流qq群955171419,加入微信群請(qǐng)掃碼:總結(jié)
以上是生活随笔為你收集整理的【学术相关】为什么很多国内学者的AI的论文复现不了?的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: java基础学习笔记(二)
- 下一篇: 服务器系统盘安装在sdb,从U盘自动安装