Kaggle 发布首份数据科学从业报告 | 不及美国同行1/3,中国数据科学家平均年薪约3万美元
Kaggle?是互聯(lián)網(wǎng)上最著名的數(shù)據(jù)科學競賽平臺之一,今年?3?月?8?日,這家機構(gòu)被谷歌收購,6?月?6?日又宣布用戶數(shù)量超過了?100?萬人。互聯(lián)網(wǎng)創(chuàng)業(yè)方興未艾,人工智能的浪潮又接踵而來,而貫穿其中的數(shù)據(jù)科學則在這更迭交替中顯得愈發(fā)重要。
最近,這一社區(qū)首次進行了機器學習/數(shù)據(jù)科學現(xiàn)狀調(diào)查。在超過?16,000?名從業(yè)者的詳盡答卷中,我們可以一窺目前業(yè)內(nèi)的發(fā)展趨勢。有趣的是,Kaggle?也將調(diào)查結(jié)果封裝成了匿名數(shù)據(jù)集以供大家自行分析。
以下報告包括本次調(diào)查的所有主要結(jié)果,其中包含的主要內(nèi)容有:
雖然?Python?很可能是機器學習最常用的編程語言,但統(tǒng)計學家更多地使用?R?語言。
平均而言,數(shù)據(jù)科學家的年齡在?30?歲左右,但是這個數(shù)字在不同的國家有所不同。例如,印度的受訪者要比澳大利亞的平均年輕?9?歲。
有關(guān)被調(diào)查者教育程度,最普遍的學位是碩士,但是工資最高的($150k+)人群中,擁有博士學位的人稍稍多一點。
數(shù)據(jù)科學從業(yè)者畫像
年齡:平均年齡為 30 歲,但國家間略有不同,例如印度的平均年齡就比澳大利亞年輕了9歲,而中國受訪者的平均年齡為 25 歲。
工作狀態(tài):受訪者中有全職工作的占 65.7%,正在找工作的占 12.7%。而在中國,這兩個數(shù)字分別為 53.5% 和 17%。
職位:數(shù)據(jù)科學領(lǐng)域的工作劃分非常繁雜,比如在伊朗和馬來西亞,最普遍的頭銜是“科學家”或“研究員”,而在中國,最流行的頭銜則是“機器學習工程師”。
年薪:全球數(shù)據(jù)科學從業(yè)者的平均年薪是 55441 美元,美國的數(shù)據(jù)科學從業(yè)者平均薪資最高,達 11 萬美元,而這一數(shù)字在中國只有 29835 美元(或許和樣本數(shù)量較少有關(guān))。
學歷:數(shù)據(jù)科學從業(yè)者中比例最高的是碩士,但博士的薪水顯然更高。
數(shù)據(jù)科學從業(yè)者工作內(nèi)容
數(shù)據(jù)科學方法使用:Logistic?回歸是工作之中最為常用的數(shù)據(jù)科學方法,不過神經(jīng)網(wǎng)絡(luò)使用更為頻繁的國家安全領(lǐng)域除外。總的來說,數(shù)據(jù)科學中更常見的還是使用經(jīng)典的機器學習算法,簡單的線性與非線性分類器是數(shù)據(jù)科學中最常見的算法,而功能強大的集成方法也十分受歡迎。我們看到目前神經(jīng)網(wǎng)絡(luò)模型的使用頻率要高于支持向量機,這可能是近來多層感知機要比使用帶核函數(shù)的?SVM?更加廣泛的表現(xiàn)。
語言使用:Python 依舊是數(shù)據(jù)科學家最常用的語言,而 R?語言也很流行。
數(shù)據(jù)類型:關(guān)系型數(shù)據(jù)是開發(fā)者在工作中最常用的數(shù)據(jù)類型,而在學術(shù)研究和國防安全領(lǐng)域,文本型數(shù)據(jù)使用的更多。
代碼分享:58.4% 的受訪者在工作中使用?Git 分享他們的代碼。但大公司中的開發(fā)者更傾向于使用電子郵件來分享他們的代碼,而創(chuàng)業(yè)公司則對云的方式情有獨鐘。
工作障礙:臟數(shù)據(jù)(dirty?data)顯然又名列榜首。通俗的講,當一個事務(wù)正在訪問數(shù)據(jù),并且對數(shù)據(jù)進行了修改,而這種修改還沒有提交到數(shù)據(jù)庫中,這時,另外一個事務(wù)也訪問這個數(shù)據(jù),然后使用了這個數(shù)據(jù)。因為這個數(shù)據(jù)是還沒有提交的數(shù)據(jù),那么另外一個事務(wù)讀到的這個數(shù)據(jù)是臟數(shù)據(jù),依據(jù)臟數(shù)據(jù)所做的操作可能是不正確的。
數(shù)據(jù)科學新手入行
語言選擇:數(shù)據(jù)顯示?Python 和 R?語言依舊是推薦程度最高的兩種語言,而 Python?的受追捧程度又是 R?語言的兩倍之高。
學習資源:數(shù)據(jù)科學是一個快速變化的領(lǐng)域,不斷的學習已經(jīng)成為了一種必需的技能,而目前行業(yè)內(nèi)的人會更多通過 Stack?Overflow?Q&A,Conferences?和?Podcasts 來進行學習。除此以外,官方的文檔和觀看?Youtube?視頻也不失為有效地學習途徑。
開源數(shù)據(jù)獲取:dataset?aggregators、https://www.kaggle.com/datasets
找工作:首選方法是直接聯(lián)系招聘者或建立自己的人脈網(wǎng)絡(luò)
報告下載:https://www.kaggle.com/surveys/2017
調(diào)查數(shù)據(jù)下載:https://www.kaggle.com/kaggle/kaggle-survey-2017
?
作為一個集合社群、競賽、用數(shù)據(jù)解決問題三個核心于一身的平臺,不論是企業(yè)、某個領(lǐng)域的研究組織、甚至是政府機構(gòu),都可以把數(shù)據(jù)集(dataset)跟想要解決的問題丟到?Kaggle?上去,請數(shù)據(jù)專家來幫忙解答。
從另一個角度來看,Kaggle 上聚集了眾多對機器學習、人工智能有興趣的人,包括數(shù)據(jù)科學家、統(tǒng)計高手、工程師或者是學生,他們利用數(shù)據(jù)采礦、深度學習、統(tǒng)計等方式搭建出解答問題的模型或算法,勝出者就有機會獲得禮品、獎金或是工作機會,當然也有不少參加比賽的人是純粹出自興趣。
?
例如,全球最大衛(wèi)星影像公司 Planet,主要是透過衛(wèi)星影像監(jiān)控亞馬遜雨林的變化,但他們發(fā)現(xiàn)還是有些問題無解,例如無法分辨雨林的減少是人為造成還是自然因素,所以在 Kaggle 上舉辦比賽,希望可以有更好的算法來保護亞馬遜雨林,吸引了不少關(guān)注生態(tài)議題的人參與。
?
正因為 Kaggle 上高手云集,吸引不少大型企業(yè)、機構(gòu)都到此舉辦比賽,比如Google、Facebook、Airbnb、沃爾瑪、Benz、Bosch、英特爾、西班牙國際銀行(Santander)、歐洲量子物理研究所(CERN)等,而且獎金額度更已有突破百萬美元等級的案例。
??
圖丨Kaggle上獎金排名前五的競賽
Kaggle 創(chuàng)始人 Anthony Goldbloom 在澳洲墨爾本大學畢業(yè)后,曾經(jīng)在《經(jīng)濟學人》雜志當過實習記者,之后進入澳洲聯(lián)邦政府財政部(Australian Treasury)、澳洲儲備銀行(RBA)擔任經(jīng)濟計量學家。當時他就預見數(shù)據(jù)科學將在未來扮演重要的角色,就在澳洲曾建立了一個數(shù)據(jù)科學家的線上社群。但他心想,為何不把數(shù)據(jù)開放,讓大家通過比賽的方式找到最好的算法?
圖丨Kaggle 創(chuàng)始人 Anthony Goldbloom?
所以,他把公司搬到硅谷從而創(chuàng)立了 Kaggle,依靠社群成功累積了龐大的用戶, Goldbloom 在接受澳洲媒體采訪時表示,“Kaggle 今日已經(jīng)擁有一百萬用戶,未來幾年還會成長十倍甚至百倍,因為這個領(lǐng)域的人才需求缺口還很大。
總結(jié)
以上是生活随笔為你收集整理的Kaggle 发布首份数据科学从业报告 | 不及美国同行1/3,中国数据科学家平均年薪约3万美元的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 五分钟搞懂并查集
- 下一篇: 每天20分钟,只需一年,一年级学生英语听