Toping Kagglers:Bestfitting,目前世界排名第一
Toping Kagglers:Bestfitting,目前世界排名第一
我們在排行榜上排名第一 - 這是兩年前令人驚訝地加入該平臺的競爭對手。Shubin Dai,他的朋友們更喜歡Kaggle或賓果游戲,他是一位住在中國長沙的數據科學家和工程經理。他目前領導著一家為銀行提供軟件解決方案的公司。在工作之外,在Kaggle之外,戴是一個狂熱的山地車手,喜歡在大自然中度過時光。這里是最好的:
你能告訴我們一些你自己和你的背景嗎?
我主修計算機科學,擁有超過10年的軟件開發經驗。為了工作,我目前領導一個為銀行提供數據處理和分析解決方案的團隊。
從大學開始,我一直對使用數學來構建解決問題的程序感興趣。我不斷閱讀各種計算機科學書籍和論文,很幸運能夠跟蹤過去十年中在機器學習和深度學習方面取得的進展。
你是如何從Kaggle比賽開始的?
如前所述,我一直在閱讀很多關于機器學習和深度學習的書籍和論文,但發現我總是很難將我學到的算法應用到現有的小數據集上。所以我發現Kaggle是一個很棒的平臺,有各種有趣的數據集,內核和很棒的討論。我迫不及待想要嘗試一下,并首次進入“預測紅帽商業價值”競賽。
在參加新比賽時,你的第一個行動計劃是什么?
在競賽發布的第一周內,我創建了一個解決方案文檔,隨著競爭的繼續,我會跟進并更新。要做到這一點,我必須首先嘗試了解手頭的數據和挑戰,然后研究類似的Kaggle比賽和所有相關論文。
你的迭代周期是什么樣的?
您最喜歡的機器學習算法是什么?
我根據具體情況選擇算法,但我更喜歡使用簡單的算法,例如在整體時使用嶺回歸,我總是喜歡從resnet-50開始,或者在深度學習競賽中設計類似的結構。
你最喜歡的機器學習庫是什么?
我非常喜歡計算機視覺競賽中的pytorch。我在NLP或時間序列比賽中使用tensorflow或keras。在進行分析時,我在scipy家族中使用seaborn和產品。并且,scikit-learn和XGB始終是很好的工具。
您對超調整參數的方法是什么?
我嘗試根據我對數據的理解和算法背后的理論來調整參數,如果我無法解釋為什么結果更好或更差,我將感到不安全。
在深度學習競賽中,我經常搜索相關論文并試圖找到作者在類似情況下所做的事情。
并且,我將比較參數更改之前和之后的結果,例如預測分布,受影響的示例等。
您對實體交叉驗證/最終提交選擇和LB擬合的方法是什么?
良好的簡歷是成功的一半。如果我找不到評估模型的好方法,我不會進入下一步。
要建立穩定的簡歷,您必須充分了解數據和面臨的挑戰。我還要檢查并確保驗證集具有與訓練集和測試集類似的分布,并且我將嘗試確保我的模型在我的本地簡歷和公共LB上都得到改進。
在一些時間序列比賽中,我將數據留出一段時間作為驗證集。
我經常以保守的方式選擇我的最終提交,我總是選擇我的安全模型的加權平均集合并選擇相對危險的一個(在我看來,更多的參數等同于更多的風險)。但是,我從來沒有選擇過我無法解釋的提交,即使公共LB得分很高。
簡而言之,贏得比賽的是什么?
良好的簡歷,從其他比賽中學習,閱讀相關論文,紀律和心理韌性。
你最喜歡的Kaggle比賽是什么?為什么?
自然保護和醫療相關比賽是我最喜歡的。我覺得我應該,也許可以做一些事情來改善我們的生活和地球。
您最興奮的機器學習領域是什么?
我對深度學習的各種進步感興趣。我想用深度學習來解決除了計算機視覺或NLP之外的問題,所以我嘗試在我參加的比賽和常規職業中使用它們。
在解決數據科學問題時,域專業知識對您有多重要?
坦率地說,我認為我們不能從領域專業知識中獲益太多,原因如下:
但是,有一些例外。例如,在亞馬遜地球競賽中,我確實從我的個人雨林經歷中獲得了想法,但這些經驗在技術上可能不稱為領域專業知識。
你認為你最有創意的技巧/發現/方法是什么?
我認為這是在一開始就準備解決方案文檔。我強迫自己制作一份清單,其中包括我們所面臨的挑戰,我應該閱讀的解決方案和論文,可能的風險,可能的簡歷策略,可能的數據增加以及添加模型多樣性的方法。而且,我一直在更新文檔。幸運的是,這些文件大部分都是我為競賽主辦方提供的解決方案。
你目前在工作中如何使用數據科學,并且在Kaggle的幫助下進行競爭?
我們嘗試在銀行業的各種問題中使用機器學習:預測銀行網點的訪客,預測我們應該為ATM準備的現金,產品推薦,操作風險控制等。
在Kaggle上競爭也改變了我的工作方式,當我想找到解決問題的解決方案時,我會嘗試找到類似的Kaggle比賽,因為它們是寶貴的資源,我也建議我的同事研究類似的,獲勝的解決方案,以便我們可以從他們那里收集想法。
您對高模型復雜性和培訓/測試運行時之間的權衡有何看法?
以下是我的意見:
你是如何在Kaggle比賽中變得更好的?
有趣的比賽和Kaggle的優秀競爭對手讓我變得更好。
在這里有這么多偉大的競爭對手,贏得比賽是非常困難的,他們把我推到了極限。去年我試圖盡可能多次完成我的比賽獨奏,我必須猜測所有其他競爭對手會做什么。要做到這一點,我必須閱讀大量材料并構建多功能模型。我在比賽結束后閱讀了其他競爭對手的所有解決方案。
您是否對最近或正在進行的機器學習研究感到興奮?
我希望今年可以參加Kaggle的強化學習比賽。
你在排行榜上升得非常快(僅用了15個月)。你是怎么做到的?
首先,No.1是衡量我在Kaggle學到了多少以及我是多么幸運。
在我的前幾次比賽中,我試圖將近年來學到的理論轉化為技能,并從其他人那里學到很多東西。
在我對Kaggle比賽有所了解之后,我開始考慮如何以系統的方式進行競爭,因為我在軟件工程方面擁有多年的經驗。
大約半年后,我獲得了一等獎和一些信心。我以為我可能會在一年內成為一名大師。在亞馬遜地區的比賽中,我試圖獲得一枚金牌,所以當我發現自己處于第一位時,我感到很驚訝。
然后我覺得我應該繼續使用我之前提到的策略和方法,并獲得更多的成功。在我贏得了Cdiscount比賽后,我攀升到用戶排名榜首。
我認為我從Kaggle平臺中受益,我從其他人那里學到了很多東西,Kaggle的等級系統也在我的進步中發揮了重要作用。我也感到非常幸運,因為我從未預料到我能連續獲得6個獎項,我的許多比賽的目標是前10名或前1%。我不認為我可以再次復制旅程。
但是,我在這里并不是一個好的排名。我總是將每場比賽視為一次學習的機會,所以我嘗試選擇我不熟悉的領域的比賽,這迫使自己去年閱讀了數百篇論文。
您之前提到過,您喜歡閱讀過去比賽中得分最高的比賽解決方案。有沒有你會強調特別有見地?
我尊重所有獲獎者和精彩的解決方案貢獻者,我知道他們付出了多少努力。我總是以令人欽佩的態度閱讀解決方案。
一些最令人難忘的見解來自2017年數據科學碗:pytorch,醫學圖像的3D分割,網絡流量時間序列預測的解決方案,使用NLP的序列模型來解決時間序列問題,以及來自Tom的美麗解決方案(https://www.Kaggle.com/tvdwiele)和Heng(https://www.Kaggle.com/hengck23)。
轉載于:https://www.cnblogs.com/roygood/p/10404453.html
總結
以上是生活随笔為你收集整理的Toping Kagglers:Bestfitting,目前世界排名第一的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Hadoop学习(二)——MapRedu
- 下一篇: 影响最大的三位老师