日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Toping Kagglers:Bestfitting,目前世界排名第一

發布時間:2025/3/8 编程问答 23 豆豆
生活随笔 收集整理的這篇文章主要介紹了 Toping Kagglers:Bestfitting,目前世界排名第一 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

Toping Kagglers:Bestfitting,目前世界排名第一

Kaggle團隊?|2018年5月7日

我們在排行榜上排名第一 - 這是兩年前令人驚訝地加入該平臺的競爭對手。Shubin Dai,他的朋友們更喜歡Kaggle或賓果游戲,他是一位住在中國長沙的數據科學家和工程經理。他目前領導著一家為銀行提供軟件解決方案的公司。在工作之外,在Kaggle之外,戴是一個狂熱的山地車手,喜歡在大自然中度過時光。這里是最好的:

你能告訴我們一些你自己和你的背景嗎?

我主修計算機科學,擁有超過10年的軟件開發經驗。為了工作,我目前領導一個為銀行提供數據處理和分析解決方案的團隊。

從大學開始,我一直對使用數學來構建解決問題的程序感興趣。我不斷閱讀各種計算機科學書籍和論文,很幸運能夠跟蹤過去十年中在機器學習和深度學習方面取得的進展。

你是如何從Kaggle比賽開始的?

如前所述,我一直在閱讀很多關于機器學習和深度學習的書籍和論文,但發現我總是很難將我學到的算法應用到現有的小數據集上。所以我發現Kaggle是一個很棒的平臺,有各種有趣的數據集,內核和很棒的討論。我迫不及待想要嘗試一下,并首次進入“預測紅帽商業價值”競賽。

在參加新比賽時,你的第一個行動計劃是什么?

在競賽發布的第一周內,我創建了一個解決方案文檔,隨著競爭的繼續,我會跟進并更新。要做到這一點,我必須首先嘗試了解手頭的數據和挑戰,然后研究類似的Kaggle比賽和所有相關論文。

你的迭代周期是什么樣的?

  • 仔細閱讀比賽的概述和數據描述
  • 查找類似的Kaggle比賽。作為一個相對較新的人,我收集并完成了所有Kaggle比賽的基本分析。
  • 閱讀類似比賽的解決方案。
  • 閱讀論文以確保我不會錯過任何進展。
  • 分析數據并建立穩定的簡歷。
  • 數據預處理,特征工程,模型培訓。
  • 結果分析,如預測分布,錯誤分析,硬實例。
  • 根據分析精心設計模型或設計新模型。
  • 基于數據分析和結果分析,設計模型以增加多樣性或解決硬樣本。
  • 合奏。
  • 如有必要,返回前一步。
  • 您最喜歡的機器學習算法是什么?

    我根據具體情況選擇算法,但我更喜歡使用簡單的算法,例如在整體時使用嶺回歸,我總是喜歡從resnet-50開始,或者在深度學習競賽中設計類似的結構。

    你最喜歡的機器學習庫是什么?

    我非常喜歡計算機視覺競賽中的pytorch。我在NLP或時間序列比賽中使用tensorflow或keras。在進行分析時,我在scipy家族中使用seaborn和產品。并且,scikit-learn和XGB始終是很好的工具。

    您對超調整參數的方法是什么?

    我嘗試根據我對數據的理解和算法背后的理論來調整參數,如果我無法解釋為什么結果更好或更差,我將感到不安全。

    在深度學習競賽中,我經常搜索相關論文并試圖找到作者在類似情況下所做的事情。

    并且,我將比較參數更改之前和之后的結果,例如預測分布,受影響的示例等。

    您對實體交叉驗證/最終提交選擇和LB擬合的方法是什么?

    良好的簡歷是成功的一半。如果我找不到評估模型的好方法,我不會進入下一步。

    要建立穩定的簡歷,您必須充分了解數據和面臨的挑戰。我還要檢查并確保驗證集具有與訓練集和測試集類似的分布,并且我將嘗試確保我的模型在我的本地簡歷和公共LB上都得到改進。

    在一些時間序列比賽中,我將數據留出一段時間作為驗證集。

    我經常以保守的方式選擇我的最終提交,我總是選擇我的安全模型的加權平均集合并選擇相對危險的一個(在我看來,更多的參數等同于更多的風險)。但是,我從來沒有選擇過我無法解釋的提交,即使公共LB得分很高。

    簡而言之,贏得比賽的是什么?

    良好的簡歷,從其他比賽中學習,閱讀相關論文,紀律和心理韌性。

    你最喜歡的Kaggle比賽是什么?為什么?

    自然保護和醫療相關比賽是我最喜歡的。我覺得我應該,也許可以做一些事情來改善我們的生活和地球。

    您最興奮的機器學習領域是什么?

    我對深度學習的各種進步感興趣。我想用深度學習來解決除了計算機視覺或NLP之外的問題,所以我嘗試在我參加的比賽和常規職業中使用它們。

    在解決數據科學問題時,域專業知識對您有多重要?

    坦率地說,我認為我們不能從領域專業知識中獲益太多,原因如下:

  • Kaggle仔細準備了比賽數據,這對每個人都很公平;
  • 僅僅通過使用成熟的方法來贏得比賽是非常困難的,特別是在深度學習比賽中,因此我們需要更多創造性的解決方案;
  • 數據本身更重要,盡管我們可能需要閱讀一些相關的材料。
  • 但是,有一些例外。例如,在亞馬遜地球競賽中,我確實從我的個人雨林經歷中獲得了想法,但這些經驗在技術上可能不稱為領域專業知識。

    你認為你最有創意的技巧/發現/方法是什么?

    我認為這是在一開始就準備解決方案文檔。我強迫自己制作一份清單,其中包括我們所面臨的挑戰,我應該閱讀的解決方案和論文,可能的風險,可能的簡歷策略,可能的數據增加以及添加模型多樣性的方法。而且,我一直在更新文檔。幸運的是,這些文件大部分都是我為競賽主辦方提供的解決方案。

    你目前在工作中如何使用數據科學,并且在Kaggle的幫助下進行競爭?

    我們嘗試在銀行業的各種問題中使用機器學習:預測銀行網點的訪客,預測我們應該為ATM準備的現金,產品推薦,操作風險控制等。

    在Kaggle上競爭也改變了我的工作方式,當我想找到解決問題的解決方案時,我會嘗試找到類似的Kaggle比賽,因為它們是寶貴的資源,我也建議我的同事研究類似的,獲勝的解決方案,以便我們可以從他們那里收集想法。

    您對高模型復雜性和培訓/測試運行時之間的權衡有何看法?

    以下是我的意見:

  • 訓練/測試運行時只有在真正成為問題時才很重要。當準確性最重要時,模型的復雜性不應該太過關注。當獲得的培訓數據來自幾個月的努力工作時,我們必須充分利用它們。
  • 現在只使用弱模型的集合來贏得競爭是非常困難的。如果你想成為1號,你通常需要非常好的單一型號。當我想確保參加單人比賽的第一名時,我經常強迫自己設計不同的模型,可以達到LB的前10名,有時甚至是前3名。組織者可以選擇其中任何一個。
  • 根據我自己的經驗,我可以在競賽中設計模型來探索這個問題的上限,并且選擇一個簡單的模型以使其在真實情況下可行并不困難。我總是盡力為組織者提供一個簡單的組織者,并在獲勝者的電話中與他們討論。我發現一些組織者甚至使用我們的解決方案和想法來解決他們面臨的其他問題。
  • 我們可以發現,當訓練/測試運行時非常重要時,Kaggle有很多機制來確保性能:內核競爭,團隊規模限制,添加更多在評分時未計算的數據等。我相信Kaggle也會改進根據挑戰目標制定規則。
  • 你是如何在Kaggle比賽中變得更好的?

    有趣的比賽和Kaggle的優秀競爭對手讓我變得更好。

    在這里有這么多偉大的競爭對手,贏得比賽是非常困難的,他們把我推到了極限。去年我試圖盡可能多次完成我的比賽獨奏,我必須猜測所有其他競爭對手會做什么。要做到這一點,我必須閱讀大量材料并構建多功能模型。我在比賽結束后閱讀了其他競爭對手的所有解決方案。

    您是否對最近或正在進行的機器學習研究感到興奮?

    我希望今年可以參加Kaggle的強化學習比賽。

    你在排行榜上升得非常快(僅用了15個月)。你是怎么做到的?

    首先,No.1是衡量我在Kaggle學到了多少以及我是多么幸運。

    在我的前幾次比賽中,我試圖將近年來學到的理論轉化為技能,并從其他人那里學到很多東西。

    在我對Kaggle比賽有所了解之后,我開始考慮如何以系統的方式進行競爭,因為我在軟件工程方面擁有多年的經驗。

    大約半年后,我獲得了一等獎和一些信心。我以為我可能會在一年內成為一名大師。在亞馬遜地區的比賽中,我試圖獲得一枚金牌,所以當我發現自己處于第一位時,我感到很驚訝。

    然后我覺得我應該繼續使用我之前提到的策略和方法,并獲得更多的成功。在我贏得了Cdiscount比賽后,我攀升到用戶排名榜首。

    我認為我從Kaggle平臺中受益,我從其他人那里學到了很多東西,Kaggle的等級系統也在我的進步中發揮了重要作用。我也感到非常幸運,因為我從未預料到我能連續獲得6個獎項,我的許多比賽的目標是前10名或前1%。我不認為我可以再次復制旅程。

    但是,我在這里并不是一個好的排名。我總是將每場比賽視為一次學習的機會,所以我嘗試選擇我不熟悉的領域的比賽,這迫使自己去年閱讀了數百篇論文。

    您之前提到過,您喜歡閱讀過去比賽中得分最高的比賽解決方案。有沒有你會強調特別有見地?

    我尊重所有獲獎者和精彩的解決方案貢獻者,我知道他們付出了多少努力。我總是以令人欽佩的態度閱讀解決方案。

    一些最令人難忘的見解來自2017年數據科學碗:pytorch,醫學圖像的3D分割,網絡流量時間序列預測的解決方案,使用NLP的序列模型來解決時間序列問題,以及來自Tom的美麗解決方案(https://www.Kaggle.com/tvdwiele)和Heng(https://www.Kaggle.com/hengck23)。

    轉載于:https://www.cnblogs.com/roygood/p/10404453.html

    總結

    以上是生活随笔為你收集整理的Toping Kagglers:Bestfitting,目前世界排名第一的全部內容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。