知乎上砍手豪关于kaggle的观点(转载)
知乎上的砍手豪的kaggle主頁是:
https://www.kaggle.com/h4211819/competitions
此人以數(shù)據(jù)挖掘為主,下面是他在知乎上寫的我發(fā)現(xiàn)的比較有用的一些觀點.
?
比賽的一開始就有人教大家怎么probing leaderboard,如果用那些被探測到的數(shù)據(jù),
自然就很容易在LB混到好名次,所以比賽完了自然要掉名次。
其次跟19%,81%沒啥關(guān)系,照說本來就該用local CV的,去過擬合public board的只能說根本還沒入門機器學習。
GBDT對參數(shù)其實沒那么敏感,對異常值敏感
就說我參賽的經(jīng)歷吧,我就發(fā)現(xiàn)X236=1的時候全是大數(shù),
然而總共也就只有兩個樣本,
天知道是outlier還是有價值的pattern,
像隨機森林和線性模型基本都會忽略這種聯(lián)系,
但是gbdt這種對outlier敏感的會在某些random seed的情況下體現(xiàn)出這個聯(lián)系的影響。
用xgboost這類Tree Based model啦
題主也是在做kaggle的俄羅斯房地產(chǎn)題吧
按照我做這個題的經(jīng)驗,任何企圖填充NaN和outlier的行為都會使xgboost的score下降...
data>model>feature engineering>ensemble(這個不一定對,因為有些數(shù)據(jù)集就是存在兩種相反的規(guī)律,就是需要不同的模型混合)
提到了嫁接學習:
https://github.com/plantsgo/ijcai-2018
下面這個鏈接提到了把數(shù)據(jù)重新排布下,提高四個萬分位
https://zhuanlan.zhihu.com/p/36580283
愿意分享代碼的其實主要是排名2%~3%的Olivier,andy harless這樣的選手。
提到了對重復(fù)樣本的檢測
https://zhuanlan.zhihu.com/p/50203168
kaggle的比賽真的靠ensemble嗎?
所有人談?wù)搆aggle的時候都不區(qū)分討論tabular比賽和cvnlp 這種nn類比賽,
我覺得nn類比賽確實連簡單的seed average都可以得到不錯的分數(shù)提升,
但是在tabular比賽里,xgb和lgb是非常強大穩(wěn)定的模型,ensemble的提升
在我看來其實是非常有限的。
我個人觀點,除了匿名數(shù)據(jù)賽外,一個比賽獲勝的重要性是:
好的baseline>業(yè)務(wù)理解(特征工程+數(shù)據(jù)清理等等)>模型融合,
xgb/lgb作為tabular比賽強大而穩(wěn)定的模型,想像nn那樣多跑幾個多樣性上分,
可能收益還不如細微的抖動。
ensemble主要用于將一個互不認識的大團隊成員短期快速整合的手段,
事實上上面很多隊伍還只是簡單線性疊加而已,也不會比ensemble差。
16年及以前,kaggle幾MB甚至幾百kb的小數(shù)據(jù)匿名賽比例較大,
有靠這個刷到GM的,所以那時候給人一種kaggle要靠大量模型堆疊的感覺。
大佬蛙哥回復(fù)表示:
在訓(xùn)練集和測試機分布不完全一致的時候,pseudo-labelling是殺手锏級別方法。
https://www.kaggle.com/c/jigsaw-toxic-comment-classification-challenge/discussion/52557#300898
(這個方法我試了下,毛病就是非常容易爆內(nèi)存,本地需要有較好的設(shè)備才容易進行)
總結(jié)
以上是生活随笔為你收集整理的知乎上砍手豪关于kaggle的观点(转载)的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Adam是RmsProp和momentu
- 下一篇: 关于高并发的一些笔记