日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

【数据竞赛】5行代码检测分布不一致,代码少效果好!

發布時間:2025/3/12 编程问答 22 豆豆
生活随笔 收集整理的這篇文章主要介紹了 【数据竞赛】5行代码检测分布不一致,代码少效果好! 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

5行代碼系列,是包大人班車日更精選的原理簡單明確,效果立竿見影的機器學習武器庫。

往期:

5行代碼提升GBDT,提升巨大!

5行代碼提升時間序列預測,都有用!

5行代碼實現的對比學習,效果超好!

我們還是用一道題目開場吧!

問題引入

大家都招過外包標注,怎么選出合適的數據是一個技術活。

如果你標的是圖片分類數據集,合適的含義就有兩層

第一,不一樣的類別。有太多貓貓了,那么再加數據也意義不大了。

第二,有代表性的類別,狗狗照片里面有太多柴犬了,你也得把二哈,薩摩耶,德牧,短腿柯基也弄進去。

怎么解決這個問題,給標注每天選數據呢?

這進入了我們今天的關鍵,分布不一致檢測。他有個洋氣的學術名叫concept drift detection,概念漂移檢測。

傳統的學術派解決這個問題的經典方法,就是用一個分布函數,把歷史的數據擬合出來,然后看看待檢測數據超出置信空間的水平。

以上方法有兩個問題,第一,嚴重依賴于分布函數的先驗。第二,他是無監督的,無監督聽起來就不靠譜。總結起來就是又費勁又受限。

他的應用場景有開頭的新樣本發現,如果你標的意圖識別數據,就是意圖發現。其他應用還有其他的像異常檢測,debias等。

那么今天的主角呼之欲出了,有監督,無先驗。又簡單,又好用

我以意圖發現為例(找出有可能好友新意圖類別的樣本),幾句話講明白這個方法。


方法原理

已有的數據打上0,待檢測數據打上1,然后樣本拼接,訓練一個lstm。最好做一個5折交叉驗證,然后把驗證概率大于0.9(自己設)的找出來。

他的原理就是用分類器做一個數據來源分類任務。大家都知道,兩個分布重疊的部分,一會兒0,一會兒1,模型就學懵了。

要是數量均衡的話,模型只好給你個0.5敷衍完事。既然模型在重疊的分布上敷衍了事,那我把模型有把握的部分,找出來不就行了嗎?

嗯,有把握的部分就是高置信的部分,你可以相信模型找到了一點不一樣的東西。這些不一樣的東西,才會被他學到。所以過高的置信度樣本,就是我們要找的刺頭。

除了意圖發現,結構化數據可以用這個方法來找出分布不一致的樣本和特征。

怎么做呢?和前面過程一樣,一部分給0,一部分給1。你把分類器換成LightGBM就可以了,他還可以生產特征重要性,在劃分新老數據的時候,他把特征bias的程度,給你打了一個排名。

這是以前我在PAKDD AUTOML競賽中用來處理drift特征的方法。驗證AUC大于0.65的話,特征用時間窗來更新下,刪掉一部分特別飄的。這個方法在工業界上線也挺有意義的。


代碼實現

如果你看懂了前面,基本就不需要看代碼就能實現出來了。核心原理代碼。

df_history['lable']?=?0?#歷史數據 df_now['lable']?=?1?#檢測數據 df_all?=?pd.concat([df_history,df_now]).reset_index(drop=True) model_list,prob?=?model.fit(X=?df_all['feature'],y?=?df_all['lable'],?kfold=True) df_drift = df_all[df_all['prob']>drift_thres]#找到prob>drift_thres的樣本

完整的代碼在后臺回復 漂移檢測


最后,會的同學說,這不就是adversial validation嗎?

包大人你又在這水班車日更了。

包大人:哎,你會了不代表所有人都會。班車到站了,打卡上工打灰了。

都看到了這里了,點個關注吧!包大人的精彩班車知識分享。

往期精彩回顧適合初學者入門人工智能的路線及資料下載中國大學慕課《機器學習》(黃海廣主講)機器學習及深度學習筆記等資料打印機器學習在線手冊深度學習筆記專輯《統計學習方法》的代碼復現專輯 AI基礎下載本站qq群955171419,加入微信群請掃碼:

總結

以上是生活随笔為你收集整理的【数据竞赛】5行代码检测分布不一致,代码少效果好!的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。

主站蜘蛛池模板: 欧美日韩国产一区在线 | 在线高清观看免费 | 人人妻人人澡人人爽人人dvd | 欧美黑大粗 | 综合 欧美 亚洲日本 | 日韩欧美高清片 | 亚洲青青草原 | 日韩狠狠操 | 免费成人电影在线观看 | 国产一区二区三区播放 | 久久香蕉网 | 欧美日韩在线免费播放 | av男女| 越南a级片| 99re在线视频免费观看 | 中文字幕一区二区三区门四区五区 | 国内久久久久 | 中文字幕一区二区三区人妻 | 欧美被狂躁喷白浆精品 | 狠狠干导航 | 超碰97在线资源 | 亚洲第一成年人网站 | 古装做爰无遮挡三级聊斋艳谭 | 成人免费观看网站 | 免费久久网站 | 久久久久久成人精品 | 激情视频亚洲 | 亚洲先锋影音 | 亚洲精品乱码久久久久久蜜桃不卡 | 免费一级大片 | 麻豆国产一区二区三区四区 | 日韩中文字幕一区二区三区四区 | 午夜视频在线观看网站 | 亚洲免费不卡视频 | 亚洲成人av网址 | 日日骚影院 | 又黄又色 | 91久久久久久久久久久久 | 日本在线观看www | av在线精品| 国产一区二区在线视频 | 欧美一区二区三区在线视频 | 中文字幕在线不卡 | 成人a免费 | 欧美视频在线观看视频 | 国产精品96久久久久久 | 日韩在线免费看 | 国产一区二区三区三州 | 日韩中文无 | 色婷婷aⅴ一区二区三区 | 国产免费a| 日韩精品啪啪 | 国产一级影片 | 女教师三上悠亚ssni-152 | 惊艳大片mv视频 | 久久久电影 | 色小姐av| 91一区二区三区在线观看 | 亚洲欧美色图片 | 亚洲无人区码一码二码三码 | 国产拍拍拍拍拍拍拍拍拍拍拍拍拍 | 日韩18p| 国产做受高潮漫动 | 男人插入女人阴道视频 | 乱人伦中文字幕 | 日本福利视频导航 | 美日韩在线 | 国产精品日本一区二区在线播放 | 在线播放国产一区 | 国产一区二三区 | 91禁蘑菇在线看 | 男人爽女人下面动态图 | 中国无码人妻丰满熟妇啪啪软件 | 国产欧美第一页 | 人妻少妇一区 | 午夜在线观看av | 天堂在线观看av | 三级自拍 | 亚洲成人一区二区在线观看 | 亚洲无码国产精品 | 裸体美女免费视频网站 | 中文字幕一区二区免费 | 91video| 国产女主播喷水视频在线观看 | 97精品熟女少妇一区二区三区 | 色天天综合网 | 欧美精品一二三四区 | 免费看美女被靠到爽的视频 | 亚洲欧洲国产日韩 | 最近的中文字幕 | 国产精品精品视频 | 51调教丨国产调教视频 | 欧美日韩美女 | 91久久人澡人人添人人爽欧美 | 18欧美性xxxx极品hd | 自拍偷拍21p | 国产精品久久久久毛片 | 精品视频久久久久久 | 日日干天天 |