日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

模型的燃料,数据采样的秘密

發(fā)布時(shí)間:2025/3/8 编程问答 18 豆豆
生活随笔 收集整理的這篇文章主要介紹了 模型的燃料,数据采样的秘密 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

在實(shí)踐中,采樣是非常重要的,本質(zhì)上它是利用少量的樣本來近似總體的分布,從特定的分布中抽取相應(yīng)樣本的過程。

同時(shí),不僅是推薦、搜索、廣告實(shí)際中需要,任何機(jī)器學(xué)習(xí)模型,這都是一個(gè)不得不去重視的知識(shí)點(diǎn)。

高斯分布(正態(tài)分布)的采樣方法有逆變換法、拒絕采樣法等。

  • 構(gòu)造馬爾科夫鏈,使其分布即為帶采樣目標(biāo)的分布。其中構(gòu)造馬爾科夫鏈?zhǔn)窃摬蓸臃ǖ暮诵?#xff0c;根據(jù)構(gòu)造方法的不同,對(duì)應(yīng)不同的采樣方法;
  • 從任一初始狀態(tài),沿著馬爾科夫鏈進(jìn)行狀態(tài)轉(zhuǎn)移;
  • 得到收斂于目標(biāo)分布的狀態(tài)轉(zhuǎn)移序列的一系列樣本;

根據(jù)有向圖的順序,對(duì)節(jié)點(diǎn)進(jìn)行采樣,包括最簡(jiǎn)單的祖先采樣、參考重要性的似然加權(quán)采樣和采用Metropolis Hastings方法的采樣等。

1.1 數(shù)據(jù)收集機(jī)制理解

關(guān)于我們的數(shù)據(jù)收集形式對(duì)我們進(jìn)行后續(xù)數(shù)據(jù)的使用和預(yù)處理起到非常關(guān)鍵的作用,我承認(rèn)這塊我做得不是很好,導(dǎo)致在實(shí)驗(yàn)的過程中無(wú)腦的把數(shù)據(jù)直接丟入模型,看上去模型的效果變差了,帶來了非常多錯(cuò)誤的結(jié)論。從而使得后期又不得不重復(fù)進(jìn)行實(shí)驗(yàn)。

注:公司的數(shù)據(jù)一般非常大,做大模型的話,在機(jī)器資源不夠的情況下,跑一輪得到的結(jié)果是極其浪費(fèi)時(shí)間的,關(guān)于這塊,個(gè)人最大的建議就是在直接將數(shù)據(jù)丟到模型之前,至少檢查以下幾點(diǎn)東西。

  • 重復(fù)數(shù)據(jù)觀測(cè):查看相同的id是否存在較為嚴(yán)重的重復(fù),即出現(xiàn)了較多的重復(fù)數(shù)據(jù),這些重復(fù)的數(shù)據(jù)會(huì)使得模型訓(xùn)練變差,從而帶來幻覺,這些數(shù)據(jù)是沒有意義的,但其實(shí)把重復(fù)的數(shù)據(jù)刪去之后可能結(jié)論就完全相反了;
  • 收集的數(shù)據(jù)丟失率檢測(cè):好的meta數(shù)據(jù)是建模有效的前提之一,如果數(shù)據(jù)收集的策略有問題,最差的情況是數(shù)據(jù)收集出錯(cuò)了,那就沒必要建模了;不過最常見的討論的問題還是丟失率的問題,就是理想情況下可以收集到100條數(shù)據(jù),實(shí)際只能收集到60條,這種情況的話也沒什么好說的,最簡(jiǎn)單的就是詢問工程端能否提升數(shù)據(jù)的收集率,這是最簡(jiǎn)單的,數(shù)據(jù)多了準(zhǔn)了,模型自然也會(huì)有提升的;
  • 標(biāo)簽是如何來的:在電商中,用戶點(diǎn)擊完商品并不會(huì)立即就購(gòu)買,所以購(gòu)買的信息要和前面用戶的用戶點(diǎn)擊記錄相關(guān)聯(lián),這種關(guān)聯(lián)機(jī)制也很重要,了解這些對(duì)數(shù)據(jù)預(yù)處理能帶來非常大的參考。
  • 其它的很多很多坑。

1.2 數(shù)據(jù)字段理解

這邊不想吐槽太多,目測(cè)很多公司很多業(yè)務(wù)都是類似的,尤其是當(dāng)業(yè)務(wù)發(fā)展多年的情況下,會(huì)遺留下一大堆數(shù)據(jù)表,這些表有非常多的字段,但是表的負(fù)責(zé)人已經(jīng)離職了,很多數(shù)據(jù)字段也都沒有寫備注,但是這張表又和后面的很多關(guān)鍵表相關(guān)聯(lián),這是非常頭疼的事情。

為什么說字段的理解非常重要呢?舉個(gè)例子來說,商品ID(ItemID),比如iphone12的ID,

  • 情況1:在不同的國(guó)家,iphone12都是使用同一個(gè)ItemID來表示的;
  • 情況2:在不同的國(guó)家,iphone12都是使用不同的ItemID來表示的;

這樣兩種不同的數(shù)據(jù)字段攜帶的信息量是完全不一樣的,

  • 對(duì)于情況1,iphone12是只能反映在全局情況下的情況;
  • 但是對(duì)于情況2,iphone12卻反映的是在國(guó)家細(xì)粒度下的情況;

我們知道,不同國(guó)家的iphone12的銷量可能是完全不一樣的,在貧窮的國(guó)家可能銷量就低;在富有的國(guó)家則銷量很高,所以說數(shù)據(jù)字段的理解是至關(guān)重要的,相同的字段在不同設(shè)計(jì)情況下統(tǒng)計(jì)的特征可能完全是兩碼事。

數(shù)據(jù)清洗:我們的數(shù)據(jù)中,存在非常多的臟數(shù)據(jù),這些數(shù)據(jù)的處理可以幫助我們更好地提效,使得模型訓(xùn)練得到的結(jié)果更為良性;這一塊沒有做太多的工作,可能反欺詐等團(tuán)隊(duì)做的工作會(huì)多一些,典型的就是:

  • 刷單的數(shù)據(jù);
  • 刷好評(píng)的數(shù)據(jù)等等;
  • 爬蟲的信息過濾等;
  • 其它;

對(duì)這些數(shù)據(jù)的清洗可以更為真實(shí)的反映用戶的習(xí)慣。

數(shù)據(jù)采樣:因?yàn)榇竽P瓦@塊數(shù)據(jù)量非常大,很多時(shí)候數(shù)據(jù)經(jīng)過各種merge操作之后,都可以達(dá)到上PB級(jí)別,所以模型的訓(xùn)練經(jīng)常需要有合理的采樣策略;而目前最為常見的采樣策略是基于隨機(jī)的,基于啟發(fā)式的(也就是大家經(jīng)常會(huì)使用的基于規(guī)則的),也有一些基于最新的一些論文的方式:

3.1 負(fù)樣本隨機(jī)采樣

這個(gè)基本所有的公司和數(shù)據(jù)競(jìng)賽中在樣本規(guī)模達(dá)到一定比例的時(shí)候都會(huì)有碰到,將全部的負(fù)樣本全部丟入到模型中進(jìn)行訓(xùn)練,會(huì)浪費(fèi)非常多的資源,而且常常因?yàn)轭悇e不平衡等原因經(jīng)常獲得的效果往往還不如經(jīng)過隨機(jī)采樣來的效果好。在我們的實(shí)驗(yàn)中,我們發(fā)現(xiàn):

  • 負(fù)樣本的采樣比例影響還是較大的,隨機(jī)采樣10%的負(fù)樣本和隨機(jī)采樣20%的負(fù)樣本得到的效果可能會(huì)相差一個(gè)點(diǎn),而且較為穩(wěn)定;
  • 如果有特征工程的融入,在做負(fù)樣本采樣的時(shí)候我們需要先做特征,然后再對(duì)負(fù)樣本進(jìn)行隨機(jī)采樣,否則效果會(huì)很差;

注意,這邊僅僅是對(duì)負(fù)樣本進(jìn)行隨機(jī)采樣,正樣本的量非常少,一般都是全部保留的。

3.2 基于某些規(guī)則的啟發(fā)式采樣

在電商等應(yīng)用中,很多用戶對(duì)于position位置可能比較敏感,而這些position也具有非常大的參考價(jià)值,很多用戶可能就只瀏覽了前面部分的商品,后面的曝光商品根本就沒有看,尤其是末尾的商品,但是這些信息我們又沒法捕捉,這塊很多時(shí)候需要和工程討論數(shù)據(jù)埋點(diǎn)的問題;而我們經(jīng)常會(huì)使用下面的策略去進(jìn)行嘗試,幾個(gè)典型的例子:

  • 基于曝光位置的規(guī)則:在曝光頁(yè)面,用戶只點(diǎn)擊了搜索之后的第二個(gè)曝光商品,對(duì)于后面的商品基本都是沒有處理的;這些商品用戶有沒有細(xì)細(xì)瀏覽都得打個(gè)問號(hào)?所以在很多的博客中,有些公司會(huì)嘗試將曝光位置大于最后一個(gè)點(diǎn)擊商品的位置的商品去掉,在采樣的過程中不再使用這些商品,而我們?cè)趯?shí)驗(yàn)過程中發(fā)現(xiàn)模型效果略有損失;后來我們將曝光位置大于最后一個(gè)點(diǎn)擊商品的位置+某個(gè)閾值的商品去掉,在實(shí)驗(yàn)中可以看到細(xì)微的效果提升;

  • 基于瀏覽/滑動(dòng)時(shí)長(zhǎng)的規(guī)則:用戶在瀏覽的過程中,由于疲勞或者不感興趣或者其它原因在某些頁(yè)面會(huì)快速滑動(dòng)瀏覽頁(yè),我們就可以基于端上收集的用戶的滑動(dòng)停留時(shí)長(zhǎng)等信息對(duì)負(fù)樣本進(jìn)行過濾,認(rèn)為這些樣本用戶是沒有仔細(xì)觀察的;

  • 誤點(diǎn)擊樣本過濾:上面的兩種貪心式規(guī)則都是基于負(fù)樣本進(jìn)行采樣的,當(dāng)然在大家所熟知的問題中還存在一些噪音正樣本,例如誤點(diǎn)擊的樣本,這些樣本普遍是較難判斷的,而對(duì)于模型訓(xùn)練帶來的影響也較難判斷。一般我們可以通過刪除那些點(diǎn)擊進(jìn)入之后直接就跳出的用戶(即在詳情頁(yè)停留時(shí)間極短的樣本的數(shù)據(jù)),而實(shí)踐中,我們發(fā)現(xiàn)對(duì)這些樣本進(jìn)行過濾,效果并沒有太大的變化,可能不同的場(chǎng)景會(huì)有些許差別。

上面的這三種策略基本都是可以嘗試的,但是別指望可以帶來巨大的提升,不過微弱的提升還是可以期待一下的。除此之外,我看到還有非常多其它值得嘗試的,此處僅列舉在下方,并沒有什么具體的結(jié)論。(下面這兩個(gè)來源于引文[31])

  • 基于用戶的活躍度分布采樣,用戶的活躍度一般都是一個(gè)長(zhǎng)尾分布,越活躍的用戶對(duì)應(yīng)的人數(shù)越少,但是其所占的行為越多。這種情況下,如果不考慮用戶活躍度去篩選正負(fù)樣本,難免活躍用戶所占的權(quán)重就會(huì)增大,此時(shí)有效的解決辦法是針對(duì)每個(gè)用戶提取相同的正負(fù)樣本。
  • 針對(duì)同一個(gè)內(nèi)容在不同時(shí)間對(duì)同一個(gè)用戶曝光多次的情況,這時(shí)候訓(xùn)練集中可能會(huì)出現(xiàn)同一用戶對(duì)同一內(nèi)容點(diǎn)擊與不點(diǎn)擊并存的情況,如果多次曝光的間隔非常短,考慮只使用其中的一次曝光數(shù)據(jù)。
  • 其它....

3.3 基于最新技術(shù)的方案

好像也有聽說最新的論文有使用一些最新的技術(shù),來自動(dòng)選擇好的負(fù)樣本,這塊沒有繼續(xù)研究下去了。

煉丹知識(shí)點(diǎn) 往期回顧

煉丹知識(shí)點(diǎn):模型評(píng)估里的陷阱

煉丹知識(shí)點(diǎn):那些決定模型上限的操作

總結(jié)

以上是生活随笔為你收集整理的模型的燃料,数据采样的秘密的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。

主站蜘蛛池模板: 国产精品激情偷乱一区二区∴ | 又黄又爽无遮挡 | 国产精品一区二区三区四区 | 操极品| 成人性生交大片免费卡看 | 国产麻豆剧果冻传媒白晶晶 | 欧美一区二区三区影视 | 特黄特色免费视频 | 在线观看中文字幕一区二区 | 欧美妞干网 | 色综合久久久无码中文字幕波多 | 日本美女一区二区 | 国产精品国产三级国产专区52 | 日韩avwww| 中文字幕在线看片 | 五个女闺蜜把我玩到尿失禁 | 日韩亚洲欧美在线 | 久久久久久久9 | 干日本少妇| 草民午夜理伦三级 | 久草热视频 | 色综合色综合色综合 | 香蕉视频性| 99久久这里只有精品 | 国产av天堂无码一区二区三区 | 日本69av | 久久久久97国产 | 人妻体体内射精一区二区 | 永久在线免费观看 | 久久久久久中文字幕 | 亚洲巨乳| 蜜桃成熟时李丽珍在线观看 | 青青草视频网站 | 国产一级色 | 一区二区三区在线播放 | 婷婷的五月天 | 日韩欧美h | 精品人妻少妇嫩草av无码专区 | 亚洲欧美中文日韩在线 | 成人av中文字幕 | 99自拍视频| 欧美精品视 | 色哟哟视频在线观看 | 久久久夜 | 中文一区二区在线观看 | 天天综合永久入口 | 精品一区二区三区毛片 | av一区二区三区四区 | 性xxx法国hd极品 | 春日野结衣av | 女厕厕露p撒尿八个少妇 | 国产午夜av| 国产精品三级久久久久久电影 | 18女人毛片 | 91视色| 91美女精品 | 中国美女黄色 | 国产日韩一区二区在线 | 一区二区三区在线观看av | 疯狂做爰高潮videossex | 中文字幕av一区二区三区 | 五月婷在线 | 黄色网址在线免费 | 亚洲人精品 | 精品一区二区三区免费视频 | 亚洲色中色 | 久久密av| 中文字幕亚洲乱码熟女1区2区 | 亚洲av无码专区在线 | 欧美三级又粗又硬 | 日日干夜夜骑 | 中文字幕一区二区三区av | 免费成人美女女电影 | 国产精品波多野结衣 | 久久久久久久91 | 免费午夜影院 | 黄色一级小视频 | 女人一区二区 | 男女天堂av | 精品久久免费视频 | 草草在线免费视频 | 宅男午夜在线 | 日韩女优在线视频 | 内射后入在线观看一区 | 欧美区在线| 国产亚洲精品成人 | 三级黄色图片 | 国产精品夫妻 | 精品久久久久久久久久久久久久 | 欧美黄网在线观看 | 国产九色91回来了 | 好了av在线 | 在线视频日韩欧美 | 色久天堂| 天天操天天操天天操天天 | 国产馆视频 | 男人懂的网站 | 曰批视频在线观看 | 日韩欧美亚洲国产精品字幕久久久 |