日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

【数据竞赛】十大重要的时间组合特征!

發布時間:2025/3/12 编程问答 13 豆豆
生活随笔 收集整理的這篇文章主要介紹了 【数据竞赛】十大重要的时间组合特征! 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

作者:塵沙杰少、櫻落、新峰、DOTA、謝嘉嘉

特征工程--無序類別&時間信息的組合特征!

前 言

本篇文章我們會介紹10大與時間相關的組合特征,這些特征在95%涉及到時間信息的競賽中都是極為重要的特征,也是以往Top選手與新手拉開差距的重要部分。

無序類別特征+時間特征

為了方便表示我們將A作為無序類別特征,B作為時間特征。無序類別特征與時間特征的交互往往是決定比賽走向的一大極為重要的特征,此處我們就列舉在實踐過程中上分最多的幾大特征。

1. 基于A/B一次差值特征

該特征可以表示A出現的時間間隔;該特征在點擊預估等的問題中都是非常重要的特征。如果A表示商品的話,那么基于A/B差值特征就表示A商品被瀏覽/購買/點擊的時間差。

df['A_B_diff1']?=?df['B']?-?df.groupby('A')['B'].shift()

2.基于A/B二次差值特征

基于A/B一次差值特征的差值可以認為是最近的(即shift(1)的)的差值,自然我們也可以是兩次的,即shift(2)的,或者多次的,但是實踐中我們發現一般shift(3)及以上的效果就不是很明顯了。

df['A_B_diff2']?=?df['B']?-?df.groupby('A')['B'].shift(2)

3.基于A與A/B一/二次差值特征的統計特征

該特征的構建是基于A/B一次/二次差值特征的,我們在A/B差值特征的基礎之上再計算A關于A/B差值特征的統計特征,例如:

  • 均值;

  • 方差;

  • 中位數;

  • 偏度;

  • 分位數(四分位數等);

  • 眾數;

  • skewness;

  • 峰度系數;

  • 其它統計特征。

該特征可以很好地反映A在時間戳上的諸多信息,如果基于A與A/B差值特征的最大值和最小值的差值很小或者方差相對很小,這就暗示可能存在較強的周期性,A可能會出現在固定的時間周期內。

df['A_A_B_diff1_sts']?=?df.groupby('A')['A_B_diff1'].apply(sts)? df['A_A_B_diff2_sts']?=?df.groupby('A')['A_B_diff2'].apply(sts)?

4. 基于A/B差值的差值以及對應統計特征

如果說基于A/B差值特征是一階滑動,那么基于A/B差值的差值就是二階了,該特征一般直接加入也可以為模型帶來微弱的提升。因為和基于A/B的差值是類似的,此處我們給出其計算方式,其它的不再贅述。

類似地,我們也可以做shift(N),N>1的差值,但這么做的物理意義會差一些,實際中也很少能帶來提升。

df['A_B_diff1_diff']?=?df['A_B_diff1']?-?df.groupby('A')['A_B_diff1'].shift()? df['A_B_diff1_diff_sts']?=?df.groupby('A')['A_B_diff1_diff'].apply(sts)?

5.A的第一次出現時間

A的第一次出現時間也就是接觸A的第一次時間,該特征具有非常強的意義。

df['A_B_first']?=??df.groupby('A')['B'].first()??

6.A的最后一次出現時間

A的最后一次出現時間也就是接觸A的最后一次時間,該特征和第一次時間互為補充。

df['A_B_last']?=??df.groupby('A')['B'].last()??

7.當前距離A出現第一次時間的時間差

A從第一次被接觸到最后一次被接觸的時間的差值。

df['B_A_B_first_diff']?=??df['B']?-?df['A_B_first']

8.當前距離A最后一次出現時間的時間差

A距離最后一次接觸的時間的差值。

df['B_A_B_first_last']?=??df['B']?-?df['A_B_last']

9.A出現的時間gap

A最后一次出現和第一次出現的時間的差值。

df['A_B_gap']?=?df['A_B_last']?-?df['A_B_first']

10.平均每次A出現的時間

A每次出現的平均時間。

df['A_B_first_last_div_count']?=?(df['A_B_last']?-?df['A_B_first'])?/?df['A_B_count']??

小結

本篇文章我們列舉了特征工程中無序類別變量時間變量的十大重要組合特征,這些是最為重要的一組特征,也是傳統策略中上分最多的一組特征,除此之外與時間特征進行組合的特征還有非常多,我們將會在本系列的下一篇中進行介紹。

往期精彩回顧適合初學者入門人工智能的路線及資料下載機器學習及深度學習筆記等資料打印機器學習在線手冊深度學習筆記專輯《統計學習方法》的代碼復現專輯 AI基礎下載機器學習的數學基礎專輯溫州大學《機器學習課程》視頻 本站qq群851320808,加入微信群請掃碼:

總結

以上是生活随笔為你收集整理的【数据竞赛】十大重要的时间组合特征!的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。