日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

2021年最值得期待的数据智能赛事之一,有何解题妙招?

發布時間:2024/10/8 编程问答 51 豆豆
生活随笔 收集整理的這篇文章主要介紹了 2021年最值得期待的数据智能赛事之一,有何解题妙招? 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

在 GIS(Geographic Information System)領域,由國際計算機學會 ACM 空間信息專業委員會主辦的 ACM SIGSPATIAL,被認為是 GIS 科學與計算機科學結合最廣泛的國際頂級會議。

今年,滴滴聯合 ACM SIGSPATIAL,共同舉辦 2021 ACM SIGSPATIAL GISCUP 比賽,這也是 ACM SIGSPATIAL 會議是第一次離開美國在北京舉辦。

近日,以該賽事為主題,滴滴、biendata 、ACM SIGSPATIAL 中國分會、paper weekly 和 AI time 合作發起了一次賽題解析直播。

2021 ACM SIGSPATIAL GISCUP 的賽題是 “預估到達時間”(Estimated time of arrival,下文簡稱 “ETA”)。賽事詳情可參見:

  • SIGSPATIAL 2021 官網:

    https://sigspatial2021.sigspatial.org/sigspatial-cup/

  • Biendata 官網(點擊文末“閱讀原文”即可訪問):

    https://www.biendata.xyz/competition/didi-eta/

直播主講人為滴滴公司地圖與公交事業部的資深算法工程師劉欣悅。她于 2019 年加入滴滴,擔任地圖與公交事業部 ETA 和路況策略團隊資深算法工程師,主要負責滴滴平臺 ETA 和預估算法優化的相關工作,在大規模深度學習模型方面經驗豐富。

直播中,她詳細介紹了比賽數據和賽題,并分享了滴滴在提升 ETA 能力上的實踐經驗,希望鼓勵參與者基于滴滴發布的新數據集,進一步提升時間預估的準確性。

目前,比賽使用的行程時長數據集已通過滴滴蓋亞數據開放計劃(https://outreach.didichuxing.com/research/opendata/)對外發布,囊括了 2020 年 8 月在深圳經過脫敏處理的出行時間數據。

一、賽題:預估到達時間難在哪里?

作為大賽賽題,ETA 本身是一個較實用且容易理解的場景。

日常生活中,我們經常會說 “上下班路程大概要半個小時”,或者 “大約 5 分鐘以后才能到目的地” 等,這些都是比較籠統的 ETA 的說法。

在滴滴或者其他地圖工具的使用場景中,往往需要一個更加精細化的 ETA。

無論是滴滴的各個產品線上,還是其他地圖工具,或多或少都會涉及這個議題。

如下圖中導航界面的截圖,可以看到三條路線,每條路線都會有一個預估的到達時間。這樣可以方便用戶在出行的時候,結合該時間來選擇更適合自己的路線。

另外,預估到達時間也是同一個起點、終點之間多條路線間排序的重要特征,它可能會影響優先展示給用戶的路線是哪一條。用戶可以根據預估到達時間來安排自己的日程。

在滴滴網約車場景中,預估費用是根據路線距離和預估行程時間來計算得出的,所以,ETA 會直接影響到乘客對出行方式的選擇。

在拼車的場景中,如何判斷將哪些乘客拼成一個訂單,ETA 也是一個非常重要的指標,它直接決定著訂單的拼成率。

所以,可以看到,在滴滴的各產品線,ETA 必要性體現在用戶決策、路線排序、行程安排、價格預估、拼車成本 5 個方面,它的準確性會直接影響乘客的體驗和司機的效率。

不過,要想預估準確,并不是一件很容易的事情。

即便是同一條路線,在不同的時刻出發,可能會面臨不同的路況環境,花費的時間也會差很多。

比如早晚高峰、工作日和周末的擁堵情況和擁堵時間段都不太一樣,由此帶來的路況變化和波動,會直接導致路線花費時間差距變大。

如果遇到了極端天氣,或者是一些突發的交通事故,比如說演唱會或者重大賽事等等,也會帶來路況的變化。

例如,今年 3 月份某個周五下午,北京突降暴雨,那一天,幾乎所有的訂單都比平時要慢很多。事后,我們統計了那一天的訂單分布,可以看到的是,從下午開始,訂單時間明顯比一個普通周五的平均訂單時間要長。所以,如果當天我們用了一個正常模型來預測,那么情況會變得很困難。

另外,還有一些可以預想到的日常會發生的情況,比如說紅綠燈的影響,有的人可能會運氣比較好,一路上沒有碰到什么紅燈,有的人在同一條路就反復碰到,同樣會影響預測結果。

簡而言之,異常天氣、特殊事件 / 突發事故,是提高 ETA 準確率所要面臨的主要挑戰。

本次比賽的 ETA 任務,使用的數據由滴滴蓋亞數據開放計劃提供,即 “行程到達時間預估數據集”。數據為 2020 年 8 月份深圳市網約車的真實訂單數據,這一整個月的訂單數據含有出發時間日期、行程路線、路況信息、網絡拓撲結構等信息。

且該數據集已經進行了脫敏處理,所有訂單數據都不包括任何司機和乘客的個人信息。比賽任務即根據這些特征來預測每個訂單的到達時間。

接下來,將介紹滴滴蓋亞數據開放計劃以及比賽流程。

通過滴滴蓋亞數據開放計劃,滴滴將脫敏數據集開放給學術界,希望攜手學界一起去探索科學的邊界,共同產出一定的學術成果。

截止目前,滴滴已經陸續開放了十五大特色數據集,可在滴滴蓋亞數據開放計劃的官網下載這些數據集用于科學研究,目前已有 1 萬余人次進行了數據集的申請。這一系列數據集也已支持了大量的 AI 類競賽,包括 2020 KDD CUP、CCF BDCI 路況預測競賽,以及這一次的 SIGSPATIAL GISCUP ETA 競賽。統計顯示,已有 90 篇以上學術文章采用了這些數據。且這些數據也為很多高校提供了支持,至少有 20 多個教師團隊進行了相關課程建設。

滴滴希望,這些數據集能夠真正幫到學術界的老師和同學產出對社會有幫助的科研成果。

具體的比賽流程方面,本次比賽在 4 月 23 日正式對外開放注冊,目前仍可以進行注冊。

其中,4 月 30 日至 8 月 9 日是參賽選手的成果提交階段,選手需要提交測試集的預測結果。此次比賽采用 ab 榜的機制,8 月 2 日前,選手可使用 a 榜每日測試自己模型的當前水平。組隊截止時間為 8 月 2 日,當日也將公布 b 榜的競賽數據。

8 月 31 日正式公布比賽結果,比賽結果以 b 榜的成績為準,獲得前 5 名的隊伍需要提交一份訓練的代碼及注釋、可復現最高分的預測模型,最后按照 ACM 的格式要求,產出一篇不多于 4 頁的英文論文,論文提交的截止時間是 9 月 15 日。

11 月 2-4 日,前 5 名的參賽隊伍會受邀參加 SIGSPATIAL2021 進行現場展示,同時也歡迎其他的參賽選手參加這次會議。

此次比賽總獎金池達到 25,000 美元。其中,冠軍隊伍一名,將會獲得 1 萬美元的獎勵。亞軍兩名,將分別獲得 5000 美元,季軍隊伍兩名,將分別獲得 2500 美元。獎金力度非常可觀。

?

二、大賽數據字段詳解

此次大賽提供了三份數據,本節將對第一份數據 —— 行程路線和路況數據進行詳解。

該數據分為三個部分,每個部分之間用兩個分號分隔。

第一個部分是 head 部分,字段之間由空格隔開。

link 部分和 cross 部分都是序列數據,每個序列中會有很多小段數據,每一個小段數據都有自己的特征。小段之間用空格隔開,特征之間是用逗號隔開,詳細的格式網頁上都會有說明。

在此,進一步詳細說明每個字段的含義:

l ?ATA,是指實際到達時間,也是這次比賽的一個 label 和訓練的目標。ATA 的獲得方式是乘客到達時間減去乘客上車時間,單位是秒。我們以 ATA 為訓練目標進行訓練。

l ?Drive ID,是指行程里駕車司機的 ID,已經過脫敏處理,不涉及司機個人信息。

l ?Distance,是路線的路面距離,單位是米。

l ?Slice ID,代表的是乘客上車的時間,它由時間轉換而來,每 5 分鐘有一個對應的 ID, 24 小時循環一次。

l ?Link ID,指路線中的每一個子路段的 ID。兩個圓點之間就是一個 link。

l ?Link time,是指平均通過一個 link 的時間。滴滴在計算過程中做了一些軌跡的數據清理,總的來說,link time 是一個比較準確的平均統計值,但是因為它是用歷史軌跡統計出來的,所以沒有任何預測含義。我們可以直接用 link time 累加作為 ETA,但是它可能在預估上不含有任何未來信息,所以不會特別準。Link time 考慮了 link ratio。

l ?Link ratio,指的是 link 在整條路線中被覆蓋到的比例,除了頭尾 link 以外都是 1,頭尾可能 < 1。

l ?Link current status,代表的是該 link 的路況狀態,路況狀態正常情況下有 4 個等級,1 等于暢通,2 是緩行,3 是擁堵,4 是極度擁堵。需要注意,這是乘客上車時候的路況。

l ?Link arrival status,是司機到達時刻該 link 的路況狀態。它相當于一個泄露信息,因為不可能在行程開始的時候就獲知這一信息,所以測試集中不包含這一字段,只有訓練集有。

l ?Link?長度已經過脫敏處理。

l ?Cross ID,代表的是紅綠燈路口的概念,數據是由一個 link ID 加一個下劃線,再加一個 link ID 組成的。兩個 link ID 分別代表的是進和出這一路口的 link。

l ?Cross time,是路口的一個平均等待紅綠燈的時間,屬于挖掘值,它也是利用歷史軌跡統計出來的。

l ?Simple ETA?, 是全程所有 link time 和 cross time 之和。

第二份數據是路網的拓撲結構數據。拓撲數據總共有兩列,第一列代表一個 link id;第二列是由逗號分隔的很多個 link ID,它代表的是 link ID 的每一個下游,它們的順序是沒有前后關系的。

另外,還有一份天氣數據 —— 深圳 2020 年 8 月份整個月的天氣情況,包括了當天的晴雨情況以及最高氣溫和最低氣溫。

?

三、比賽評測標準:MAPE 權威計分

本次比賽的評測標準采用 MAPE(Mean absolute percentage error)進行計分。

主辦方將會使用模型產出的訂單 ETA 減去它作為 label 的 ata 獲得的絕對值,除以 ata 得到一個比值,最終所有測試集取均值作為分數。

如果出現兩個隊伍分數相同,則以提交次數更少的隊伍為獲勝方。如果兩個隊伍提交的分數和次數都相同,則按照提交時間早的隊伍為獲勝方。

之所以用 MAPE 作為評測標準,是因為,目前它在業界和學術界都是一個獲得通用認可的指標。

同時,在我們日常的感受中,它也是更接近用戶感知的。

一條比較長的路線,人們可能會認為稍微高估 5 分鐘或者低估 5 分鐘,差別不是特別的明顯。但是如果全程就只有 10 分鐘,系統還高估 5 分鐘,你會感覺預測特別不準,而 MAPE 在這一點上也是比較結合這種感受的。

?

四、滴滴解決 ETA 任務的總結

正如上文所提,滴滴在 ETA 任務的處理上有著長期的積累,本節將分享滴滴團隊在 ETA 上嘗試過的思路和方法,以幫助參賽者碰撞出更好的解決方案。

首先,ETA 是一個回歸問題。理論上,要預測一個 ETA 的值,我們現在可以想到的幾乎所有的回歸問題解法,在這個場景上都是可以使用的。

同時,鑒于這些數據有很明顯的序列特征,進一步地,可以很明確地想到一些序列的建模方式,比如說 LSTM,把它套用到這些有序列特征的模型上是比較方便的。

另一方面,ETA 問題可能和 NLP 中存在很明確上下文關系的情況又不是那么相似,即沒有那么強烈的上下文依賴性,所以,有的時候可以用例如 CNN 這樣的深度網絡也是可行的。

第二個思路是考慮鄰域的影響。路網數據本身是有鄰域的關系,除了受到路線的上下游影響之外,也可能會受到自己在地圖網中的上下游的影響,所以,鄰域之間的影響是存在的。

加之本次比賽也開放了拓撲關系的路網數據,利用拓撲關系,可以結合圖神經網絡的建模方式,讓模型學到更多的上下游信息,豐富模型的特征表。

第三個思路在于,上文有提到,ETA 的難點之一是路況變化會導致預估難度增加。

如上圖所示,出發時刻的路況是左圖,路線上有一小段擁堵,大部分是緩行。但當司機已經開到擁堵路段附近時,又變成了全程擁堵的情況,最終開過去 500 米用了整整 10 分鐘。

這就是路況變化帶來的預估困難問題。而這次的數據有泄露的特征,即到達時刻的路況。之所以提供了泄露的特征,是希望引導參賽者考慮讓模型能夠在訓練的過程中學到路況有可能變化的信息,增強模型本身對變化的感知力。

第四個思路是特征工程。我們經常說,一個模型的上限其實是由特征來決定的,所以,建議參賽者在建模的時候,不要忽略特征工程可以帶來的收益。

本次比賽提供的數據特征雖然都是相同的,但是選手可以通過自己去挖掘數據中的特征統計值、以及數據之間的組合方法和變換方式,去發現更多的、有統計含義的信息來豐富特征,可能會達到更好的預測效果。

直播回放地址:?

【賽事分享】2021 SIGSPATIAL GISCUP 滴滴ETA賽題解析-嗶哩嗶哩】

https://b23.tv/eBnmgc

????

現在,在「知乎」也能找到我們了

進入知乎首頁搜索「PaperWeekly」

點擊「關注」訂閱我們的專欄吧

關于PaperWeekly

PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。

總結

以上是生活随笔為你收集整理的2021年最值得期待的数据智能赛事之一,有何解题妙招?的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。