【NLP】DataCLUE: 国内首个以数据为中心的AI测评
DataCLUE
以數據為中心的AI測評(含模型和數據分析報告)
DataCLUE: A Chinese Data-centric Language Evaluation Benchmark
Github項目地址:
https://github.com/CLUEbenchmark/DataCLUE
官網:
www.CLUEbenchmarks.com/dataclue.html?或 www.clue.ai
內容導引
| 簡介 | 介紹以數據為中心的AI測評(DataCLUE)的背景 |
| 任務描述 | 任務描述 |
| 實驗結果 | 針對各種不同方法,在FewCLUE上的實驗對比 |
| 實驗分析 | 對人類表現、模型能力和任務進行分析 |
| 數據為中心的AI_方法論介紹 | 數據為中心的AI:方法論介紹 |
| DataCLUE有什么特點 | 特點介紹 |
| 基線模型及運行 | 支持多種基線模型 |
| DataCLUE測評及規則 | DataCLUE測評及規則 |
| 數據集介紹 | 介紹數據集及示例 |
| 貢獻與參與 | 如何參與項目或反饋問題 |
簡介
以數據為中心(Data-centric)的AI,是一種新型的AI探索方向。它的核心問題是如何通過系統化的改造你的數據(無論是輸入或者標簽)來提高最終效果。傳統的AI是以模型為中心(Model-centric)的,主要考慮的問題是如何通過改造或優化模型來提高最終效果,它通常建立在一個比較固定的數據集上。最新的數據顯示超過90%的論文都是以模型為中心的,通過模型創新或學習方法改進提高效果,即使不少改進影響可能效果并不是特別明顯。有些人認為當前的人工智能領域, 無論是自然語言處理(如BERT) 或計算機視覺(ResNet), 已經存在很多成熟高效模型,并且模型可以很容易從開源網站如github獲得;而與此同時,工業界實際落地 過程中可能有80%的時間用于 清洗數據、構建高質量數據集,或在迭代過程中獲得更多數據,從而提升模型效果。正是看到了這種巨大的差別,在吳恩達等人的推動下這種 以數據為中心 (Data-centric)的AI進一步的系統化,并成為一個有具有巨大實用價值方法論。
DataCLUE是一個以數據為中心的AI測評。它基于CLUE benchmark,結合Data-centric的AI的典型特征,進一步將Data-centric的AI應用于 NLP領域,融入文本領域的特定并創造性豐富和發展了Data-centric的AI。在原始數據集外,它通過提供額外的高價值的數據和數據和模型分析報告(增值服務)的形式, 使得融入人類的AI迭代過程(Human-in-the-loop AI pipeline)變得更加高效,并能較大幅度的提升最終效果。
任務描述
參與測評者需要改進任務下的數據集來提升任務的最終效果;將使用固定的模型和程序代碼(公開)來訓練數據集,并得到任務效果的數據??梢詫τ柧毤Ⅱ炞C集進行修改或者移動訓練集和驗證集建的數據,也可以通過非爬蟲類手段新增數據來完善數據集??梢酝ㄟ^算法或程序或者結合人工的方式來改進數據集。參與測評者需提交修改后的訓練集和驗證的壓縮包。
任務描述和統計
實驗結果
| Human | 80.30 |
| Baseline | 56.42 |
| Model-centric | 59.31 |
| Data-centric | Report?on 2021-09-15 |
實驗分析
TODO 這里是實驗分析 需要結合實驗數據做一些說明。以模型為中心、以數據為中心效果是否一樣的呢,或者某種方式可以得到更好的效果。
數據為中心的AI-方法論介紹
這里簡單介紹一下以數據為中心的AI的方法論。包括一張圖介紹一下流程,并做一下說明;可以附加tips。
流程圖:1.定義任務-->2.收集數據--->3.訓練模型-->4.部署模型
系統化方式、通過迭代形式改進數據集: #1.訓練模型; #2.錯誤分析:發現算法模型在哪些類型的數據上表現不佳(如:數據過短導致語義沒有表達完全、一些類別間概念容易混淆導致標簽可能不正確) #3.改進數據:1)更多數據:數據增強、數據生成或搜集更多數據--->獲得更多的輸入數據。2)更一致的標簽定義:當有些類別容易混淆的時候,改進標簽的定義--->基于清晰的標簽定義,糾正部分數據的標簽。 #4.重復#1-#3的步驟。DataCLUE有什么特點
1、國內首個以數據為中心的AI測評。之前的測評一般是在固定的數據集下使用不同的模型或學習方式來提升效果,而DataCLUE是需要改進數據集。
2、它是中文NLP任務在以數據為中心的思想下的實踐。
3、更豐富的信息:除了常規的訓練、驗證和測試集外,它還額外提供了標簽的定義、訓練集中進一步標注后的高質量數據。結合這些額外的信息,使得 融入人類的AI迭代閉環(Human-in-the-loop AI pipeline)可以變得更加高效,并且在發揮算法模型在數據迭代過程中可以有更多空間和潛力。
4、增值服務:我們還額外提供模型訓練和預測過程中的分析報告,為以數據為中心的AI的迭代過程變得更有方向和系統化。
基線模型及運行
一鍵運行.基線模型與代碼 Baseline with codes
使用方式: 1、克隆項目 git clone https://github.com/CLUEbenchmark/DataCLUE.git進入到項目目錄 cd DataCLUE 2、進入到相應的目錄分類任務 例如:cd ./baselines/models_pytorch/classifier_pytorch 3、運行對應任務的腳本(GPU方式): 會自動下載模型和任務數據并開始運行。bash run_classifier_xxx.sh如運行: bash run_classifier_iflytek.sh 會開始iflytek任務的訓練。訓練完后也會得到在驗證集上的效果,見 ./output_dir/bert/checkpoint_eval_results.txtDataCLUE測評及規則
1.測評方式:
修改訓練集和驗證集,并將壓縮包上傳到CLUE benchmark
使用如下命令得到壓縮包: zip dataclue_<team_name>_<data_string>.zip train.json dev.json 具體格式見:提交樣例
2.測評規則:
1.1 可以對訓練集、驗證集進行修改(輸入文本或標簽),或者移動訓練集和驗證集的數據;
1.2 可以通過非爬蟲類手段增加數據來完善訓練和驗證集。增加數據方式,包括但不限于:數據增強、文本生成、結合分析定向生成或添加。
1.3 可以通過算法或程序,或者結合人工的方式來改進數據集;
2.1 鼓勵通過結合算法、模型和程序來改進數據集,也同樣鼓勵算法模型結合人工進行數據改進;但純人工方式的數據改進,評審環節將不得分。
3.測評時間規劃:2021年9月12日---2021年12月12日
1) 報名開始與截止:2021年9月12日--2021年10月25日2) 初賽:2021年9月12日--2021年10月30日。前80名并超過Data-centric的baseline進入到復賽。初始選手,也將獲得數據和模型的分析報告(簡稱增值服務)訓練集 & 驗證集提供:2021年9月12;提交入口開放:2021年9月15日;每天22點更新一次在線成績。3) 復賽:2021年11月1日--2021年12月5日。復賽時,將提供額外高質量標注數據。前15名進入到線上評審,進行在線答辯。4) 線上評審:2021年12月12日(下午2點-5點)。最終成績:線上得分* 0.65 + 線上方案評審 * 0.35線上方案評審:方案評審通過考察參賽隊伍提交方案的新穎性、實用性和解釋答辯表現力來打分,由5位評審老師打分;每只隊伍有10分鐘的時間講解方案,5分鐘來回答問題。方案評審將以直播方法進行。數據集介紹
1、IFLYTEK 長文本分類數據集 Long Text classification 該數據集關于app應用描述的長文本標注數據,包含和日常生活相關的各類應用主題,共119個類別:"打車":0,"地圖導航":1,"免費WIFI":2,"租車":3,…. ,"女性":115,"經營":116,"收款":117,"其他":118(分別用0-118表示)。
數量,訓練集:12133 ;驗證集:2599 例子: {"label": "110", "label_des": "社區超市", "sentence": "樸樸快送超市創立于2016年,專注于打造移動端30分鐘即時配送一站式購物平臺,商品品類包含水果、蔬菜、肉禽蛋奶、海鮮水產、糧油調味、酒水飲料、休閑食品、日用品、外賣等。樸樸公司希望能以全新的商業模式,更高效快捷的倉儲配送模式,致力于成為更快、更好、更多、更省的在線零售平臺,帶給消費者更好的消費體驗,同時推動中國食品安全進程,成為一家讓社會尊敬的互聯網公司。,樸樸一下,又好又快,1.配送時間提示更加清晰友好2.保障用戶隱私的一些優化3.其他提高使用體驗的調整4.修復了一些已知bug"} 每一條數據有三個屬性,從前往后分別是 類別ID,類別名稱,文本內容。學習資料
1、吳恩達新課:從以模型為中心到以數據為中心的AI(1小時)
貢獻與參與
往期精彩回顧適合初學者入門人工智能的路線及資料下載機器學習及深度學習筆記等資料打印機器學習在線手冊深度學習筆記專輯《統計學習方法》的代碼復現專輯 AI基礎下載機器學習的數學基礎專輯黃海廣老師《機器學習課程》視頻課 本站qq群851320808,加入微信群請掃碼:總結
以上是生活随笔為你收集整理的【NLP】DataCLUE: 国内首个以数据为中心的AI测评的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Win7系统浏览器的兼容模式如何设置
- 下一篇: 面了百度AI,新生代农民工炸了