开源开放 | 计算机科学示意图问答数据集CSDQA(CCKS2021)
OpenKG地址:http://openkg.cn/dataset/csdqa
開源地址:http://zscl.xjtudlc.com:888/CSDQA/
開放許可協(xié)議:CC BY-SA 4.0 (署名相似共享)
貢獻(xiàn)者:西安交通大學(xué)(王紹偉、張玲玲、楊祎、胡欣、秦濤、魏筆凡、劉均)
1. 摘要
CSDQA (Computer Science Diagram Question Answering)數(shù)據(jù)集是計(jì)算機(jī)科學(xué)領(lǐng)域幾何圖形類示意圖問答數(shù)據(jù)集,由陜西省天地網(wǎng)技術(shù)重點(diǎn)實(shí)驗(yàn)室貢獻(xiàn)。本數(shù)據(jù)集示意圖來自教科書、百科、博客等教育場景,包含十二個(gè)類別共計(jì)1294張示意圖,3494個(gè)問答對(duì)以及超過20000條對(duì)象信息標(biāo)注。該數(shù)據(jù)集能為示意圖問答等相關(guān)研究提供良好的數(shù)據(jù)支持。?
2.?示意圖
示意圖明確表達(dá)某個(gè)特定主題或概念,傳遞可推理的規(guī)則或邏輯信息,使用抽象的圖形化符號(hào)而不是真實(shí)圖片來呈現(xiàn)元素的一種表示。相比自然圖像,示意圖不包含陰影、紋理、背景等,視覺要素表達(dá)更加凝練簡潔,包含豐富的信息。根據(jù)構(gòu)成要素,示意圖可劃分為兩類。已有研究主要集中于第一類:來自生物學(xué)、地理學(xué)等自然學(xué)科示意圖,其對(duì)象主要由抽象化的動(dòng)物、植物等事物構(gòu)成,表達(dá)方式與自然圖類似。本數(shù)據(jù)集聚焦于第二類:幾何圖形類示意圖,其對(duì)象主要由圓形、矩形、箭頭等符號(hào)組成,如圖1所示。該類示意圖抽象化程度更高,對(duì)象表達(dá)方式多樣,包含復(fù)雜的邏輯結(jié)構(gòu),例如二叉樹中根節(jié)點(diǎn)與葉節(jié)點(diǎn)間具有父子拓?fù)潢P(guān)系。理解該類示意圖具有極大挑戰(zhàn),也是實(shí)現(xiàn)智慧教育等應(yīng)用的重要基礎(chǔ)。
圖1?CSDQA全類別示意圖樣例
3. 數(shù)據(jù)集
示意圖來源稀缺,為了收集到高質(zhì)量的數(shù)據(jù),CSDQA采取了多來源、半自動(dòng)化的收集方式。針對(duì)教科書、百科等來源進(jìn)行人工收集,針對(duì)網(wǎng)絡(luò)爬取數(shù)據(jù)構(gòu)建過濾器濾除低質(zhì)量樣本。
為了適應(yīng)示意圖多樣的表達(dá)方式和復(fù)雜的邏輯,我們設(shè)計(jì)了多維度的數(shù)據(jù)集標(biāo)注規(guī)則,包含:全局屬性-對(duì)象屬性-關(guān)系屬性,如圖2所示。其中全局屬性宏觀描述了示意圖所表達(dá)的知識(shí);后兩者則更細(xì)粒度描述示意圖中的對(duì)象和對(duì)象間的關(guān)系信息。
圖2?CSDQA示意圖屬性標(biāo)注樣例
示意圖問答任務(wù)是指:計(jì)算機(jī)在給定一張示意圖和相關(guān)的知識(shí)文本內(nèi)容下回答自然語言問題。在數(shù)據(jù)集中,知識(shí)文本是以是示意圖類別為關(guān)鍵字爬取的維基百科相關(guān)信息。我們共設(shè)計(jì)了兩種難度的問題。簡單問題:計(jì)算機(jī)僅需要一次推理即可給出答案;復(fù)雜問題:計(jì)算機(jī)需要兩次推理才能給出答案,在所有標(biāo)注問題中,復(fù)雜問題所占比為22.98%。形式上,標(biāo)注的問題還可劃分為四選一問題和判斷題,示例如圖3所示。
圖3?CSDQA示意圖問答標(biāo)注樣例
相較于已有的示意圖數(shù)據(jù)集,CSDQA的特點(diǎn)在于:
(1)CSDQA是首個(gè)包含高質(zhì)量幾何圖形類示意圖的數(shù)據(jù)集,填補(bǔ)了示意圖數(shù)據(jù)集在高等教育領(lǐng)域的空白。
(2)CSDQA包含細(xì)粒度的標(biāo)注信息和區(qū)分難度及類別的問答對(duì),可適應(yīng)多樣化的示意圖理解相關(guān)任務(wù)。
4.?結(jié)語及致謝
為推進(jìn)課程領(lǐng)域示意圖研究,我們提出了示意圖問答任務(wù),并為社區(qū)貢獻(xiàn)了一個(gè)人工標(biāo)注的計(jì)算機(jī)科學(xué)領(lǐng)域示意圖問答數(shù)據(jù)集。在此,感謝西安交通大學(xué)劉均教授、張玲玲老師在數(shù)據(jù)集構(gòu)建方案中提供的寶貴意見,感謝西安交通大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院的楊祎、吳文俊、胡欣等同學(xué)在數(shù)據(jù)標(biāo)注過程中提供的支持。
OpenKG
OpenKG(中文開放知識(shí)圖譜)旨在推動(dòng)以中文為核心的知識(shí)圖譜數(shù)據(jù)的開放、互聯(lián)及眾包,并促進(jìn)知識(shí)圖譜算法、工具及平臺(tái)的開源開放。
點(diǎn)擊閱讀原文,進(jìn)入 OpenKG 網(wǎng)站。
總結(jié)
以上是生活随笔為你收集整理的开源开放 | 计算机科学示意图问答数据集CSDQA(CCKS2021)的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 论文浅尝 | 具有图卷积网络和顺序注意力
- 下一篇: 论文浅尝 | 神经协同推理