日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

开源开放 | 计算机科学示意图问答数据集CSDQA(CCKS2021)

發(fā)布時(shí)間:2024/7/5 编程问答 55 豆豆
生活随笔 收集整理的這篇文章主要介紹了 开源开放 | 计算机科学示意图问答数据集CSDQA(CCKS2021) 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

OpenKG地址:http://openkg.cn/dataset/csdqa

開源地址:http://zscl.xjtudlc.com:888/CSDQA/

開放許可協(xié)議:CC BY-SA 4.0 (署名相似共享)

貢獻(xiàn)者:西安交通大學(xué)(王紹偉、張玲玲、楊祎、胡欣、秦濤、魏筆凡、劉均)


1. 摘要

CSDQA (Computer Science Diagram Question Answering)數(shù)據(jù)集是計(jì)算機(jī)科學(xué)領(lǐng)域幾何圖形類示意圖問答數(shù)據(jù)集,由陜西省天地網(wǎng)技術(shù)重點(diǎn)實(shí)驗(yàn)室貢獻(xiàn)。本數(shù)據(jù)集示意圖來自教科書、百科、博客等教育場景,包含十二個(gè)類別共計(jì)1294張示意圖,3494個(gè)問答對(duì)以及超過20000條對(duì)象信息標(biāo)注。該數(shù)據(jù)集能為示意圖問答等相關(guān)研究提供良好的數(shù)據(jù)支持。?

2.?示意圖

示意圖明確表達(dá)某個(gè)特定主題或概念,傳遞可推理的規(guī)則或邏輯信息,使用抽象的圖形化符號(hào)而不是真實(shí)圖片來呈現(xiàn)元素的一種表示。相比自然圖像,示意圖不包含陰影、紋理、背景等,視覺要素表達(dá)更加凝練簡潔,包含豐富的信息。根據(jù)構(gòu)成要素,示意圖可劃分為兩類。已有研究主要集中于第一類:來自生物學(xué)、地理學(xué)等自然學(xué)科示意圖,其對(duì)象主要由抽象化的動(dòng)物、植物等事物構(gòu)成,表達(dá)方式與自然圖類似。本數(shù)據(jù)集聚焦于第二類:幾何圖形類示意圖,其對(duì)象主要由圓形、矩形、箭頭等符號(hào)組成,如圖1所示。該類示意圖抽象化程度更高,對(duì)象表達(dá)方式多樣,包含復(fù)雜的邏輯結(jié)構(gòu),例如二叉樹中根節(jié)點(diǎn)與葉節(jié)點(diǎn)間具有父子拓?fù)潢P(guān)系。理解該類示意圖具有極大挑戰(zhàn),也是實(shí)現(xiàn)智慧教育等應(yīng)用的重要基礎(chǔ)。

圖1?CSDQA全類別示意圖樣例

3. 數(shù)據(jù)集

示意圖來源稀缺,為了收集到高質(zhì)量的數(shù)據(jù),CSDQA采取了多來源、半自動(dòng)化的收集方式。針對(duì)教科書、百科等來源進(jìn)行人工收集,針對(duì)網(wǎng)絡(luò)爬取數(shù)據(jù)構(gòu)建過濾器濾除低質(zhì)量樣本。

為了適應(yīng)示意圖多樣的表達(dá)方式和復(fù)雜的邏輯,我們設(shè)計(jì)了多維度的數(shù)據(jù)集標(biāo)注規(guī)則,包含:全局屬性-對(duì)象屬性-關(guān)系屬性,如圖2所示。其中全局屬性宏觀描述了示意圖所表達(dá)的知識(shí);后兩者則更細(xì)粒度描述示意圖中的對(duì)象和對(duì)象間的關(guān)系信息。

圖2?CSDQA示意圖屬性標(biāo)注樣例

示意圖問答任務(wù)是指:計(jì)算機(jī)在給定一張示意圖和相關(guān)的知識(shí)文本內(nèi)容下回答自然語言問題。在數(shù)據(jù)集中,知識(shí)文本是以是示意圖類別為關(guān)鍵字爬取的維基百科相關(guān)信息。我們共設(shè)計(jì)了兩種難度的問題。簡單問題:計(jì)算機(jī)僅需要一次推理即可給出答案;復(fù)雜問題:計(jì)算機(jī)需要兩次推理才能給出答案,在所有標(biāo)注問題中,復(fù)雜問題所占比為22.98%。形式上,標(biāo)注的問題還可劃分為四選一問題和判斷題,示例如圖3所示。

圖3?CSDQA示意圖問答標(biāo)注樣例

相較于已有的示意圖數(shù)據(jù)集,CSDQA的特點(diǎn)在于:

(1)CSDQA是首個(gè)包含高質(zhì)量幾何圖形類示意圖的數(shù)據(jù)集,填補(bǔ)了示意圖數(shù)據(jù)集在高等教育領(lǐng)域的空白。

(2)CSDQA包含細(xì)粒度的標(biāo)注信息和區(qū)分難度及類別的問答對(duì),可適應(yīng)多樣化的示意圖理解相關(guān)任務(wù)。

4.?結(jié)語及致謝

為推進(jìn)課程領(lǐng)域示意圖研究,我們提出了示意圖問答任務(wù),并為社區(qū)貢獻(xiàn)了一個(gè)人工標(biāo)注的計(jì)算機(jī)科學(xué)領(lǐng)域示意圖問答數(shù)據(jù)集。在此,感謝西安交通大學(xué)劉均教授、張玲玲老師在數(shù)據(jù)集構(gòu)建方案中提供的寶貴意見,感謝西安交通大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院的楊祎、吳文俊、胡欣等同學(xué)在數(shù)據(jù)標(biāo)注過程中提供的支持。


OpenKG

OpenKG(中文開放知識(shí)圖譜)旨在推動(dòng)以中文為核心的知識(shí)圖譜數(shù)據(jù)的開放、互聯(lián)及眾包,并促進(jìn)知識(shí)圖譜算法、工具及平臺(tái)的開源開放。

點(diǎn)擊閱讀原文,進(jìn)入 OpenKG 網(wǎng)站。

總結(jié)

以上是生活随笔為你收集整理的开源开放 | 计算机科学示意图问答数据集CSDQA(CCKS2021)的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。