日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

SemEval-2010任务8:成对名词之间的语义关系的多分类

發(fā)布時(shí)間:2024/7/5 编程问答 35 豆豆
生活随笔 收集整理的這篇文章主要介紹了 SemEval-2010任务8:成对名词之间的语义关系的多分类 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

摘要SemEval-2任務(wù)8專注于名詞對(duì)之間語義關(guān)系的多分類。 該任務(wù)旨在比較語義關(guān)系分類的不同方法,并為將來的研究提供標(biāo)準(zhǔn)的測(cè)試平臺(tái)。 本文定義了任務(wù),描述了訓(xùn)練和測(cè)試數(shù)據(jù)及其創(chuàng)建過程,列出了參與的系統(tǒng)(10個(gè)團(tuán)隊(duì),28個(gè)運(yùn)行),并討論了其結(jié)果。

1簡(jiǎn)介

SemEval-2010任務(wù)8著重于名詞對(duì)之間的語義關(guān)系。例如,茶和人參在“杯子中含有來自人參干的茶”中具有“實(shí)體-原點(diǎn)”關(guān)系。語義關(guān)系的自動(dòng)識(shí)別具有許多應(yīng)用,例如信息提取,文檔摘要,機(jī)器翻譯或敘詞表和語義網(wǎng)絡(luò)的構(gòu)建。它還可以促進(jìn)輔助任務(wù),例如單詞義消除歧義,語言建模,釋義和識(shí)別文本含義。我們的目標(biāo)是創(chuàng)建一個(gè)自動(dòng)分類語義關(guān)系的測(cè)試平臺(tái)。在制定任務(wù)時(shí),我們遇到了幾個(gè)挑戰(zhàn):選擇合適的關(guān)系集,指定注釋過程以及確定任務(wù)本身的細(xì)節(jié)。它們將在第2節(jié)中進(jìn)行簡(jiǎn)要討論。另請(qǐng)參見Hendrickx等。 (2009年),其中包括相關(guān)工作的調(diào)查。任務(wù)8的直接前身是名詞之間的語義關(guān)系分類,即SemEval-1中的任務(wù)4(Girju等,2009),它為七個(gè)關(guān)系中的每一個(gè)都有一個(gè)單獨(dú)的二進(jìn)制標(biāo)簽數(shù)據(jù)集。我們將SemEval2010任務(wù)8定義為多向分類任務(wù),其中每個(gè)示例的標(biāo)簽都必須從十個(gè)關(guān)系的完整集合中選擇,并且事先不提供從名詞到參數(shù)槽的映射。我們還提供了更多數(shù)據(jù):10,717個(gè)帶注釋的示例,而SemEval-1 Task 4中為1,529個(gè)。

2數(shù)據(jù)集創(chuàng)建

2.1語義關(guān)系清單

我們首先決定了語義關(guān)系清單。理想情況下,它應(yīng)該是詳盡無遺的(啟用任何一對(duì)名詞之間的關(guān)系描述)并且是互斥的(上下文中的每對(duì)名詞僅應(yīng)映射到一個(gè)關(guān)系)。但是,文獻(xiàn)表明,任何關(guān)系清單都不能同時(shí)滿足這兩種需求,并且在實(shí)踐中,必須接受它們之間的某種權(quán)衡。作為務(wù)實(shí)的妥協(xié),我們選擇了九種關(guān)系,涵蓋范圍廣泛,足以引起一般和實(shí)際利益。我們旨在盡可能避免語義重疊。但是,我們包括兩組高度相關(guān)的關(guān)系(ENTITY-ORIGIN / ENTITY-DESTINATION和CONTENT-CONTAINER / COMPONENTWHOLE / MEMBER-COLLECTION),以評(píng)估模型進(jìn)行細(xì)粒度區(qū)分的能力。我們的庫存如下。前四個(gè)也用在SemEval-1任務(wù)4中,但是注釋準(zhǔn)則已經(jīng)過修訂,因此不應(yīng)假定完全連續(xù)。

因果(CE)。事件或物體會(huì)產(chǎn)生效果。示例:那些癌癥是由輻射暴露引起的
文書機(jī)構(gòu)(IA)。代理人使用工具。示例:電話接線員
產(chǎn)品生產(chǎn)商(PP)。生產(chǎn)者導(dǎo)致產(chǎn)品存在。示例:一家工廠生產(chǎn)西服
內(nèi)容容器(CC)。對(duì)象物理上存儲(chǔ)在空間的劃定區(qū)域中。示例:稱重滿滿一瓶蜂蜜
實(shí)體來源(EO)。實(shí)體來自原點(diǎn)(例如,位置或材料)或從原點(diǎn)衍生。示例:來自外國的信件
?實(shí)體目標(biāo)(ED)。實(shí)體正在走向目的地。例子:男孩上床睡覺
整體分量(CW)。對(duì)象是更大整體的組成部分。示例:我的公寓有一個(gè)大廚房
成員集合(MC)。成員構(gòu)成集合的非功能部分。例子:森林里有很多樹
消息主題(MT)。消息(書面或語音)與主題相關(guān)。示例:講座是關(guān)于語義的

2.3注釋過程
注釋進(jìn)行了三輪。首先,我們通過基于模式的Web搜索為每個(gè)關(guān)系手動(dòng)收集了大約1200個(gè)句子。為了確保各種例句,我們?yōu)槊糠N關(guān)系使用了大量的模式,通常在一百到幾百之間。重要的是,在第一輪中,關(guān)系本身未加注釋:目標(biāo)只是收集積極和幾乎未遂的候選實(shí)例。一個(gè)粗略的目標(biāo)是讓90%的候選人實(shí)例化目標(biāo)關(guān)系(“積極實(shí)例”)。在第二輪中,為每個(gè)關(guān)系收集的候選者轉(zhuǎn)到兩個(gè)獨(dú)立的注釋器進(jìn)行標(biāo)記。由于我們有一個(gè)多向分類任務(wù),因此注釋者使用了9個(gè)關(guān)系以及OTHER的完整清單。由于重疊的案例在很大程度上是系統(tǒng)性的,因此這種注釋變得更加容易,這是由諸如隱喻用法之類的一般現(xiàn)象和存在多個(gè)關(guān)系的情況引起的。例如,CONTENTCONTAINER和ENTITY-DESTINATION之間存在系統(tǒng)的潛在重疊,具體取決于句子中描述的情況是靜態(tài)還是動(dòng)態(tài),例如,, “When I came, the apples were already put in the basket.” is CC(e1, e2), 而 “Then, the apples were quickly put in the basket.” is ED(e1, e2).

3任務(wù)參與
系統(tǒng)必須解決以下任務(wù):給定一個(gè)句子和兩個(gè)標(biāo)記的名詞,預(yù)測(cè)這些名詞之間的關(guān)系以及關(guān)系的方向。 我們發(fā)布了一個(gè)詳細(xì)的評(píng)分器,該評(píng)分器輸出(1)混淆矩陣,(2)準(zhǔn)確性和覆蓋率,(3)每個(gè)關(guān)系的精度(P),召回率(R)和F1-分?jǐn)?shù),(4)微觀平均P,R,F1,(5)宏觀平均P,R,F1。 對(duì)于(4)和(5),計(jì)算將忽略O(shè)THER關(guān)系。 我們的官方評(píng)分指標(biāo)是針對(duì)(9 + 1)方式分類的宏觀平均F1-分?jǐn)?shù)。 要求團(tuán)隊(duì)為訓(xùn)練數(shù)據(jù)的不同部分提交測(cè)試數(shù)據(jù)預(yù)測(cè)。 具體來說,我們要求獲得前1000、2000、4000和8000個(gè)訓(xùn)練實(shí)例(稱為TD1到TD4)的結(jié)果。 TD4是完整的培訓(xùn)套件。

?

總結(jié)

以上是生活随笔為你收集整理的SemEval-2010任务8:成对名词之间的语义关系的多分类的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。