日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

开源开放 | 中文相对复杂词汇识别数据集RCWI-Dataset(CCKS2021)

發(fā)布時(shí)間:2024/7/5 编程问答 43 豆豆
生活随笔 收集整理的這篇文章主要介紹了 开源开放 | 中文相对复杂词汇识别数据集RCWI-Dataset(CCKS2021) 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

OpenKG地址:http://openkg.cn/dataset/rcwi-dataset

開放許可協(xié)議:CC BY-SA 4.0 (署名相似共享)

貢獻(xiàn)者:北京語(yǔ)言大學(xué)(闕孟溪、張宇飛、于東)


1. 摘要

中文領(lǐng)域的詞匯復(fù)雜度評(píng)估資源較為匱乏,且現(xiàn)有的外語(yǔ)數(shù)據(jù)集大多數(shù)只關(guān)注造成閱讀困擾的詞匯。中文相對(duì)復(fù)雜詞匯識(shí)別數(shù)據(jù)集(以下簡(jiǎn)稱RCWI-Dataset)為針對(duì)中文母語(yǔ)者構(gòu)建的詞匯復(fù)雜度評(píng)估資源,包含40613條樣本,三種詞匯復(fù)雜度類型,每條數(shù)據(jù)至少被三名中文母語(yǔ)標(biāo)注員標(biāo)注。該數(shù)據(jù)集為推動(dòng)中文詞匯復(fù)雜度評(píng)估任務(wù)發(fā)展提供有力支撐。

2. 詞匯復(fù)雜度資源

中文詞匯復(fù)雜度資源以分級(jí)詞表為主,一般通過(guò)專家標(biāo)注構(gòu)建,數(shù)據(jù)質(zhì)量高,但成本較高,規(guī)模較小。自然語(yǔ)言處理用的詞匯復(fù)雜度資源以詞匯簡(jiǎn)化、復(fù)雜詞匯識(shí)別等任務(wù)為構(gòu)建導(dǎo)向,標(biāo)注句子中不能被獨(dú)立理解的詞匯。簡(jiǎn)單將詞匯分為“復(fù)雜”或“不復(fù)雜”兩類的方式無(wú)法對(duì)詞匯的復(fù)雜度進(jìn)行具體說(shuō)明,且直接標(biāo)注目標(biāo)詞匯的方式主觀性較強(qiáng)。對(duì)此我們引入句子中其余詞匯作為客觀比較對(duì)象,對(duì)句子中超出平均難度的詞匯進(jìn)行標(biāo)注,稱為“相對(duì)復(fù)雜詞匯”。此外,我們對(duì)詞匯的復(fù)雜程度作出區(qū)分,與傳統(tǒng)二值化詞匯復(fù)雜度的資源相比包含更豐富的復(fù)雜度信息。

3. 數(shù)據(jù)集

我們采用唐玉玲等人構(gòu)建的的漢語(yǔ)句子難度等級(jí)語(yǔ)料庫(kù)作為原始語(yǔ)料來(lái)源,該語(yǔ)料庫(kù)來(lái)自語(yǔ)文教材,涵蓋科普、記敘等多種文本體裁。我們根據(jù)原始句子等級(jí)比例抽取2-4等級(jí)的句子共2萬(wàn)條。為了獲得更加可靠和多樣的標(biāo)注結(jié)果,我們規(guī)定RCWI-Dataset的標(biāo)注對(duì)象為:給定句子中,明顯超過(guò)句子平均詞匯難度的詞匯和詞組。若標(biāo)注詞匯對(duì)閱讀理解造成困擾,標(biāo)注為“Hard”,否則標(biāo)注為“Complex”。根據(jù)試標(biāo)注的結(jié)果確定了常見的三種標(biāo)注情況,如表1所示。我們要求標(biāo)注者在標(biāo)注每條數(shù)據(jù)之前,先完成對(duì)句子的閱讀以獲得句子的整體詞匯難度。同時(shí),考慮上下文對(duì)詞匯復(fù)雜度的影響,對(duì)于脫離當(dāng)前上下文則無(wú)法準(zhǔn)確理解的詞匯,同樣需要進(jìn)行標(biāo)注。

表1 三種常見的標(biāo)注類型示例,橙色詞匯為“Complex”,紅色為“Hard”

Complex:能理解的但是超過(guò)句子平均詞匯難度的詞匯

1. 萬(wàn)眾一心,冒著敵人的炮火,前進(jìn)!

2. 正因?yàn)樗皇且话愕念B石,當(dāng)然不能去做墻,做臺(tái)階,不能去雕刻,捶布。

Hard:閱讀理解困難的詞匯

1. 見到人們受苦,鯀很著急,就把天上的土偷下來(lái),去堵塞洪水。

2. 于是,伯父家蓋房,想以它壘山墻,但苦于它極不規(guī)則,沒棱角兒,也沒平面兒;用鏨破開吧,又懶得花那么大氣力,因?yàn)楹訛┎⒉簧踹h(yuǎn),隨便去掮一塊回來(lái),哪一塊也比它強(qiáng)。

無(wú)標(biāo)注:句子中的詞匯都很簡(jiǎn)單或者難度比較平均

1. 爸把我從床頭打到床尾,外面的雨聲混合著我的哭聲。

2.?當(dāng)山間的清泉奔向溪流,當(dāng)嘩啦啦的大雨砸向屋頂,當(dāng)小水滴清脆地落到盛水的盆里,你總該聽到些什么了吧?

由于復(fù)雜度標(biāo)注具有較強(qiáng)的主觀性,以及和英文相比中文詞匯標(biāo)注還隱性包含了詞匯邊界判定的環(huán)節(jié),部分標(biāo)注結(jié)果存在標(biāo)注重疊、標(biāo)注冗余、標(biāo)注類別差異等現(xiàn)象,我們對(duì)語(yǔ)義不完整的標(biāo)注進(jìn)行補(bǔ)充,拆分去除了冗余標(biāo)注。在合并此詞匯復(fù)雜度類別的環(huán)節(jié)中,標(biāo)注員都來(lái)自大學(xué)生群體,母語(yǔ)水準(zhǔn)要高于一般母語(yǔ)者,存在向下評(píng)估詞匯復(fù)雜度的可能性,因此保留復(fù)雜度最高的標(biāo)簽。

我們選擇在現(xiàn)有的標(biāo)注數(shù)據(jù)上構(gòu)造負(fù)例樣本。在句子分詞后未標(biāo)注詞匯的集合中按照詞頻進(jìn)行排序,選取與正例詞匯等量的頻率最低的詞匯作為負(fù)例,標(biāo)記為“Normal”類別。最終RCWI-Dataset中包含40613句子樣本,其中Complex標(biāo)簽19218條、Hard標(biāo)簽1169條、Normal標(biāo)簽20226條,數(shù)據(jù)實(shí)例如下:

數(shù)據(jù)示例:

ID1 據(jù)王粲的《英雄記鈔》說(shuō),諸葛亮與徐庶、石廣元、孟公威等人一道游學(xué)讀書,三人務(wù)于精熟,而亮獨(dú)觀其大略。?? Hard 1 3 王粲

ID2 據(jù)王粲的《英雄記鈔》說(shuō),諸葛亮與徐庶、石廣元、孟公威等人一道游學(xué)讀書,三人務(wù)于精熟,而亮獨(dú)觀其大略。?? Complex 37 41 務(wù)于精熟

ID3 據(jù)王粲的《英雄記鈔》說(shuō),諸葛亮與徐庶、石廣元、孟公威等人一道游學(xué)讀書,三人務(wù)于精熟,而亮獨(dú)觀其大略。??? Normal 28 30 一道

4. 總結(jié)

針對(duì)中文詞匯復(fù)雜度評(píng)估領(lǐng)域相關(guān)資源的不足,我們構(gòu)建了中文詞匯相對(duì)復(fù)雜度評(píng)估數(shù)據(jù)集RCWI-Dataset,該數(shù)據(jù)集包含多樣的詞匯復(fù)雜度信息,為中文詞匯復(fù)雜度評(píng)估領(lǐng)域提供數(shù)據(jù)支撐。


OpenKG

OpenKG(中文開放知識(shí)圖譜)旨在推動(dòng)以中文為核心的知識(shí)圖譜數(shù)據(jù)的開放、互聯(lián)及眾包,并促進(jìn)知識(shí)圖譜算法、工具及平臺(tái)的開源開放。

點(diǎn)擊閱讀原文,進(jìn)入 OpenKG 網(wǎng)站。

總結(jié)

以上是生活随笔為你收集整理的开源开放 | 中文相对复杂词汇识别数据集RCWI-Dataset(CCKS2021)的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。