日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

开源开放 | 《大词林》开源 75 万核心实体和围绕核心实体的细粒度概念、关系列表...

發布時間:2024/7/5 编程问答 26 豆豆
生活随笔 收集整理的這篇文章主要介紹了 开源开放 | 《大词林》开源 75 万核心实体和围绕核心实体的细粒度概念、关系列表... 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

1《大詞林》簡介

《大詞林》(http://101.200.120.155/)是由哈爾濱工業大學社會計算與信息檢索研究中心推出,由我中心秦兵教授和劉銘副教授主持開發,是一個自動構建的大規模開放域中文知識庫。自2014年11月推出第一版《大詞林》,《大詞林》共經歷了兩次大的版本變化。第一版的《大詞林》包含了自動挖掘的實體和細粒度的上位概念詞,類似一個大規模的漢語詞典,其特點在于自動構建、自動擴充,細粒度的上下位層次關系。第二版的《大詞林》引入了實體的義項和關系、屬性數據,將每一個實體的義項唯一對應到細粒度的上位詞概念路徑,讓《大詞林》中實體的含義更加清晰。

相比于傳統的開放域實體知識庫,《大詞林》的特點在于:1)構建不需要領域專家的參與,而是基于多信息源自動獲取實體類別并對可能的多個類別進行層次化,從而達到知識庫自動構建的效果。2)其數據規??梢噪S著互聯網中實體詞的更新而擴大,很好地解決了以往的人工構建知識庫對開放域實體的覆蓋程度極為有限的問題。3)每一個實體的義項均能夠唯一對應到細粒度的上位詞概念路徑且具有豐富的實體和關系數據,能夠更加清晰明確的展示實體的含義。

2 開源數據規模和用途

本次,我們開源了《大詞林》中的75萬的核心實體,和該核心實體對應的細粒度概念詞(共1.8萬概念詞,300萬實體-概念元組),及相關的關系三元組(共300萬)。這75萬核心實體列表涵蓋了常見的人名、地名、物品名等術語。概念詞列表則包含了細粒度的實體概念信息。借助于細粒度的上位概念層次結構和豐富的實體間關系,本次開源的數據能夠為智能服務系統,例如問句相似度計算、智能問答等技術提供數據支持。

在http://101.200.120.155/browser/頁面下有全部開源數據的下載鏈接,用戶也可直接利用下面的鏈接直接下載全部數據。數據包括JSON格式的schema,同時包括實體列表、概念列表、實體-概念詞列表和實體元組列表。

下載地址:http://www.openkg.cn/dataset/hit

? ? ? ? ? ? ?

圖1 開源實體的抽樣分布情況

?

數據格式如下:

Schema文件, bigcilin_schema.json

實體詞表, entity.txt

實體名1

實體名2

……

概念詞表, concept.txt

概念詞1

概念詞2

……

實體-概念詞表, hyper.txt

實體名1,上位詞1

實體名2, 上位詞2

……

實體三元組表, triple.txt

實體名1,關系名1,實體名1

實體名1,關系名2,實體名2

……

?

為方便用戶查看不同類別下的實體,將本次開源的實體中常見的類別放在此demo下http://101.200.120.155/browser/。為加快加載速度,此demo僅展示了類別下的抽樣實體。

? ? ? ?

? ? ?圖2 開源實體按類別瀏覽

3 結語

?

如需要查詢更多的數據可使用《大詞林》系統網站(http://101.200.120.155/),該系統支持用戶查詢任意實體,并以有向圖的形式展現實體的層次化概念體系,同時支持以目錄方式瀏覽部分公開的知識庫。經過如上的改進后,目前《大詞林》2.0版已擁有實體30,102,845 (三千萬),上位詞182,079(十八萬),優質的實體上下位關系對15,577,846(一千五百萬對),屬性-值對79,568,791(七千九百萬對),關系(屬性)數436,961(四十三萬)。有關《大詞林》的功能介紹及詳細的接口說明請聯系mliu@ir.hit.edu.cn。

?

4 開源協議

《大詞林》(http://101.200.120.155/)是由哈爾濱工業大學社會計算與信息檢索研究中心推出,由我中心秦兵教授和劉銘副教授主持開發,是一個自動構建的大規模開放域中文知識庫。本次開源是《大詞林》中的75萬核心實體和核心實體對應的1.8萬細粒度概念詞表,其中核心實體涵蓋了包括常見的人名、地名、物品名等術語,概念詞列表則包含了細粒度的實體概念信息。同時開源的還包括由實體和概念形成的上下位關系列表(300萬)和實體對應的關系三元組列表(300萬)。本批數據面向國內外大學、中科院各研究所以及個人研究者開放,上述開放資源可免費用于學術研究,如要商用,需付費購買。如需完整版數據或咨詢購買事宜請向mliu@ir.hit.edu.cn咨詢。如果您在《大詞林》開源數據基礎上發表論文或取得科研成果,請您在發表論文和申報成果時聲明“使用了哈工大社會計算與信息檢索研究中心研制的《大詞林》”,同時發信給 mliu@ir.hit.edu.cn,說明發表論文或申報成果的題目、出處等。

?

5 作者介紹

張裕舟 哈爾濱工業大學社會計算與信息檢索研究中心 yzzhang@ir.hit.edu.cn

佘琪星 哈爾濱工業大學社會計算與信息檢索研究中心 qxshe@ir.hit.edu.cn

王必聰 哈爾濱工業大學社會計算與信息檢索研究中心 bcwang@ir.hit.edu.cn

劉銘 ? 哈爾濱工業大學社會計算與信息檢索研究中心 mliu@ir.hit.edu.cn

秦兵 ? 哈爾濱工業大學社會計算與信息檢索研究中心 bqin@ir.hit.edu.cn

劉挺 ? 哈爾濱工業大學社會計算與信息檢索研究中心 tlu72@ir.hit.edu.cn

點擊閱讀原文,下載《大詞林》數據。


?

OpenKG

開放知識圖譜(簡稱 OpenKG)旨在促進中文知識圖譜數據的開放與互聯,促進知識圖譜和語義技術的普及和廣泛應用。

總結

以上是生活随笔為你收集整理的开源开放 | 《大词林》开源 75 万核心实体和围绕核心实体的细粒度概念、关系列表...的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。