日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

PersonGraphDataSet近十万的开放人物关系图谱项目

發布時間:2024/7/5 编程问答 77 豆豆
生活随笔 收集整理的這篇文章主要介紹了 PersonGraphDataSet近十万的开放人物关系图谱项目 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

PersonGraphDataSet

PersonGraphDataSet, nearly 10 thousand person2person relationship facts that build from extraction method, which can be applied to person kg search and inference applications。 人物圖譜數據集,近十萬的人物關系圖譜事實數據庫,通過人物關系抽取算法抽取+人工整理得出,可用于人物關系搜索、查詢、人物關系多跳問答,以及人物關系推理等場景提供基礎數據。

項目地址:https://github.com/liuhuanyong/PersonRelationKnowledgeGraph

項目由來

關于為什么要開放這個項目,主要有以下幾個方面的緣由:
1、階段性總結。以刻畫人物復雜關系為核心的網絡關系網構建,居于十分重要的現實意義,兩年前,帶著個人興趣,發布了一個未完成版的人物關系知識圖譜項目(https://github.com/liuhuanyong/PersonRelationKnowledgeGraph),嘗試采用基于知識庫的數據回標,基于遠程監督與bootstrapping方法的人物關系抽取,并以此完成基于知識圖譜的知識問答等應用。但但由于工作時間為題,一直沒能更新。今天,先對該工作的一個結果數據集開放出來,以對之前的項目做一個階段性的總結。
2、數據集空缺。目前,面向中文領域的人物關系抽取數據集,還相對較少,代表性有ccks2019的開放數據集(https://arxiv.org/abs/1907.12801) ,該數據集公開了親屬關系、社交關系、師生關系三大類,現夫、潛伏、朋友、戀人等34小類的人物關系數據集。該數據集是面向評測使用的,其所涉及的人物關系類型有限,并且不提供現成可用的人物關系數據。
3、應用驅動。當前,面向知識圖譜入門級別的知識圖譜推理、知識圖譜可視化、知識問答、圖譜搜索等場景,還缺乏可用的數據集。目前關于人物關系方面的應用,目前看到的,主要是百科類的展示以及搜狗人物圖譜(https://www.sogou.com/tupu/person.html) 為代表,雖說是娛樂導向,但目前還缺乏這樣的練手的數據和項目。
4、應用支撐。基于開放出來的人物關系知識數據,大家可以在此基礎上進行多種應用嘗試,包括算法訓練、知識圖譜入門、培訓等等,這十分有意義。

項目構成

本項目一共包括三個文件,分別記錄人物關系元組信息以及關系類型信息:
1、big_rel_distribution.txt:大類關系及其分布文件。
2、person_rel_kg.data:人物關系圖譜數據集文件。
3、small_rel_distribution.txt:小類關系及其分布文件

數據概況

本數據集,一共包括97,158條人物關系數據,涉及人物71,243個,大類關系102個,小類關系266條,大致的情況具體如下:

數據類型數據規模示例
關系數目97,158父親、母親、女友
人物數目71,243姚明、易建聯、喬布斯
大類關系數102父親、母親、朋友
小類關系數266閨蜜、女好友、前妻

關系類型

本數據集對人物關系進行了上下級分類,針對小類關系進一步歸類整理成了若干個大類,選取小類數大于3的大類進行展示,如下表所示:

關系大類關系小類
敵人死敵;傳聞不和;競爭對手;死對頭;敵人;對手;罵戰
父親父親;其父;繼父;生父;干爹;義父;養父
學生學生;愛徒;徒孫
合作同伙;合作人;相聲搭檔;合作演員;合作;影視搭檔;戲曲搭檔;搭檔;同時期隊友;前隊友;隊友;國家隊隊友;女雙搭檔;主持搭檔;合作伙伴;盟友;戲曲合作;混雙搭檔;合伙人
情人初戀;配偶;情侶;情人;伴侶;情敵;舊愛;情夫;愛人;前任;戀人;心上人;分手
朋友圈中好友;同伴;密友;友人;伙伴;好友;圈內好友;紅顏知己;摯友;女好友
丈夫未婚夫;第二任丈夫;現任丈夫;前夫;第一任丈夫;丈夫
祖先祖先;鼻祖;始祖;先祖
姐姐大姐;二姐;姐姐
妻子妻妾;第二任妻子;現任妻子;第三任妻子;未婚妻;前妻;妻子;第一任妻子
同門同門師兄;校友;師妹;師弟;師兄弟;師姐
弟弟義弟;三弟;弟弟;五弟;四弟;六弟;胞弟;二弟
女兒女兒;繼女;大女兒;養女;次女;干女兒;義女;三女;長女;二女兒;小女兒
兒子四子;三子;大兒子;干兒子;兒子;次子;五子;繼子;義子;小兒子;二兒子;養子;幼子;長子
哥哥三哥;哥哥;長兄;二哥;四哥;大哥;五哥
家人親戚;家屬;親屬;近親;親人;孩子;家人;長輩
老師啟蒙教練;師祖;師;師叔;師承;老師;現任教練;教練;班主任;伯樂
母親義母;生母;養母;繼母;干媽;母親
下屬下級;下屬;屬下;部下;君臣
同學同班同學;同學;同門
繼任者繼任者;后裔;繼承人;后人;后代;繼任
偶像喜歡的演員;最喜歡的歌手;喜歡的歌手;偶像
妹妹義妹;二妹;三妹;妹妹

數據分布

目前,共涉及大類關系102個,小類關系266條,大類的top20樣例如下:

關系類型關系規模示例關系類型關系規模示例
合作14,048<左永邦,合作演員,合作,王珞丹>哥哥2,379<周星霞,哥哥,哥哥,周星馳>
朋友13,632<祖孫登,好友,朋友,張正見>學生2,017<左宏元,學生,學生,鄧麗君>
父親6,857<左太北,父親,父親,左權>敵人1,948<左武王,死敵,敵人,諸葛正我>
丈夫5,348<左藍,未婚夫,丈夫,余則成>弟弟1,880<祝龍,弟弟,弟弟,祝彪>
情人4,880<莊睿,愛人,情人,秦萱冰>同學1,695<祖峰,同學,同學,黃曉明>
老師4,727<左欣然,老師,老師,許蕙蘭>女友1,427<鄒世龍,前女友,女友,梅艷芳>
兒子4,631<左武王,兒子,兒子,安禎侯>妹妹1,384<祝齊英,妹妹,妹妹,祝英臺>
妻子4,491<祖峰,現任妻子,妻子,劉天池>姐姐1,149<卓龍,姐姐,姐姐,卓鳳>
母親3,832<卓玥,母親,母親,鄧榕>子女977<朱壽,子女,子女,朱厚熜>
女兒2,583<宗慶后,女兒,女兒,宗馥莉>祖父962<周璟馨,祖父,祖父,周海嬰>

數據樣例

1、數據格式為:<人物1,小類關系,大類關系,人物2>,為四元組形式,以滿足不同的數據需求。
2、注意:為了對存在歧義的實體,采用了實體[實體簡短描述]的方式進行區分處理。
3、樣例數據:

"""周洋,隊友,合作,孫琳琳周洋,隊友,合作,王濛周洋,隊友,合作,張會周洋,啟蒙教練,老師,崔順子周洋,老師,老師,李琰周揚[中國內地女演員],搭檔,合作,葉童周揚[中國內地女演員],好友,朋友,蔣欣周揚[中國內地女演員],同學,同學,黃渤周揚,搭檔,合作,高圓圓周揚,搭檔,合作,葉童周揚,好友,朋友,蔣欣周揚,好友,朋友,霍思燕周揚,好友,朋友,佟麗婭周揚,同學,同學,黃渤 """

數據應用

擁有了刻畫人與人之間的復雜關系數據集,可以支撐包括知識問答、多跳推理、圖譜可視化、未知關系推理、數據回標、特征增強、人物推薦、人物建模等多種應用嘗試和科學研究:

大類場景小類場景應用舉例
信息檢索知識問答姚明的老婆是誰?
信息檢索多跳推理姚明的女兒的爺爺是誰?
信息檢索圖譜可視化將數據導入圖數據庫,進行圖譜可視化展示
信息檢索未知關系推理給定兩個人物節點,進行人物之間的潛在關聯路徑發現
信息抽取數據回標根據結構化人物關系數據,利用遠程監督方法進行回標
信息抽取特征增強根據結構化人物關系數據,將用戶的關聯關系作為某個用戶的某個特征
信息推薦人物推薦根據關注某個人物,類推出與該人物相關的其他人物
用戶畫像人物建模利用某個人物的關聯信息,對其進行特征表示和畫像建模

項目總結

1、本項目開放了一個人物關系知識圖譜數據集,一共包括97,158條人物關系數據,涉及人物71,243個,大類關系102個,小類關系266條。
2、本項目采用了數據格式為:<人物1,小類關系,大類關系,人物2>,為四元組形式,可以滿足不同的數據使用需求。
3、基于本項目,可以支撐包括知識問答、多跳推理、圖譜可視化、未知關系推理、數據回標、特征增強、人物推薦、人物建模等多種應用嘗試和科學研究工作。
4、本項目面向開放文本,采用人物關系抽取模型進行抽取形成,經人工矯正后,可以保證數據的質量。

關于作者

劉煥勇,中國科學院軟件研究所,專注金融、情報兩大領域,從事事件抽取、事件演化、情感分析、事理(知識)圖譜、常識推理、語言資源構建與應用等研發工作。如有自然語言處理、知識圖譜、事理圖譜、社會計算、語言資源建設等問題或合作,可聯系我:
1、我的github項目介紹:https://liuhuanyong.github.io
2、我的csdn技術博客:https://blog.csdn.net/lhy2014
3、我的聯系方式: 劉煥勇,中國科學院軟件研究所,lhy_in_blcu@126.com.
4、我的共享知識庫項目:劉煥勇,數據地平線,http://www.openkg.cn/organization/datahorizon.
5、我的工業項目:劉煥勇,數據地平線,大規模實時事理學習系統:https://xueji.datahorizon.cn.
6、我的工業項目:劉煥勇,數據地平線,面向事件和語義的自然語言處理工具箱:https://nlp.datahorizon.cn
7、我的公眾號:

總結

以上是生活随笔為你收集整理的PersonGraphDataSet近十万的开放人物关系图谱项目的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。