图谱实战 | 徐美兰:深度应用驱动的医学知识图谱构建
轉(zhuǎn)載公眾號(hào) | DataFunSummit
分享嘉賓:徐美蘭?浙江數(shù)字醫(yī)療衛(wèi)生技術(shù)研究院 數(shù)字醫(yī)學(xué)知識(shí)中心主任
編輯整理:李杰 京東
出品平臺(tái):DataFunTalk
導(dǎo)讀:數(shù)研院這些年在知識(shí)圖譜建設(shè)上取得了豐碩成果,今天我們將圖譜構(gòu)建過(guò)程中的經(jīng)驗(yàn)、心得分享給大家,歡迎大家討論交流。本次分享的題目為:深度應(yīng)用驅(qū)動(dòng)的醫(yī)學(xué)知識(shí)圖譜構(gòu)建,主要內(nèi)容包含4方面:
國(guó)內(nèi)外醫(yī)學(xué)知識(shí)圖譜發(fā)展情況
醫(yī)學(xué)知識(shí)圖譜的領(lǐng)域特征和應(yīng)用需求
數(shù)研院醫(yī)學(xué)知識(shí)圖譜構(gòu)建:模型建立、“七巧板”本體術(shù)語(yǔ)集構(gòu)建、“匯知”圖譜構(gòu)建
醫(yī)學(xué)知識(shí)圖譜應(yīng)用案例
01
國(guó)內(nèi)外醫(yī)學(xué)知識(shí)圖譜發(fā)展情況
1.?知識(shí)圖譜概念
知識(shí)圖譜廣義概念:作為一種技術(shù)體系,指大數(shù)據(jù)知識(shí)工程的一系列代表性技術(shù)的總稱。
知識(shí)圖譜狹義概念:作為一種知識(shí)表示形式,知識(shí)圖譜是一種大規(guī)模語(yǔ)義網(wǎng)絡(luò),包含實(shí)體、概念及其之間的各種語(yǔ)義關(guān)系。如下圖中的二甲雙胍知識(shí)圖譜片段。
2.?國(guó)外醫(yī)學(xué)知識(shí)圖譜
UMLS:由美國(guó)國(guó)家醫(yī)學(xué)圖書館自1986年起研究和開(kāi)發(fā)的一體化醫(yī)學(xué)語(yǔ)言系統(tǒng),包含超級(jí)詞表、語(yǔ)義網(wǎng)絡(luò)、專業(yè)詞典和詞匯處理工具。其規(guī)模:語(yǔ)義網(wǎng)絡(luò)包含133種語(yǔ)義類型,54中語(yǔ)義關(guān)系。超級(jí)敘詞表包含300多萬(wàn)概念,1300多萬(wàn)概念名稱。
SNOMED CT:2002年1月,SNOMED首次發(fā)布,它由兩大醫(yī)學(xué)術(shù)語(yǔ)SNOMED RT與CTV3合并而來(lái),國(guó)際版SNOMED CT在每年的1月和7月更新一次。SNOMED CT核心構(gòu)建是概念、描述(術(shù)語(yǔ))和關(guān)系。其規(guī)模:目前包含19種語(yǔ)義類型,50多種語(yǔ)義關(guān)系,35萬(wàn)概念,120萬(wàn)描述(術(shù)語(yǔ)),110萬(wàn)關(guān)系。
3.?國(guó)內(nèi)醫(yī)學(xué)知識(shí)圖譜
CUMLS:由中國(guó)醫(yī)學(xué)科學(xué)院醫(yī)學(xué)信息研究所基于UMLS開(kāi)發(fā)的中文一體化醫(yī)學(xué)語(yǔ)言系統(tǒng),包含醫(yī)學(xué)詞表、語(yǔ)義網(wǎng)、構(gòu)建工具與平臺(tái)。其規(guī)模:共收錄醫(yī)學(xué)主題詞3萬(wàn)余條、入口詞3萬(wàn)余條、醫(yī)學(xué)術(shù)語(yǔ)10萬(wàn)余條、醫(yī)學(xué)詞匯素材30萬(wàn)余條。
醫(yī)藥衛(wèi)生知識(shí)服務(wù)系統(tǒng):由中國(guó)醫(yī)學(xué)科學(xué)院醫(yī)學(xué)信息研究所承建,通過(guò)對(duì)資源的深度挖掘和關(guān)聯(lián)分析,建設(shè)了知識(shí)圖譜、知識(shí)脈絡(luò)分析等特色知識(shí)服務(wù)和應(yīng)用。其規(guī)模:已發(fā)布疾病和藥品領(lǐng)域知識(shí)圖譜,其中疾病涵蓋心腦血管疾病、呼吸系統(tǒng)疾病、免疫系統(tǒng)疾病、消化系統(tǒng)疾病、腫瘤等。
中醫(yī)藥知識(shí)圖譜:中國(guó)中醫(yī)科學(xué)院中醫(yī)藥信息研究所依托中醫(yī)藥學(xué)語(yǔ)言系統(tǒng)(TCMLS)構(gòu)建了中醫(yī)藥知識(shí)圖譜。其類型包括:基于中醫(yī)藥學(xué)語(yǔ)言系統(tǒng)的知識(shí)圖譜、中醫(yī)美容知識(shí)圖譜、中醫(yī)養(yǎng)生知識(shí)圖譜、中國(guó)臨床知識(shí)圖譜。
OpenKG:由中國(guó)中文信息學(xué)會(huì)倡導(dǎo)的中文領(lǐng)域開(kāi)放知識(shí)圖譜社區(qū)項(xiàng)目,主要工作內(nèi)容包括:OpenKG.CN(開(kāi)放圖譜資源庫(kù))、cnSchema(中文開(kāi)放圖譜Schema)和Openbae(開(kāi)放知識(shí)圖譜眾包平臺(tái))。
02
醫(yī)學(xué)知識(shí)圖譜的領(lǐng)域特征和應(yīng)用需求
1.?醫(yī)學(xué)知識(shí)的特點(diǎn)
醫(yī)學(xué)術(shù)語(yǔ)多樣性:不同知識(shí)源對(duì)同一個(gè)概念采用了不同術(shù)語(yǔ)進(jìn)行表達(dá)。比如:糖尿病又可稱為消渴癥、消渴、DM等。
精度要求高:醫(yī)學(xué)知識(shí)專業(yè)性強(qiáng),醫(yī)學(xué)應(yīng)用場(chǎng)景容錯(cuò)率低,因此醫(yī)學(xué)知識(shí)圖譜的精確度要求高。
復(fù)雜度高:醫(yī)學(xué)是經(jīng)驗(yàn)總結(jié)的科學(xué),醫(yī)學(xué)概念的內(nèi)涵往往比較豐富,且有些醫(yī)學(xué)知識(shí)復(fù)雜很難用簡(jiǎn)單三元組表達(dá)。
2.?醫(yī)學(xué)知識(shí)圖譜應(yīng)用場(chǎng)景
醫(yī)學(xué)知識(shí)圖譜的不同應(yīng)用場(chǎng)景需求側(cè)重點(diǎn)也有所不同,需要最大化的滿足才能提高圖譜的適用性。如下所示:
3.?定制化解決方案
為滿足行業(yè)深度應(yīng)用需求,醫(yī)學(xué)知識(shí)圖譜構(gòu)建時(shí)需引入更多定制化解決方案,如下所示:
03
數(shù)研院醫(yī)學(xué)知識(shí)圖譜構(gòu)建
1.?模型建立
醫(yī)學(xué)領(lǐng)域的知識(shí)圖譜由于其知識(shí)專業(yè)性強(qiáng),行業(yè)通常采用自上而下的方式,先構(gòu)建Schema,再抽取知識(shí)。
數(shù)研院醫(yī)學(xué)知識(shí)圖譜Schema主要參考了UMLS語(yǔ)義網(wǎng)絡(luò)、Schema.org、cnSchema等。相關(guān)數(shù)據(jù)涉及四大領(lǐng)域:疾病、藥品、手術(shù)操作、檢驗(yàn)檢查。當(dāng)然我們?cè)谥R(shí)圖譜的構(gòu)建過(guò)程中,會(huì)根據(jù)抽取和應(yīng)用的實(shí)際情況,不斷完善和優(yōu)化Schema。數(shù)研院醫(yī)學(xué)知識(shí)圖譜于2019年8月首次發(fā)布Schema,目前包含72種語(yǔ)義類型、493種語(yǔ)義關(guān)系。Schema查詢和下載地址為:http://schema.omaha.org.cn/class/Thing#。
Schema分別用于指導(dǎo)“七巧板”醫(yī)學(xué)本體術(shù)語(yǔ)集和“匯知”醫(yī)學(xué)知識(shí)圖譜的構(gòu)建,完善醫(yī)學(xué)知識(shí)表達(dá)的體系。我們之所以在一個(gè)模型指導(dǎo)下構(gòu)建兩個(gè)知識(shí)庫(kù),是為了解決不同的問(wèn)題。“七巧板”采用本體解決與邏輯定義(即內(nèi)涵定義)相關(guān)的關(guān)系,以及層次關(guān)系。“匯知”采用語(yǔ)義網(wǎng)絡(luò)解決可能性、經(jīng)驗(yàn)性的關(guān)系,并且無(wú)層次關(guān)系。具體請(qǐng)看下圖:
2.?“七巧板”本體術(shù)語(yǔ)集構(gòu)建
本體術(shù)語(yǔ)集的構(gòu)建整體有6個(gè)步驟,依次如下所示:
Step1:確定領(lǐng)域范疇。當(dāng)前我們以滿足臨床診療需求為切入點(diǎn),開(kāi)始嘗試構(gòu)建醫(yī)學(xué)知識(shí)圖譜。主要涉及范圍:疾病、癥狀、體征,手術(shù)操作、檢驗(yàn)檢查,藥品,人體形態(tài)結(jié)構(gòu),基因,醫(yī)療器械。
Step2:選取合適的知識(shí)源。充分收錄行業(yè)現(xiàn)行標(biāo)準(zhǔn)、教科書、指南等權(quán)威知識(shí)源,并同時(shí)補(bǔ)充臨床病歷、互聯(lián)網(wǎng)診療中的術(shù)語(yǔ)等。
Step3:梳理重要術(shù)語(yǔ)。梳理領(lǐng)域中的重要術(shù)語(yǔ),并由領(lǐng)域?qū)<疫M(jìn)行語(yǔ)義層面的實(shí)體歸一,完成概念化。相關(guān)流程如下所示:
Step4:建立關(guān)系。“七巧板”醫(yī)學(xué)本體術(shù)語(yǔ)集的核心構(gòu)建包括:概念、術(shù)語(yǔ)、關(guān)系及映射。如下圖所示:
充分保留知識(shí)源中的已有層級(jí)關(guān)系,通過(guò)機(jī)器推理、人工添加的方式進(jìn)行優(yōu)化。挖掘知識(shí)源中的屬性關(guān)系,并通過(guò)機(jī)器推薦、人工添加進(jìn)行補(bǔ)充。制定明確的映射規(guī)則,采用機(jī)器推薦、專家審核的方式建立映射。
Step5:存儲(chǔ)和瀏覽。采用關(guān)系型數(shù)據(jù)庫(kù),分為概念表、術(shù)語(yǔ)表、關(guān)系表、映射表進(jìn)行存儲(chǔ),且保留歷史痕跡。術(shù)語(yǔ)瀏覽器實(shí)現(xiàn)術(shù)語(yǔ)集構(gòu)建的快速查找,并可按需實(shí)現(xiàn)子集定制。如查看關(guān)系操作如下所示:
Step6:平臺(tái)及工具支撐。自研的知識(shí)庫(kù)維護(hù)平臺(tái)(CoWork),內(nèi)嵌術(shù)語(yǔ)集研制規(guī)則,支持多人共同協(xié)作。CoWork中“七巧板”的功能如下所示:
CoWork中術(shù)語(yǔ)集編輯器可實(shí)現(xiàn)概念層面的編輯功能需求,并支持多人同時(shí)在線協(xié)作,協(xié)作方式為不創(chuàng)建分支,采用編輯鎖。術(shù)語(yǔ)映射工具利用算法推薦,調(diào)高映射效率。目前“七巧板”術(shù)語(yǔ)集收錄97萬(wàn)概念、123萬(wàn)術(shù)語(yǔ)和292萬(wàn)關(guān)系,包含疾病、操作、藥品等語(yǔ)義類型。我們?cè)诔掷m(xù)進(jìn)行更新維護(hù),按季度發(fā)布,每季度第一個(gè)月20號(hào)發(fā)布新版本。
3.?“匯知”圖譜構(gòu)建
“匯知”知識(shí)圖譜的構(gòu)建有五個(gè)步驟,分別如下:
Step1:選取合適的知識(shí)源。選取臨床指南、臨床路徑、醫(yī)學(xué)書籍文獻(xiàn)等權(quán)威知識(shí)源,并同時(shí)補(bǔ)充醫(yī)學(xué)百科類知識(shí)。簡(jiǎn)言之,即非結(jié)構(gòu)化知識(shí)源+半結(jié)構(gòu)化知識(shí)源+結(jié)構(gòu)化知識(shí)源。
Step2:知識(shí)抽取。具體內(nèi)容包括:實(shí)體識(shí)別和關(guān)系抽取。
實(shí)體識(shí)別通過(guò)基于規(guī)則的命名實(shí)體識(shí)別+專家審核提高標(biāo)注效率,產(chǎn)生的標(biāo)注數(shù)據(jù)用于訓(xùn)練深度學(xué)習(xí)模型。具體流程如下所示:
關(guān)系抽取基于實(shí)體識(shí)別的結(jié)果,專家標(biāo)注關(guān)系,產(chǎn)生的標(biāo)注數(shù)據(jù)用于句法規(guī)則總結(jié)和半監(jiān)督學(xué)習(xí)。具體流程如下所示:
Step3:知識(shí)融合。最大化地將“匯知”圖譜與“七巧板”術(shù)語(yǔ)集融合,可為圖譜的深度應(yīng)用打下基礎(chǔ)。其過(guò)程大致包括實(shí)體歸一、實(shí)體對(duì)齊、關(guān)系融合等階段。具體操作如下所示:
Step4:知識(shí)存儲(chǔ)和檢索。除傳統(tǒng)的三元組外,加入“屬性組”和“來(lái)源”字段,使知識(shí)表達(dá)更加準(zhǔn)確,同時(shí)確保知識(shí)的可溯源性。保留三元組的來(lái)源,滿足三元組在不同場(chǎng)景應(yīng)用的需求。還可通過(guò)可視化搜索,快速直觀地查看圖譜數(shù)據(jù),如下圖所示:
Step5:平臺(tái)及工具支撐。自研知識(shí)庫(kù)維護(hù)平臺(tái)(CoWork),內(nèi)嵌知識(shí)圖譜集研制規(guī)則,支持多人共同協(xié)作。CoWork中“匯知”的功能描述如下:
用戶可創(chuàng)建多種自定義標(biāo)注方案,批量上傳和分配任務(wù),在基于brat的文本標(biāo)注工具上,各地志愿者可合作共建知識(shí)圖譜。“匯知”圖譜目前已發(fā)布7個(gè)領(lǐng)域,共計(jì)約11萬(wàn)實(shí)體,82萬(wàn)三元組,每個(gè)季度第二個(gè)月20號(hào)發(fā)布新版本。前述7個(gè)領(lǐng)域如下所示:
最后,數(shù)研院發(fā)起的知識(shí)圖譜協(xié)作項(xiàng)目已持續(xù)開(kāi)展5年,已有百名個(gè)人志愿者、多家優(yōu)秀企業(yè)參與。貢獻(xiàn)榜如下所示:
04
醫(yī)學(xué)知識(shí)圖譜應(yīng)用案例
1.?智能預(yù)警
知識(shí)圖譜作為底層支撐,輔以更多規(guī)則,實(shí)現(xiàn)更全面的臨床診療推理。如下低鉀案例所示:
此外,還可基于知識(shí)圖譜進(jìn)行推理,實(shí)現(xiàn)實(shí)驗(yàn)室危急結(jié)果的預(yù)警和處方異常預(yù)警。如下胸痛案例所示:
2.?指南推薦
基于醫(yī)學(xué)本體層級(jí)關(guān)系推理后進(jìn)行推薦,使推薦結(jié)果更豐富。如下科塔爾綜合征案例所示:
另外,還可根據(jù)患者信息,推薦相似病歷、臨床路徑、指南等,輔助醫(yī)生制定治療計(jì)劃、規(guī)范治療流程。如下案例所示:
3.?數(shù)據(jù)直報(bào)
將醫(yī)學(xué)知識(shí)圖譜中的部分內(nèi)容作為信息模型中的值集,實(shí)現(xiàn)醫(yī)療數(shù)據(jù)與醫(yī)學(xué)知識(shí)之間的綁定。術(shù)語(yǔ)綁定指:將醫(yī)學(xué)術(shù)語(yǔ)集中的概念分配臨床信息模型中的具體數(shù)據(jù)單元,從而實(shí)現(xiàn)醫(yī)學(xué)術(shù)語(yǔ)和臨床信息模型的聯(lián)系和賦予某種程度上的語(yǔ)義。讀者可參考下圖理解:
也可在信息系統(tǒng)中提前設(shè)定相應(yīng)規(guī)則,基于“法定傳染病”子集,進(jìn)行傳染病直報(bào)判斷與提示。如下圖所示:
除此以外,其他應(yīng)用還包括:智能編碼、科研分析等。如果讀者感興趣可關(guān)注我們的官網(wǎng)動(dòng)態(tài)~
今天的分享就到這里,謝謝大家。
分享嘉賓:
OpenKG
OpenKG(中文開(kāi)放知識(shí)圖譜)旨在推動(dòng)以中文為核心的知識(shí)圖譜數(shù)據(jù)的開(kāi)放、互聯(lián)及眾包,并促進(jìn)知識(shí)圖譜算法、工具及平臺(tái)的開(kāi)源開(kāi)放。
點(diǎn)擊閱讀原文,進(jìn)入 OpenKG 網(wǎng)站。
總結(jié)
以上是生活随笔為你收集整理的图谱实战 | 徐美兰:深度应用驱动的医学知识图谱构建的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 论文浅尝 | 基于知识库的自然语言理解
- 下一篇: 论文浅尝 | 利用开放域触发器知识改进事