知识图谱中的关系方向与强度研究
知識圖譜中的關(guān)系方向與強度研究
臧根林1,2, 王亞強1,2, 吳慶蓉1,2, 占春麗1,2, 謝新?lián)P1,2
1 拓爾思知識圖譜研究院,廣東 廣州 510665
2 廣州拓爾思大數(shù)據(jù)有限公司,廣東 廣州 510665
摘要:目前普遍的知識圖譜構(gòu)建思路是圖譜中的關(guān)系標(biāo)簽采用文字描述,這樣很難對圖譜中的關(guān)系進(jìn)行計算。針對這個問題,提出了關(guān)系方向、強度因子和時態(tài)因子的概念,關(guān)系的正負(fù)、強度和時態(tài)可以通過有監(jiān)督機(jī)器學(xué)習(xí)的方法形成自動模型,從而在領(lǐng)域知識圖譜中實現(xiàn)關(guān)系的量化計算。這種知識圖譜構(gòu)建方法在計算事件輿情走向、計算企業(yè)合作與競爭情況變化、分析銷售人員市場拓展情況等領(lǐng)域,形成了一種新的數(shù)據(jù)分析模式,對人工智能在具體行業(yè)的落地應(yīng)用很有意義。
關(guān)鍵詞:知識圖譜 ; 關(guān)系方向 ; 關(guān)系強度 ; 負(fù)關(guān)系 ; 時態(tài)關(guān)系
論文引用格式:
臧根林,王亞強,吳慶蓉,占春麗,謝新?lián)P. 知識圖譜中的關(guān)系方向與強度研究. 大數(shù)據(jù)[J], 2019, 5(3):96-103
ZANG G L, WANG Y Q, WU Q R, ZHAN C L, XIE X Y.Study on direction and strength of relation based on knowledge graph. Big Data Research[J], 2019, 5(3): 96-103
1 引言
知識圖譜本質(zhì)上是一個用圖數(shù)據(jù)結(jié)構(gòu)等技術(shù)作為載體,描述客觀事物及其關(guān)系的大型知識庫。在具體實現(xiàn)上,知識圖譜用語義網(wǎng)(semantic web)中的資源描述框架(resource description framework,RDF)對知識體系和實例數(shù)據(jù)兩個層面的內(nèi)容進(jìn)行統(tǒng)一表示,共同構(gòu)成一個完整的知識系統(tǒng)。
世界本身不存在結(jié)構(gòu)化問題或非結(jié)構(gòu)化問題,在信息化時代之前也沒有人區(qū)分結(jié)構(gòu)化或非結(jié)構(gòu)化,但人類進(jìn)入信息化時代后,什么都想通過計算得到結(jié)果,這就產(chǎn)生了信息是否要結(jié)構(gòu)化的問題,因此這是人類為了將就計算機(jī)而產(chǎn)生的問題。知識圖譜把這個問題進(jìn)一步加深了,因為大家不僅想讓計算機(jī)計算信息,還想讓計算機(jī)學(xué)會跟人類一樣思考和判斷,也就是現(xiàn)在很熱門的人工智能。為了教會計算機(jī)看懂人類的知識,人們將知識整理成了知識圖譜。
雖然知識圖譜的概念由谷歌公司在2012年5月首次提出,但知識圖譜這樣的理念和表達(dá)思路在中國已經(jīng)存在了超過2000年,五行理論和相生相克圖就是一個典型的知識圖譜結(jié)構(gòu)。知識圖譜描述的3個關(guān)鍵要素是實體、屬性和實體之間的關(guān)系,五行相生相克圖(如圖1所示)完整表達(dá)了這3個要素,金、木、水、火、土每個字不但表達(dá)一種實體類型,而且字面本身已經(jīng)蘊含了屬性解釋,如“水”字是指世界上一切液體性質(zhì)的實體,每個實體都和另外4個實體發(fā)生聯(lián)系,4條連線代表了實體之間相生或相克的關(guān)系。
圖1???五行相生相克圖
由于技術(shù)原因,五行相生相克圖并不能表達(dá)更多的信息,如各個實體的屬性特征(如火對應(yīng)紅色、對應(yīng)南方,水對應(yīng)黑色、對應(yīng)北方等)只能用很多外延說明進(jìn)行表達(dá)。現(xiàn)在的技術(shù)可以很容易解決這樣的知識表達(dá),不僅可以用知識圖譜方式表達(dá)出關(guān)系,還能把圖片、聲音、視頻、文檔等很多信息直接關(guān)聯(lián)上去。
由于知識圖譜技術(shù)研究剛剛興起,目前學(xué)術(shù)界還沒有找到統(tǒng)一的知識圖譜定義,在知識表達(dá)上還存在諸多缺陷。比如在五行相生相克圖中,每個實體都有4條邊相連,也就是存在4個關(guān)系,但是每一條邊的含義都不同。如果把作為計算中心點的實體稱為主體,其他與之關(guān)聯(lián)的實體稱為關(guān)聯(lián)體,那么每一個主體都存在2條關(guān)系指向主體,另外2條關(guān)系指向關(guān)聯(lián)體。而在指向主體的2個關(guān)系中,一個是相生關(guān)系,另一個完全相反,是相克關(guān)系。從主體指向關(guān)聯(lián)體的2條關(guān)系亦然,分別是相生關(guān)系和相克關(guān)系。
谷歌公司提出的知識圖譜思路和存儲架構(gòu)在智能檢索、機(jī)器問答等方面有一定優(yōu)勢,因此絕大多數(shù)知識圖譜研究機(jī)構(gòu)采用了和谷歌公司類似的知識圖譜構(gòu)建思路。但事實上,在很多領(lǐng)域人們對知識圖譜的需求不僅僅是檢索、問答等,還有計算。比如,用知識圖譜結(jié)構(gòu)畫出一個企業(yè)的合作與競爭態(tài)勢,其中有10家合作關(guān)系企業(yè)和5家競爭關(guān)系企業(yè),經(jīng)過一年的營銷努力,該企業(yè)的合作企業(yè)數(shù)量和競爭企業(yè)數(shù)量雖然沒有改變,但營業(yè)額發(fā)生了很大變化,這意味著該企業(yè)與合作企業(yè)的合作力度加強了,從競爭企業(yè)手上搶到了更多的市場份額。如果用目前一般的知識圖譜構(gòu)建方法描述這樣的一種變化,合作關(guān)系企業(yè)和競爭關(guān)系企業(yè)數(shù)量沒有變化,則只能在關(guān)系描述上用文字進(jìn)行說明,無法描述清楚合作和競爭的變化趨勢,更無法量化該趨勢。同樣,在銷售人員與企業(yè)聯(lián)系的例子中,僅使用文字描述關(guān)系,只能說明銷售人員與企業(yè)進(jìn)行了聯(lián)系,無法表達(dá)出聯(lián)系的數(shù)量和效果等情況,如圖2所示。
圖2???僅用文字描述銷售人員與企業(yè)的關(guān)系
筆者認(rèn)為,在知識圖譜中的關(guān)系類型上增加“負(fù)關(guān)系”,在關(guān)系屬性上增加“強度因子”和“時態(tài)因子”,可以在某些具體領(lǐng)域知識圖譜上實現(xiàn)量化計算,從而讓知識圖譜更加準(zhǔn)確地描述事實。目前雖然有一些研究提到了“逆關(guān)系”等涉及關(guān)系方向的問題[1],也提到了關(guān)系強度問題,但并沒有系統(tǒng)性地提出關(guān)系方向、關(guān)系強度的問題,特別是關(guān)系中存在完全相反的關(guān)系。在與時間相關(guān)的關(guān)系中,目前都是在關(guān)系上直接用文字標(biāo)簽進(jìn)行描述,無法對關(guān)系進(jìn)行計算。關(guān)系的正負(fù)、強度和時態(tài)可以通過有監(jiān)督機(jī)器學(xué)習(xí)的方法形成自動模型,從而在領(lǐng)域知識圖譜中實現(xiàn)關(guān)系的量化計算,在計算事件輿情走向、計算企業(yè)合作與競爭情況變化、分析銷售人員市場拓展情況等很多領(lǐng)域形成一種新的研究思路,對人工智能在具體行業(yè)中的落地應(yīng)用很有意義。
2 知識圖譜中的關(guān)系方向
知識圖譜中核心的3個元素是實體、屬性和關(guān)系。實體實際上包含了客觀世界的事物、概念、信息等,屬性是對實體的描述,這兩個元素是相對固定的,如五行中“金”的含義相對固定,而對“金”的屬性描述也相對固定。關(guān)系則要復(fù)雜得多,有相對固定的關(guān)系,也有與時間強相關(guān)的、變化的關(guān)系,有對主體有利的關(guān)系,也有對主體有害的關(guān)系。
知識圖譜中的關(guān)系是有方向性的。有一些關(guān)系是雙向的,還有一些關(guān)系是單向的;有一些關(guān)系方向是可逆的,還有一些關(guān)系方向是不可逆的。在圖1中,所有的關(guān)系是固定不變的,而且不可逆,如“水克火”這條邊,方向不可能倒過來,因為水能滅火,是先民們總結(jié)出來的共識,已經(jīng)形成了固定知識。用大火可以把水燒干,是不是就把方向逆轉(zhuǎn)了?這個就是下文要研究的關(guān)系強度問題,五行相生相克圖是在強度均衡情況下的共識,如果強度嚴(yán)重不一致,就會出現(xiàn)共識的破壞,會產(chǎn)生不正常的后果,這個正是“五行缺X”的含義,表示不正常了。再比如知識圖譜中的父子關(guān)系也是不可逆的,這樣的例子很多。
很多時候關(guān)系是固定的,也是可逆的。圖3是公安部門數(shù)據(jù)存儲的常用分類。數(shù)據(jù)被分為人(人口信息)、地址(門牌樓等)、案件、物品(刀、槍、毒品等)及組織(某黑社會、邪教組織等)。例如,某犯罪嫌疑人和一個手機(jī)號碼,可以從機(jī)主關(guān)聯(lián)到手機(jī)號碼,也可以從手機(jī)號碼關(guān)聯(lián)到機(jī)主,這就是可逆的關(guān)系,可逆的關(guān)系不用畫箭頭,因為畫箭頭也是雙向箭頭,沒有意義。
圖3???公共安全領(lǐng)域五要素
有一些關(guān)系方向會發(fā)生變化。比如一個犯罪分子和一個犯罪組織的關(guān)系,可能在某個時間點之前,該犯罪分子是犯罪組織的團(tuán)伙成員,經(jīng)過某些思想工作突然棄暗投明,成為線人,在搗毀這個犯罪組織的過程中起到了關(guān)鍵作用,這實際上就是關(guān)系方向發(fā)生了變化,這樣的關(guān)系被稱為時態(tài)關(guān)系。
圖1中每一個實體都有4個關(guān)系:2個箭頭向內(nèi),2個箭頭向外。同樣向內(nèi)的箭頭實際上含義正相反,一個是相生,另一個是相克,筆者把對主體有利的關(guān)系稱為正關(guān)系,而對主體有害的關(guān)系稱為負(fù)關(guān)系。雖然關(guān)系的方向相同,但可能產(chǎn)生的含義是相反的。
3 負(fù)關(guān)系與時態(tài)關(guān)系
在五行相生相克圖中可以看到,并不是轉(zhuǎn)換一下箭頭方向就可以轉(zhuǎn)換關(guān)系的正負(fù)的。實際上對于主體而言,每一個關(guān)系要承載相生、相克、被相生、被相克4個信息。箭頭只能表達(dá)主動與被動的關(guān)系,或者表達(dá)關(guān)系的發(fā)起方和接受方,卻無法表達(dá)有利還是有害。在紙面上,可以用“金克木”“木生火”等標(biāo)注表達(dá)關(guān)系,但在知識圖譜的存儲里,這樣的非結(jié)構(gòu)化表達(dá)卻讓計算機(jī)更難理解,筆者認(rèn)為直接用“負(fù)關(guān)系”表達(dá)可以為知識圖譜的知識智能計算創(chuàng)造條件。
有一些關(guān)系是穩(wěn)定的,但有一些關(guān)系卻與時間強相關(guān)。比如銷售人員與某個企業(yè)曾經(jīng)是友好合作關(guān)系,后來因為項目工作沒有做好,企業(yè)對該銷售人員表達(dá)了強烈的不滿,銷售人員與企業(yè)的關(guān)系變差。經(jīng)過銷售人員的努力挽回,企業(yè)又認(rèn)可了銷售人員的工作效果,雙方又變成了友好關(guān)系。在知識圖譜里如何表達(dá)這樣的知識?筆者認(rèn)為,關(guān)系中應(yīng)加入時態(tài)信息,與時態(tài)強相關(guān)的關(guān)系被稱為時態(tài)關(guān)系。
時態(tài)關(guān)系分為無頭無尾、有頭有尾、有頭無尾、無頭有尾4類。無頭無尾的時態(tài)關(guān)系就是一般的關(guān)系類型,沒有時間起點和終點,如五行中的相生相克關(guān)系;有頭有尾的時態(tài)關(guān)系是指在某一個時間段內(nèi)存在,但之前和之后都不存在的關(guān)系;有頭無尾的時態(tài)關(guān)系是指一旦發(fā)生就永遠(yuǎn)保存的關(guān)系,比如一個人的犯罪記錄,一旦產(chǎn)生就會一直保存下去;無頭有尾的時態(tài)關(guān)系是指曾經(jīng)一直存在,但隨著時間推移或技術(shù)進(jìn)步,突然失去了存在價值的關(guān)系。
4 關(guān)系強度
五行相生相克實際上是先民們總結(jié)出來的一套平衡理論,把世界上的客觀存在劃分成金、木、水、火、土五大要素,每個要素相互有生有克,從而達(dá)成大自然的平衡。這套理論也映射到了人的身體里面,五行對應(yīng)人體五臟,若要身體健康就必須保持人體內(nèi)五行的平衡,這實際上說的就是關(guān)系強度的問題。相生相克的前提是強度對等,比如水可以克火,但如果關(guān)系強度不對等,火就把水燒干了。
在知識圖譜里也存在著關(guān)系強度問題。在不同領(lǐng)域、不同體系里人們對強度的定義不一樣,筆者認(rèn)為在大范圍的知識圖譜里,知識圖譜計算或者知識智能的推進(jìn)是沒有意義的,很難形成一個有效的計算模型。但在特定的領(lǐng)域、特定的范圍里,人們可以通過機(jī)器學(xué)習(xí)或其他方法,逐步提煉出一些關(guān)系特征,建立關(guān)系強度定義規(guī)則,并對關(guān)系進(jìn)行計算。比如,如果一個企業(yè)要畫出方方面面的與自身相關(guān)的關(guān)系是非常復(fù)雜的,但如果只畫出該企業(yè)的客戶關(guān)系、盟友關(guān)系、競爭對手關(guān)系,就可以將合同金額、合作簽約金額、被競爭對手搶走的合同金額等數(shù)字作為強度計算依據(jù),計算出一個量化的數(shù)字,若第二年還用相同的規(guī)則進(jìn)行計算,根據(jù)得出的同比數(shù)字就可以看出企業(yè)生存環(huán)境的變化情況。當(dāng)然這只是一個非常簡單的例子,實際中的數(shù)學(xué)模型建立會復(fù)雜很多。
負(fù)關(guān)系在關(guān)系強度計算上起到負(fù)面的作用,而時態(tài)關(guān)系則需要增加一個時間系數(shù)。知識圖譜計算不是簡單地正關(guān)系累加后減去負(fù)關(guān)系,而是一個考慮多種約束條件和權(quán)重的復(fù)雜模型。
5 應(yīng)用案例
某銷售人員客戶關(guān)系知識圖譜的關(guān)系方向和強度實現(xiàn)了對銷售人員和企業(yè)在客戶關(guān)系中的量化分析。通過對客戶聯(lián)系數(shù)量、聯(lián)系效果等進(jìn)行情感分析,再結(jié)合時態(tài)因子和加權(quán)計算,可以實現(xiàn)對銷售人員客戶關(guān)系的量化評分,用同樣的方法可以實現(xiàn)企業(yè)的友好度情況分析,從而表達(dá)出事件和企業(yè)、銷售之間的基于時態(tài)的關(guān)系度量。
在對銷售人員與企業(yè)的聯(lián)系情況進(jìn)行分析的過程中,在關(guān)系屬性上增加強度因子(聯(lián)系數(shù)量、聯(lián)系效果)和時態(tài)因子(聯(lián)系月份)可以更細(xì)化地描述實體之間的關(guān)系,進(jìn)而更準(zhǔn)確地描述事實,如圖4所示。關(guān)系的強度因子和時態(tài)因子都可用于量化計算,其計算結(jié)果可用于對實體之間宏觀變化情況的分析。
圖4? ?引入強度因子和時態(tài)因子后,銷售人員與企業(yè)的關(guān)系
從圖4可以看出,引入了強度因子和時態(tài)因子并進(jìn)行量化計算后,銷售人員與企業(yè)之間的關(guān)系有了新的分析角度,根據(jù)計算結(jié)果可以得到銷售人員的企業(yè)關(guān)系變化趨勢,如圖5所示。
圖5???引入強度因子和時態(tài)因子后的關(guān)系運算結(jié)果
6 結(jié)束語
本文研究了知識圖譜中的關(guān)系方向問題和關(guān)系強度問題,系統(tǒng)性地提出了關(guān)系中存在的負(fù)關(guān)系、時態(tài)關(guān)系等概念,并對關(guān)系強度及可能的關(guān)系計算提出了初步探索,筆者認(rèn)為在某些特定領(lǐng)域內(nèi),知識圖譜是可以建立有效的模型且可計算的。本文提出的關(guān)系類型比大部分已有研究更細(xì)化,更能精確地表達(dá)實體與實體之間的關(guān)系,但也給知識圖譜的知識構(gòu)建、關(guān)系抽取、圖譜存儲等方面增加了復(fù)雜度。目前業(yè)界大部分知識圖譜平臺可能還無法支持這樣的關(guān)系結(jié)構(gòu),需要進(jìn)一步進(jìn)行研究。在知識圖譜計算方面,算法模型的設(shè)計必將是一個難點,在較大范圍內(nèi)實現(xiàn)計算還不現(xiàn)實,在一些特別行業(yè)或領(lǐng)域內(nèi)建模計算也需要大量的機(jī)器學(xué)習(xí)和模型訓(xùn)練過程,因此需要根據(jù)領(lǐng)域特點進(jìn)行專門研究。
作者簡介
臧根林(1963 - ),男,博士,拓爾思知識圖譜研究院院長,廣州拓爾思大數(shù)據(jù)有限公司首席營銷官,主要研究方向為知識圖譜、知識工程、大數(shù)據(jù)應(yīng)用、企業(yè)管理、企業(yè)文化。
王亞強(1971- ),男,拓爾思知識圖譜研究院首席科學(xué)家,廣州拓爾思大數(shù)據(jù)有限公司常務(wù)副總經(jīng)理,主要研究方向為領(lǐng)域知識圖譜、知識工程。
吳慶蓉(1972- ),女,拓爾思知識圖譜研究院研究員,廣州拓爾思大數(shù)據(jù)有限公司第三事業(yè)部副總經(jīng)理,主要研究方向為領(lǐng)域知識圖譜、知識工程。
占春麗(1975- ),女,拓爾思知識圖譜研究院研究員,廣州拓爾思大數(shù)據(jù)有限公司研發(fā)中心總經(jīng)理,主要研究方向為領(lǐng)域知識圖譜、知識工程。
謝新?lián)P(1976- ),男,拓爾思知識圖譜研究院研究員,廣州拓爾思大數(shù)據(jù)有限公司副總經(jīng)理,主要研究方向為領(lǐng)域知識圖譜、知識工程。
《大數(shù)據(jù)》期刊
《大數(shù)據(jù)(Big Data Research,BDR)》雙月刊是由中華人民共和國工業(yè)和信息化部主管,人民郵電出版社主辦,中國計算機(jī)學(xué)會大數(shù)據(jù)專家委員會學(xué)術(shù)指導(dǎo),北京信通傳媒有限責(zé)任公司出版的中文科技核心期刊。
關(guān)注《大數(shù)據(jù)》期刊微信公眾號,獲取更多內(nèi)容
往期文章回顧
“智慧法院”數(shù)據(jù)融合分析與集成應(yīng)用
大數(shù)據(jù)治理標(biāo)準(zhǔn)體系研究
綜合交通大數(shù)據(jù)應(yīng)用技術(shù)的發(fā)展展望
邊緣智能:現(xiàn)狀和展望
我國地方大數(shù)據(jù)政策的擴(kuò)散模式與轉(zhuǎn)移特征研究
總結(jié)
以上是生活随笔為你收集整理的知识图谱中的关系方向与强度研究的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 函 float *search(fl
- 下一篇: STM32寄存器与输入捕获