知识图谱——感知智能通往认知智能的基石
導語
人工智能的三個階段
計算智能:目前機器的計算智能已經遠遠超過人類水平。
感知智能:感知智能也基本達到(或超過)了人類水平。語音和圖像相關的智能被稱為感知智能,感知智能只需要識別客體信號就行,比如目標檢測只要檢測到畫面中有某個物體,做的其實就是信號匹配的工作。
認知智能:認知智能只有人類六歲兒童的水平。認知智能則需要會推理、規劃、聯想、創作。
自然語言處理
在人工智能領域,大家公認的是自然語言處理(NLP)比計算機視覺(CV)更難,一個明顯的證據就是目前成熟的 CV 應用(人臉識別、目標檢測、語義分割、AI安防、自動駕駛等)非常多,而且這方面的創業公司也非常多,著名 AI 獨角獸公司的有 CV 四小龍(曠視、商湯、依圖、云從);而在 NLP 領域卻鮮有獨角獸公司出頭,且也僅有機器翻譯這一 NLP 應用較為成熟。
伴隨著計算機算力的大幅提升、數據的爆炸式增長,深度學習的研究也迅速發展,感知智能的水平突飛猛進,一度達到里程碑的水平;然而強大的計算能力和巨量的數據并不能對認知智能的提升有多大幫助,無怪乎大家都大呼#自然語言處理太難了#[1]。
NLP 的難點一個在于語義理解,機器很難理解一句話的真正含義,語句中多一個字、少一個字、變換一個字的順序、同一句話由不同的人說出的,所表達的意思都可能天差地別;
另一個難點在于知識的推理、聯想等需要額外的外界知識作為基礎。
說了這么多,和本文所要說的知識圖譜又有什么關系呢?業界的基本共識是,知識圖譜是感知智能通往認知智能的基石,因為它能解決語義理解問題,也能解決知識推理問題。由此可知,知識圖譜是多么具有研究的必要!
知識圖譜的誕生和應用場景
知識圖譜的發展最早可追溯到二十世紀六十年,如下圖所示。它的誕生過程經歷過語義網、描述邏輯和專家系統等階段[2]。
知識圖譜(Knowledge Graph)一概念最早是由谷歌公司于 2012 年提出的,他們的目的是想借助知識圖譜技術來優化搜索引擎的搜索效果。
沒有知識圖譜時,搜索服務提供商只能提供信息的檢索,也就是當你輸入一句話到搜索引擎,它就會返回那些包含了你所輸入語句中的關鍵詞的網頁鏈接,你如果想了解你所搜索問題的答案,那么你只能一個一個網頁的點進去,然后快速瀏覽該網頁去尋找你要的答案;
搜索引擎無法直接告訴你想要的結果,一是因為它可能無法理解你搜索語句的具體語義,二是搜索引擎里面存儲的只有離散的信息,而沒有結構化的知識。為了保證讓你點擊更少的網頁來找到你想要的答案,谷歌開發了一個叫 pagerank 的算法來計算網頁的重要性,在返回搜索結果的時候,按照計算的網頁重要性進行排序給你展示,由于眾所周知的原因,我這里用百度搜索來展示一下普通的檢索結果是怎樣的。
如上圖所示,搜索引擎先將我所輸入的查詢語句進行了分詞處理,然后在全網檢索網頁,看哪些網頁里包含了我所查詢語句中的關鍵詞,然后按照網頁權重得分給我展示了一些網頁,如果我想知道所有劉德華主演的電影,那么我需要把所有網頁都點進去看,然后自己一一進行統計記錄,之后我才能知道劉德華主演的電影都有哪些。
當有了知識圖譜的時候,檢索結果是這樣的:
如上圖所示我根本不需要點進某些網頁去自己統計記錄,搜索引擎直接告訴了我答案,而且將這些電影分門別類按類型、地區、年代給我展示了劉德華在什么年份主演了什么類型的什么電影,以及主演了多少部電影,返回結果具有更精準、結構化的特點。
上述例子是信息檢索,如果我們想搜索知識,那么情況會怎樣呢?下面我們以搜索“姚明的女兒的國籍是哪里”為例。
顯然也是對網頁的檢索、召回,雖然我們可以直接通過網頁標題就能獲知答案,但是還是不那么直接。接下來是知識圖譜搜索出來的結果:
?回答結果一目了然,除了直接告訴你想要的結果之外,它還告訴了你姚明女兒的姓名、出生日期等其他信息。知識圖譜為什么能直接告訴你結果呢?因為它理解了你的查詢請求,而且它具有結構化的語義知識庫,這個知識庫里正好有你需要的知識,另外它還具有推理能力。比如上例中,搜索引擎準確的理解了你想問的是“姚明女兒”這個人的“國籍”是哪里,所以它先找到了姚明女兒是“姚沁蕾”這個事實,然后找到姚沁蕾的“國籍”屬性值是“美國”,于是它返回了搜索結果--美國,這就是一個完整的推理過程。
知識圖譜除了應用于搜索引擎做語義檢索以外,還有非常多的應用場景,如智能問答客服、金融風控、人物關系圖譜、決策輔助、智能制造等。貝殼借助知識圖譜應用于他們的貝殼找房系統中,以提升對用戶的搜索意圖的理解、提升向用戶推薦相關房子的智能推薦能力以及搭建智能問答系統來輔助經紀人回答用戶有關房子的問答[3]。阿里巴巴將知識圖譜作為阿里小蜜機器人的知識庫的一部分,阿里小蜜是一個基于大數據和人工智能技術的智能化、體系化客服系統,它支持向用戶提供 KBQA 和 EBQA等智能問答服務[4]。美團將知識圖譜技術應用于他們的 APP 中,他們使用基于知識圖譜的問答(KBQA)來完成和用戶之間的搜索交互任務,比如幫助用戶找到合適的餐飲門店、商超、購買電影票以及預定酒店服務[5]。
知識圖譜的定義以及相關概念
知識圖譜并不是突然由某一個人或機構發明的,它經歷過早期本體時代、語義網時代的發展、積累,最后才發展衍生出知識圖譜這一概念,所以研究知識圖譜的流派也非常多,因此對它的定義也是多種多樣。
但是最起碼的共識定義是:知識圖譜的本質是一個語義網絡,它旨在描述客觀世界的概念實體事件以及及其之間的關系,并且對它們進行語義建模;知識圖譜是一種基于圖的數據結構,由節點和邊構成,每個節點表示一個“實體”,每條邊為實體之間的“關系”。早期的語義網絡受限于我們的處理方法以及技術水平,它更多是依賴于專家的經驗規則去構建,在規模方面受限于特定領域的數據;而目前的的知識圖譜所說的語義網絡就不需要那么依賴于專家的經驗去構建了,它使用成熟的 NLP 技術去自動挖掘“實體”以及“關系”用于構建語義網絡。
如上圖所描述的[6],在知識圖譜中,各個節點(現實世界中的事件、數據、信息)不再是孤立的,它們是通過特定的關系(邊)鏈接在一起,從而形成結構化的知識表示,這種圖數據結構很容易被人們理解接受,并且也很容易被計算機識別和處理。
知識圖譜的核心其實就是三元組,三元組是由實體(Entity)、屬性(Attribute)和關系(Relation)組成的,形式為<實體,關系,實體>或<實體,屬性,屬性值>;而這樣的三元組正好可以構建成圖數據格式,如上圖所示的示意圖,可以拆分成三元組的形式如下:
<麗江,屬于,云南><大理,屬于,云南><洱海,屬于,大理><小秦,住在,麗江><小明,住在,大理><小明,朋友,小秦>同理,上述三元組也可以組成一個圖結構。在上述三元組中我們只看到了<實體,關系,實體>類型的三元組,其實在上文中的知識問答搜索例子中我們已經見識過<實體,屬性,屬性值>類型的三元組了,比如<姚沁蕾,國籍,美國>,其中姚沁蕾表示一個實體“人”,“國籍”就是實體“人”的一個屬性,而“美國”正是該屬性的“屬性值”。
基于已有三元組可以推導出新的關系三元組,這對構建知識圖譜非常重要,同時這也是知識圖譜具有推理能力的基礎。比如由兩個三元組<翅膀 part-of 鳥>,<麻雀 kind-of 鳥>,可以推導出<翅膀 part-of 麻雀>這樣一個事實。
開放領域知識圖譜和垂直領域知識圖譜
開放領域(通用)知識圖譜面向通用領域,面向的用戶是全部的互聯網用戶,實際上是谷歌或者百度這樣的搜索公司在構建,它的構建是以常識性的知識為主,包括結構化的百科知識,它更強調知識的廣度,而對深度不做更多要求。
垂直領域(行業)知識圖譜的定位是面向特定的領域或者行業,比如醫療知識圖譜、工業知識圖譜等,他的數據來源是特定的行業語料,它強調知識的深度,而不是廣度。
然而通用知識圖譜和行業知識圖譜之間并不是相互獨立的,他們是具有互補的關系,一方面前者會吸納后者的知識來擴充它的知識面,增加知識廣度;另一方面,構建行業知識圖譜也可以從通用知識圖譜里吸納一些常識性的知識作為補充,以形成更完整的行業知識圖譜。
構建知識圖譜的流程
看到這里,你可能覺得“二十一世紀就是知識圖譜的世紀”啊!它太重要了,它是人工智能能夠真正走向認知智能的基石,雖然有些是夸張的,但是顯然各行各業都在談知識圖譜,各大小公司都要建知識圖譜。那么如何構建屬于自己的知識圖譜呢?
本節簡單介紹一下構建知識圖譜的一般流程和所需知識棧,如下圖(均來自網絡)所示:
構建一個完整的知識圖譜一般會經歷如下步驟:
收集數據,確認擁有什么可使用的數據,去收集,然后對數據做最基本的處理;
知識定義,結合所擁有的數據以及知識圖譜的用途,定義知識模式,定義實體類型和實體之間的關系;
獲取知識,前面收集的數據僅僅是一些零散的信息,距離它們成為能用的知識還很遠,因此需要使用命名實體識別、關系抽取、屬性抽取等技術去獲取知識;
知識融合,由于知識的來源可能多種多樣,當獲取了知識之后,我們有必要將知識做融合,比如我們獲取了有關“成龍”、“Jack Chen” 等相關知識,眾所周知 Jack Chen 就是成龍,成龍就是 Jack Chen,那么有必要將這兩者進行實體對齊等操作;
知識存儲,當有了知識后,我們需要將其存儲,存儲的目的是方便對知識的查詢和推理應用,目前流行的是使用圖數據庫,比如 neo4j,來存儲,當然你也可以不使用圖數據庫,完全看你的喜歡;
知識賦能應用,有了知識圖譜,那么就可以利用其去支持一些應用了,一些常見的應用場景我們在上文也介紹了。
參考資料
[1]自然語言理解難在哪兒? - 知乎
[2]http://m.elecfans.com/article/739264.html
[3]回顧·知識圖譜在貝殼找房的從0到1實踐
[4]知識結構化在阿里小蜜中的應用
[5]基于知識圖譜的問答在美團智能交互場景中的應用和演進
[6]知識圖譜是什么? | 人人都是產品經理
總結
以上是生活随笔為你收集整理的知识图谱——感知智能通往认知智能的基石的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 关于魔浪o5的连接出现的问题解决办法
- 下一篇: VR安全普法教育的新模式|广州华锐互动