【转】自然语言系列学习之表示学习与知识获取(三)知识图谱
分布式表示可以非常好的建立跨領域跨對象的知識遷移。有非常多的工作是去學習不同語言的各種詞匯在同一個空間里統一的表示,這種表示對構建跨語言的知識遷移或者進行機器翻譯都是非常重要的。此外有一個工作是試圖建立視覺信息和文本信息聯合統一的語義表示,現在有一個非常重要的新穎的任務是為圖片自動產生一句關于圖片的介紹Image Caption Generation,它是建立視覺和文本聯合表示的非常有意思的任務。
利用分布式表示進行詞匯的語義表示可以進行很多相關領域的研究,如 《Diachronic Word Embeddings Reveal Statistical Laws of Semantic Change》(https://arxiv.org/abs/1605.09096)是Stanford lp group在acl2016上發表的一篇文章,它是關于構建同一個詞在不同的歷史時期的word in value的情況。
實際上它就可以很好的去發現這些詞的語義信息,隨著時間的變化,它演化的情況,這說明分布式表示可以有效的支持相關的語言學家進行語義演化的研究。
上面是通過詞匯表示的方向來簡單介紹分布式表示的一些優勢,接下來會花比較多的時間介紹知識表示一些相關的思想進展,還有它在知識獲取方面的一些應用。
知識表示的研究對象是知識圖譜,知識圖譜主要包括實體和關系兩個主要對象(節點代表實體,連邊代表關系)。
根據上圖,知識圖譜中每一個節點代表一個不同的實體,這些實體之間的連邊實際上反映了它們的關系,知識圖譜與傳統的社會網絡不同的地方在于在它里面每一條邊實際上都會帶有明確標識類型關系的標簽,它實際上讓知識圖譜變得更加復雜的同時也變得更加有表達能力。
知識圖譜也可以通過三元組的形式進行表示,這種三元組(head,relation,tail)的表述,是一種典型基于符號的表示方法。也就是上圖可以用若干三元組表示,每一個三元組包括頭實體,尾實體和他們之間的某一種關系。比如上圖中patti和miami之間有born in的關系,那么頭實體就是head,尾實體就是miami,他們之間的relation關系是born in,也就是說知識圖譜可以用若干個三元組來進行這種符號表示。
具有代表性的知識圖譜非常多,這里面舉兩個例子,一個是反應人類的語言知識的wordnet,它是一個非常有代表性的被自然語言學者廣泛應用的知識圖譜庫。另外一個非常有代表性的知識圖譜是關于世界相關知識的freebase,freeebase是被Google收購的一家創業公司,在收購之后逐漸擴充,逐漸成為世界上最大的一個公開的知識圖譜庫。它在2014年被谷歌閉源,相關的知識庫已經transform到了wikidata中。
知識圖譜典型代表方案是基于符號表示的三元組(rdf)形式,這種基于符號的表示有一個非常大的問題是它假設所有的實體或者說所有的關系,他們互相之間都是相互獨立的, 那么其實我們沒有很好和有效的辦法去衡量這些實體之間的語義關系,過去有非常多的研究算法被提出來,嘗試計算這些實體之間語義的關系,但是由于它們都是基于圖的算法,比如尋找最短路徑來反應兩個實體之間的關系,這個計算過程其實是復雜度的非常高的一件事情,那么我們找到一個解決方案是將知識映射到低維向量空間中去,譬如把實體之間的關系能夠映射到低維向量空間中,這樣就可以很好的表示它們背后的語義信息,也能夠很好的計算任意兩個實體之間的語義關系,這就是這個解決方案的一個基本的思想。
總結
以上是生活随笔為你收集整理的【转】自然语言系列学习之表示学习与知识获取(三)知识图谱的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【转】自然语言系列学习之表示学习与知识获
- 下一篇: 镶牙一半烤瓷一半白钢可以吗