新一代Web的蓝图--语义web
??? 隨著人們對(duì)網(wǎng)絡(luò)上信息使用要求的不斷提高,對(duì)網(wǎng)絡(luò)上信息內(nèi)容提出了更高要求。可以這樣認(rèn)為,網(wǎng)絡(luò)只是給人們提供了一個(gè)信息共享和信息瀏覽的環(huán)境,人們可以在網(wǎng)絡(luò)環(huán)境中找到自己想要的信息,而對(duì)這些信息的理解還需要人來(lái)完成,也就是說(shuō),目前網(wǎng)上的信息是人所能理解的信息,而不是機(jī)器所能理解的信息。
雖然Internet上分布著海量的信息,但它們主要是面向人類的。由于信息內(nèi)容沒(méi)有更好地形式化表示,計(jì)算機(jī)難以處理這些信息。而互聯(lián)網(wǎng)上廣泛存在的信息格式的異構(gòu)性、信息語(yǔ)義的多重性以及信息關(guān)系的匱乏和非統(tǒng)一,給人們?cè)谛畔⑺阉鳌⒊槿 ⒈硎尽⒔忉尯途S護(hù)方面造成極大的不便。正是由于這樣,使得網(wǎng)絡(luò)的深層次應(yīng)用,如電子商務(wù)、電子政務(wù)和數(shù)字圖書(shū)館等智能化服務(wù)的開(kāi)展十分困難。此外,由于計(jì)算機(jī)擁有對(duì)大規(guī)模信息處理的能力,因此將網(wǎng)上信息處理和利用盡可能地交給計(jì)算機(jī)自動(dòng)完成是解決這些問(wèn)題的關(guān)鍵。而要達(dá)到這樣的目的,人們必須讓計(jì)算機(jī)能夠“理解”這些信息,并在“理解”的前提下更好地處理和利用這些信息。WWW的發(fā)明者Tim Berners-Lee描述了在現(xiàn)有Web的基礎(chǔ)上建設(shè)下一代Web的藍(lán)圖——語(yǔ)義Web(Semantic Web)。
語(yǔ)義Web中語(yǔ)言塔與本體
1.本體論
語(yǔ)義Web采用一定的知識(shí)表示方法賦予網(wǎng)頁(yè)信息一定的語(yǔ)義,達(dá)到人機(jī)和計(jì)算機(jī)之間基于語(yǔ)義信息的交換和處理。而在Web這樣一個(gè)巨大的信息資源中,知識(shí)庫(kù)是多種多樣的,既包含通用的常用知識(shí)庫(kù),也包含各個(gè)領(lǐng)域中的領(lǐng)域知識(shí)庫(kù)。要保證在網(wǎng)絡(luò)環(huán)境的信息能夠被計(jì)算機(jī)理解和交互,就需要有一種統(tǒng)一的表示語(yǔ)言對(duì)Web的信息進(jìn)行基于語(yǔ)義的統(tǒng)一表示和交互。
本體論為同一應(yīng)用領(lǐng)域的成員之間提供了統(tǒng)一的術(shù)語(yǔ)集,能夠?qū)⒚枋鰧?duì)象進(jìn)行概念化表示。一個(gè)本體由概念類、關(guān)系、函數(shù)、公理和實(shí)例等5種元素組成。本體中的概念是廣義上的概念,它除了可以是一般意義上的概念以外,也可以是任務(wù)、功能、行為、策略、推理過(guò)程等等。本體中的這些概念通常構(gòu)成一個(gè)分類層次。本體中的關(guān)系表示概念之間的關(guān)聯(lián),這種關(guān)聯(lián)表現(xiàn)了除分類層次關(guān)系之外的概念之間的所有聯(lián)系;函數(shù)是一種特殊的關(guān)系,與關(guān)系不同支持是概念之間的關(guān)系還是對(duì)應(yīng)的概念。如:“球的體積”定義球的體積由球的半徑唯一確定。公理在許多領(lǐng)域中,表示函數(shù)之間或關(guān)聯(lián)之間也存在著關(guān)聯(lián)或約束。實(shí)例是指屬于基本概念類的基本元素,即某概念類所指的具體實(shí)體,特定領(lǐng)域的所有實(shí)例。
語(yǔ)義Web中的本體表示的是人們對(duì)特定領(lǐng)域中的概念的統(tǒng)一的、本質(zhì)認(rèn)識(shí)。對(duì)于網(wǎng)絡(luò)上的應(yīng)用,重要的是需要定義一種具有統(tǒng)一語(yǔ)法的語(yǔ)言,使得本體能夠遵循統(tǒng)一的語(yǔ)法格式進(jìn)行信息交換。
2.語(yǔ)義Web中的語(yǔ)言塔
Berners-Lee等人從當(dāng)前Web技術(shù)的現(xiàn)狀出發(fā),提出了類似于網(wǎng)絡(luò)模型的語(yǔ)義Web分層體系結(jié)構(gòu),為語(yǔ)義Web的發(fā)展奠定了基礎(chǔ)(如圖1所示)。
圖1? 語(yǔ)義Web的語(yǔ)言塔
目前在語(yǔ)義Web的語(yǔ)言塔中,前兩層(Unicode&URI層與XML+NS+xml schema層)的語(yǔ)言都語(yǔ)義成為國(guó)際標(biāo)準(zhǔn),得到廣泛應(yīng)用。第三層的RDF+rdfs已經(jīng)成為推薦標(biāo)準(zhǔn),在本體層的描述語(yǔ)言有DAML+OIL,以及在此基礎(chǔ)上發(fā)展起來(lái)的由W3C推薦的標(biāo)準(zhǔn)OWL。
語(yǔ)義Web中各層次語(yǔ)言標(biāo)準(zhǔn)的研究
本體論為同一應(yīng)用領(lǐng)域的成員之間提供了統(tǒng)一的術(shù)語(yǔ)集。這些成員是人或者智能代理。這樣,就需要制定一種表示語(yǔ)言,將描述對(duì)象進(jìn)行概念化表示。現(xiàn)有的表示語(yǔ)言和系統(tǒng)可以分為兩類,一類是基于一階謂詞邏輯的表示方法,他們分別是本體語(yǔ)言(KIF-based Ontololingua)、Loom, 框架邏輯(Frame-Logic),這些方法具有不同表達(dá)能力和計(jì)算特性。但是,對(duì)于互聯(lián)網(wǎng)上的應(yīng)用,更重要的是要定義一種具有統(tǒng)一語(yǔ)法的語(yǔ)言,這樣才能使得本體遵循統(tǒng)一的語(yǔ)法格式進(jìn)行信息交換。XML已經(jīng)成為當(dāng)前互聯(lián)網(wǎng)上數(shù)據(jù)交換的標(biāo)準(zhǔn)語(yǔ)言,具有良好的可擴(kuò)展性、樣式與內(nèi)容的分離以及由可遵循的嚴(yán)格的語(yǔ)法要求等特點(diǎn),支持不同系統(tǒng)之間的信息交換。因此,為了簡(jiǎn)化語(yǔ)言分析器的分析任務(wù),人們希望建立基于XML語(yǔ)法的、支持本體信息交換的語(yǔ)言標(biāo)準(zhǔn),這樣就導(dǎo)致了第二類基于XML的本體語(yǔ)言標(biāo)準(zhǔn)的研究。這些語(yǔ)言包括:SHOE(Simple HTML Ontology Extensions) 、XOL (Ontology Exchange Language)、OML (Ontology Markup Language)、RDF (Resource Description Frame)、OIL (Ontology Interchange Language)、DAML+OIL (DARPA Agent Markup Language+Ontology Inference Layer)和OWL (the Web Ontology Language)。這些語(yǔ)言雖然都是基于XML的,但是它們之間有不同的層次。
基于本體的語(yǔ)義Web基礎(chǔ)軟件(Semantic Web Infrastructure)
1.早期的基于本體的基礎(chǔ)軟件研究
OntoKnowledge.org是一個(gè)由BT、Swiss Life等多家歐洲科研機(jī)構(gòu)和大學(xué)組成的研究項(xiàng)目。它的成果OIL(Ontology Inference Layer)對(duì)本體語(yǔ)言提供了一個(gè)層次結(jié)構(gòu)視圖,已經(jīng)成為DAML的一個(gè)基礎(chǔ)。這些組織還開(kāi)發(fā)了許多研究工具,其中最成熟的是Oiled,它是一個(gè)本體的編輯、設(shè)計(jì)工具,支持DAML格式。
SiRPAC (Simple RDF Parser & Compiler)是一個(gè)RDF的解釋器,被廣泛使用于許多語(yǔ)義Web項(xiàng)目,由斯坦福(Stanford)大學(xué)開(kāi)發(fā)。SiRPAC 實(shí)際上是一個(gè) RDF API, 可以在文件系統(tǒng)的基礎(chǔ)***問(wèn)和存儲(chǔ)本體。Sesame是一個(gè)開(kāi)發(fā)源代碼的本體存儲(chǔ)與查詢系統(tǒng),由Aidministrator公司開(kāi)發(fā)。
另外,Stanford大學(xué)的KSL實(shí)驗(yàn)室的Chimeara是目前對(duì)Web環(huán)境下的本體研究最為成熟的成果之一。
2. Karlsruhe大學(xué)的研究
KAON(The Karlsruhe Ontology and Semantic Web Infrastructure)是德國(guó)Karlsruhe大學(xué)的一個(gè)科研項(xiàng)目。該項(xiàng)目致力于為語(yǔ)義Web提供所需的基礎(chǔ)本體系統(tǒng)和相關(guān)工具。它針對(duì)基于本體的上層商業(yè)應(yīng)用的需求提供了一個(gè)開(kāi)放的本體管理軟件,為本體的存儲(chǔ)、創(chuàng)建和標(biāo)識(shí)提供了一個(gè)全面的支撐平臺(tái)。
圖2? KAON平臺(tái)的體系結(jié)構(gòu)
RDF API采用的是斯坦福大學(xué)的RDF API,但做了相應(yīng)的重寫(xiě)和擴(kuò)展,為上層應(yīng)用或KAON API提供了本體的內(nèi)存存儲(chǔ)機(jī)制。目前,RDF API不但包括了一個(gè)RDF Parser可解析RDF文件,還包括了RDF Serializer可以將本體序列化到關(guān)系型數(shù)據(jù)庫(kù)和文件中去。
KAON API為應(yīng)用屏蔽了底層的存儲(chǔ)機(jī)制,但實(shí)際上它也可以通過(guò)多種方式訪問(wèn)KAON本體,一種是通過(guò)RDF API(然后通過(guò)RDF Server),另一種是直接通過(guò)Engineering Server。KAON API的定義有其合理性,例如它有Observable這個(gè)設(shè)計(jì)范式,可以讓?xiě)?yīng)用自動(dòng)得到本體修改或升級(jí)的消息。
RDF Server和Engineering Server都基于關(guān)系型數(shù)據(jù)庫(kù),可以提供并發(fā)控制和交易機(jī)制,它們還可以直接支持EJB(可選),提供Entity Java Beans接口。不同的是RDF Server面向RDF,Engineering Server面向KAON自己的本體標(biāo)準(zhǔn)。Engineering Server還有一個(gè)特點(diǎn)就是已經(jīng)具有了初步的分布機(jī)制,有客戶端。
KAON的RDF Crawler用于crawling,并綜合Web上的RDF信息。可以把crawling的深度、指定范圍等這樣的參數(shù)放到配置文件中,并把結(jié)果存于本地文件。KAON Portal用于建立一個(gè)多語(yǔ)種的、基于本體的門戶網(wǎng)站。需要先將網(wǎng)站內(nèi)容進(jìn)行本體標(biāo)識(shí)。在網(wǎng)站上可以基于本體進(jìn)行可視化的瀏覽導(dǎo)航。它把顯示與內(nèi)容做了嚴(yán)格的分離。有很好的可配置性。KAON的OI-Modeler是一個(gè)本體的建模工具,用于可視化地建立文件并維護(hù)它。
3. HP的Jena本體處理平臺(tái)
惠普(HP)實(shí)驗(yàn)室的Jena也是一個(gè)以RDF API為核心,用于實(shí)現(xiàn)語(yǔ)義Web(Sematic Web)的工具。它的體系結(jié)構(gòu)如圖3所示。
圖3? Jena的體系結(jié)構(gòu)
從圖3可以看到,Jena由Network API、Query、Readers、Inference、Writers、Stores幾部分圍繞RDF API組成。
4.基于Web的分布式本體系統(tǒng)
WODOS(Web Oriented Distributed Ontology System)系統(tǒng)由清華大學(xué)計(jì)算機(jī)系知識(shí)工程室研究開(kāi)發(fā)。它是一個(gè)全面的基于本體的語(yǔ)義Web知識(shí)處理平臺(tái),支持中英文,可將本體信息存于關(guān)系型數(shù)據(jù)庫(kù)中,可以做RDF文件的導(dǎo)入導(dǎo)出,支持RQL查詢,第三方軟件可以通過(guò)OdoAPI進(jìn)行操作。WODOS引入推理機(jī)制,可以對(duì)存于WODOS中的本體事實(shí)施以規(guī)則(基于Flogic),并在這些規(guī)則的基礎(chǔ)上進(jìn)行推理。WODOS建立了統(tǒng)一的用戶界面,可以把對(duì)WODOS的各種操作(如原有的RQL查詢、RDF文件導(dǎo)入導(dǎo)出和新加入的Flogic操作等)集成在一起。
Web信息向基于本體的語(yǔ)義內(nèi)容的轉(zhuǎn)換
本體賦予語(yǔ)義Web語(yǔ)義信息,因此圍繞本體對(duì)互聯(lián)網(wǎng)信息進(jìn)行的操作的研究成為語(yǔ)義Web研究的一個(gè)重要領(lǐng)域。主要體現(xiàn)在:
1.本體標(biāo)注
將網(wǎng)頁(yè)上的信息和本體庫(kù)中的本體關(guān)聯(lián)起來(lái)是Semantic Web發(fā)展的首要任務(wù)。Semantic Web標(biāo)注就是要建立這種關(guān)聯(lián),一般采用RDF或者DAML對(duì) Web進(jìn)行標(biāo)注。Web標(biāo)注最早開(kāi)始于10年前的Mosaic1.2版中,從那時(shí)開(kāi)始,Web標(biāo)注的工具便被開(kāi)發(fā)出來(lái),例如:CritLink和ThirdVoice等。
隨后的研究中又開(kāi)發(fā)了很多Web標(biāo)注系統(tǒng),比較流行的有CritLink、ThirdVoice、IMarkup、XLink、CREAM、Annotea等。但所有的這些標(biāo)注系統(tǒng)都需要手工操作來(lái)實(shí)現(xiàn)標(biāo)注,也就是用戶手工選擇Web文檔中需要標(biāo)注的信息以及它所對(duì)應(yīng)的本體,從而實(shí)現(xiàn)Web的標(biāo)注。這種標(biāo)注方法在標(biāo)注少量頁(yè)面的時(shí)候比較理想,但如果需要全部標(biāo)注大量文檔集合的時(shí)候,這種純手工的方法就很不適用了。因此有關(guān)半自動(dòng)化的標(biāo)注的研究已經(jīng)開(kāi)始,S-CREAM就是一個(gè)正在研究的半自動(dòng)的標(biāo)注系統(tǒng),它利用Amilcare來(lái)作為信息抽取工具。Amilcare可以通過(guò)一組已經(jīng)手工標(biāo)注好的Web文檔集作為訓(xùn)練集,然后利用學(xué)習(xí)算法自動(dòng)抽取出提取規(guī)則,最后利用這些規(guī)則自動(dòng)進(jìn)行其他的相似文檔的標(biāo)注。S-CREAM可以很好的實(shí)現(xiàn)半自動(dòng)的標(biāo)注,但是他自動(dòng)標(biāo)注的文檔必須和原先文檔是同一類文檔,例如描述個(gè)人信息的頁(yè)面。
2.本體集成
因?yàn)檎Z(yǔ)義Web的工作方式是極為分散的,一個(gè)相同的領(lǐng)域的本體會(huì)在多個(gè)地方被編輯、建立和發(fā)布,一旦兩個(gè)領(lǐng)域的本體需要協(xié)助工作,它們之間會(huì)存在語(yǔ)義異構(gòu)的問(wèn)題。如何解決這種語(yǔ)義異構(gòu)問(wèn)題,在不同的領(lǐng)域本體上提供一個(gè)統(tǒng)一的語(yǔ)義訪問(wèn)層,是目前語(yǔ)義Web的一個(gè)研究熱點(diǎn)。這就需要在不同的本體之間進(jìn)行映射。目前在本體映射中普遍采用的方法有兩種:一種是利用一個(gè)已有的中間本體對(duì)不同的本體進(jìn)行標(biāo)識(shí)。這種做法采用的中間本體一般來(lái)說(shuō)是開(kāi)放的,標(biāo)準(zhǔn)的。另外一種是直接對(duì)兩個(gè)本體進(jìn)行映射。領(lǐng)域中的兩個(gè)本體會(huì)有很多的相似之處,所以可以對(duì)兩個(gè)本體進(jìn)行映射。兩個(gè)本體進(jìn)行映射也就是對(duì)本體里面的概念和關(guān)系進(jìn)行映射,而概念的映射完成后,關(guān)系的映射也就完成了。
3.本體建立
本體描述語(yǔ)言給出了一個(gè)描述本體的標(biāo)準(zhǔn)語(yǔ)言,而本體是一個(gè)特定領(lǐng)域中對(duì)其中語(yǔ)義的共同認(rèn)識(shí),不同領(lǐng)域有不同的領(lǐng)域本體。一個(gè)領(lǐng)域中包含的知識(shí)和詞匯非常豐富,如何定義領(lǐng)域本體成為語(yǔ)義Web的重要研究問(wèn)題。目前對(duì)本體的建立的研究有兩種,一種是在一個(gè)本體創(chuàng)建工具支持下完全手工建立領(lǐng)域本體。另一種是利用現(xiàn)在包含在文本中的大量信息,采用機(jī)器學(xué)習(xí)的方法,通過(guò)聚類等技術(shù),半自動(dòng)建立本體。
語(yǔ)義Web的應(yīng)用
1.語(yǔ)義Web在Web Services中的應(yīng)用
語(yǔ)義Web與Web Services的結(jié)合被認(rèn)為是語(yǔ)義Web的一個(gè)極好應(yīng)用。Web Services作為Web技術(shù)的最新發(fā)展成果,它的出現(xiàn)及推廣將變革現(xiàn)有的Web應(yīng)用模式。但是要想要使分布于Internet上的服務(wù)器可以通過(guò)Web更自動(dòng)化地,更智能化地交互,就必須解決目前Web上廣泛存在的信息格式的異構(gòu)性、信息語(yǔ)義的多重性以及信息關(guān)系的匱乏和非統(tǒng)一。
將本體的概念和相應(yīng)技術(shù)引入Web Services技術(shù)中,將從根本上解決以上問(wèn)題。同時(shí),由于本體具有豐富的語(yǔ)義和廣泛的關(guān)系,它將變革現(xiàn)有的Web Services,使之成為Intelligent Web Services,使Web實(shí)現(xiàn)從自動(dòng)化到智能化的轉(zhuǎn)變成為可能。
在將本體的概念和技術(shù)應(yīng)用于Web Services中,需要全面研究建立基于本體的Web service描述、service組裝與分解、基于本體的服務(wù)發(fā)面和服務(wù)管理等問(wèn)題。
2.在電子商務(wù)中的應(yīng)用
Web技術(shù)已經(jīng)逐漸滲透到我們?nèi)粘I畹母鱾€(gè)方面,電子商務(wù)也已經(jīng)成為一種重要商業(yè)模式。開(kāi)放和靈活的客戶關(guān)系建立和管理以及商業(yè)模式是實(shí)現(xiàn)有效電子商務(wù)系統(tǒng)的重要因素。而這種開(kāi)放性和靈活性的取得可以通過(guò)本體技術(shù)得到解決。比如建立基于本體的產(chǎn)品描述、分類體系,以及對(duì)商務(wù)處理過(guò)程的結(jié)構(gòu)化、標(biāo)準(zhǔn)化以及個(gè)性化的處理已經(jīng)成目前電子商務(wù)領(lǐng)域的研究熱點(diǎn)。
結(jié)語(yǔ)
語(yǔ)義Web的概念一經(jīng)提出,就引起學(xué)術(shù)界的廣泛重視,并且在短短幾年中已經(jīng)取得的較大的發(fā)展。相信,在學(xué)術(shù)界和工業(yè)界的不斷努力下,語(yǔ)義Web會(huì)逐步實(shí)現(xiàn)人們?cè)O(shè)想的、一個(gè)全新的Web!
總結(jié)
以上是生活随笔為你收集整理的新一代Web的蓝图--语义web的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。