PageRank行将过时 搜索引擎遭遇范式转移
曾被喻為創(chuàng)新機(jī)器的Google,連同盛極一時的古格爾教(Google宗教),正在全球范圍內(nèi)經(jīng)歷一個不可逆轉(zhuǎn)的去魅過程。Google還在創(chuàng)新嗎?面對諸多創(chuàng)意迭出的第三代搜索引擎的出現(xiàn),PageRank 算法——Google所賴以成名的利器,似乎并沒有給我們提供一個比其他搜索引擎更相關(guān)或者呈現(xiàn)方式更好的搜索結(jié)果。
比如說,在Google搜索框輸入關(guān)鍵字查詢,搜索結(jié)果往往會是數(shù)目多到目不暇接的一個個網(wǎng)頁,除了提供的網(wǎng)頁數(shù)日甚一日的多之外,你很難發(fā)現(xiàn)所搜索的結(jié)果和一年前有何分別。并且,呈現(xiàn)在你面前的這些網(wǎng)頁幾乎是沒有經(jīng)過任何處理的,比如自動分類、聚類、關(guān)聯(lián)、個性化呈現(xiàn)等等。此外,當(dāng)PageRank算法用于決定由大量社區(qū)內(nèi)容、個人主頁、blog組成的網(wǎng)頁的相關(guān)性時,也越來越顯得捉襟見肘,因?yàn)檫@些微內(nèi)容的相關(guān)性排序很難套用PageRank算法。
第二代搜索的軟肋
作為Google排名運(yùn)算法則(排名公式)的核心,PageRank算法假定:某個網(wǎng)頁被鏈接得越多,則該網(wǎng)頁的等級和重要性就越大,從而在相關(guān)性排序中也就越靠前。PageRank的等級以PR值計(jì)算,PR值越高說明該網(wǎng)頁越重要。雖然Google的排名算法實(shí)際上要遠(yuǎn)為復(fù)雜,比如還揉合了Title標(biāo)識、Keywords標(biāo)識等上百個參數(shù)和變量,但囿于關(guān)鍵詞搜索本身的局限,Google并沒有在搜索結(jié)果的相關(guān)性等指標(biāo)上與其競爭對手拉開距離,如果不是有所不如的話。
事實(shí)上,第二代搜索引擎所具有的局限性,Google幾乎無一幸免。
大體而言,第二代搜索的局限見于如下四個方面:
其一,提供的提問函數(shù)相當(dāng)有限。例如,雅虎只提供與、或運(yùn)算,并且一旦選用了一個邏輯運(yùn)算符,即必須應(yīng)用于所有的關(guān)鍵詞;再如,百度搜索僅支持與、或、非布爾表達(dá)式,而不支持異或,也不支持關(guān)鍵詞之間的位置檢索或者勾選搜索結(jié)果;
其二,僅支持單個關(guān)鍵詞或者一組關(guān)鍵詞及邏輯運(yùn)算符組成提問,而并不支持自然語言搜索或語義搜索。以百度為例,百度搜索支持字串搜索,當(dāng)用戶輸入一段話進(jìn)行查詢時,百度會將其切分成多個詞,按照邏輯“與”的關(guān)系進(jìn)行關(guān)鍵詞搜索,但搜索結(jié)果充其量僅能做到差強(qiáng)人意。所以如此,是因?yàn)殛P(guān)鍵詞搜索本身并不是基于對內(nèi)容的理解,所以關(guān)鍵詞與搜索結(jié)果之間的匹配很難做到精準(zhǔn),往往是搜到哪算哪。
其三,不能利用歷史信息進(jìn)行搜索。用戶的每次搜索都是從頭開始,而不能從原有的查詢結(jié)果中作進(jìn)一步選擇;
其四,呈現(xiàn)方式單一、呆板。多數(shù)搜索引擎只返回一個長長的搜索結(jié)果列表,其中可能有數(shù)以萬計(jì)的包含關(guān)鍵詞的網(wǎng)頁,但這些網(wǎng)頁是否以及在多大程度上與用戶的搜索意圖相關(guān),則不得而知。
Google的顛覆者
在看到pagerank的局限性以后,一些新興的搜索公司開始嘗試通過提供更精準(zhǔn)、更個性化的搜索結(jié)果,從在呈現(xiàn)方式上數(shù)年一貫制、幾無創(chuàng)新的Google那里搶奪市場份額。
例如Clusty,該公司通過借鑒Autonomy的模式識別技術(shù)以及自動分類等功能,可基于對概念的理解提供搜索結(jié)果的自動分類等功能。此外,像Grokker、Snap、Dogpile這樣的后起之秀,也紛紛以更個性化的搜索結(jié)果呈現(xiàn)方式為招徠,連連攻城掠地。
最近在美國頗受用戶贊譽(yù)的另一個搜索引擎swicki,也在個性化和精準(zhǔn)搜索方面可圈可點(diǎn)。雖然swicki的大部分內(nèi)容來自Google,但同樣針是對關(guān)鍵詞,swicki可以根據(jù)用戶注冊時的使用偏好、搜索習(xí)慣,提供出不同的搜索結(jié)果。通過對搜索結(jié)果的二次評判,swicki還可以逐步校正搜索結(jié)果列表。
在國內(nèi),除了類似bbmao這樣的社會化搜索引擎開始提供自動分類、聚類、用戶收藏等功能而嶄露頭角外,老牌搜索廠商雅虎中國,也在搜索算法和呈現(xiàn)方式上進(jìn)行了諸多改進(jìn),不僅強(qiáng)化了對社區(qū)內(nèi)容、blog等微內(nèi)容的數(shù)據(jù)抓取,而且在個性化呈現(xiàn)、模糊搜索等方面也有較大舉措。
一個例子是,此前一個月,雅虎中國、雅虎全球、阿里巴巴三方聯(lián)合推出了一個具有智能模糊匹配功能的搜索引擎——雅虎Imatch。據(jù)稱,該系統(tǒng)可以根據(jù)用戶的搜索習(xí)慣和意圖,智能匹配相關(guān)的搜索結(jié)果。
呈現(xiàn)方式的革命
Clusty、bbmao等元搜索引擎的自動分類、聚類功能一出,即大受用戶追捧,專家也認(rèn)為其提供了比之Google更精準(zhǔn)、細(xì)分的呈現(xiàn)方式,殊不知Clusty、bbmao等所提供的自動分類、聚類功能本身一點(diǎn)都不新鮮。早在10年前,英國的企業(yè)搜索巨擘Autonomy已經(jīng)提供了同類乃至更智能的呈現(xiàn)方式。
例如,Autonomy基于某種專有的模式匹配和概念搜索的算法,可以自動根據(jù)文本中的概念進(jìn)行分類,自動標(biāo)引,并基于用戶興趣自動匹配出個性化、多側(cè)面的直接或隱含的相關(guān)檔案。當(dāng)用戶在搜索框中鍵入某個關(guān)鍵詞,出現(xiàn)的結(jié)果可能被系統(tǒng)自動分為10類(或更多類),若其中9類與用戶的查詢期望距離較大,用戶就可以將接近的那個結(jié)果作為查詢條件,進(jìn)行第二次查詢,直到找到最需要的搜索結(jié)果。而Google、百度等第二代搜索引擎則主要使用SVM和KNN算法進(jìn)行分類,因?yàn)樗惴ǖ南忍烊毕?#xff0c;分類準(zhǔn)確率僅能達(dá)到80%到85%。并且,如果分類樹有變更,如增加、修改或刪除某個分類節(jié)點(diǎn),整顆分類樹就必須重新學(xué)習(xí)。
同樣因?yàn)榛诟拍畹睦斫?#xff0c;Autonomy還可以通過抽取文檔中包含的重要概念,把相似的文檔聚類到一起(相關(guān)性算法),自動生成類別的標(biāo)題,并支持二維島圖、二維趨勢圖以及三維立體圖的圖形化結(jié)果展示。前不久Google趨勢搜索以及百度指數(shù)的推出,在某些方面可視為對這一功能的一種模仿。
更值得一提的是,模式識別算法還可以分析信息間的主要關(guān)系,進(jìn)而實(shí)現(xiàn)內(nèi)容間的交叉索引對照和自動關(guān)聯(lián),并實(shí)時生成超鏈接。換句話說,該算法可以不僅可以做到精準(zhǔn)定位用戶的搜索意圖,還可以提供用戶可能壓根想不到的搜索列表。當(dāng)用戶不知道用什么關(guān)鍵詞去搜索的時候,這種對相關(guān)信息的引發(fā)就可以滿足用戶的一些“模糊需求”,而這是Google等第二代搜索所不具備的。
浮現(xiàn)中的第三代搜索
作為對第二代搜索的一種超越,第三代搜索的范式革命不光見于呈現(xiàn)方式,而是表現(xiàn)為參差多態(tài)的演化路徑,例如個性化搜索、社會化搜索、本地化搜索、知識問答社區(qū)、社區(qū)內(nèi)容搜索等等。而在核心搜索技術(shù)上,則大致包含人工智能、模式識別、語義分析、神經(jīng)網(wǎng)絡(luò)等發(fā)展方向。由于神經(jīng)網(wǎng)絡(luò)搜索和人工智能搜索耗資巨大,目前還沒有出現(xiàn)成型的搜索引擎,不過,包括Google、微軟、IBM、Roussinov等在內(nèi)的搜索引擎均已將人工智能搜索的研發(fā)提上了議事日程。在國內(nèi),Aisou等公司也躍躍欲試,隨時準(zhǔn)備推出人工智能搜索產(chǎn)品。
值得一提的是,Autonomy的模式識別技術(shù)本身也包含有語義分析技術(shù)和部分人工智能技術(shù)。雖然迄今為止,計(jì)算機(jī)還無法做到完全理解語言,但通過采用基于統(tǒng)計(jì)學(xué)、概率論和信息論的概念識別技術(shù),Autonomy可以理解信息的意義和信息間的連接。用戶搜索時可以直接以自然語言輸入一句話或一段文字,甚至一篇文章,Autonomy會自動判斷用戶查詢條件所描述的概念,從企業(yè)文檔庫中查找所有和用戶搜索概念相關(guān)的文檔。顯然,語義搜索比傳統(tǒng)關(guān)鍵詞搜索更能精準(zhǔn)定位用戶的搜索意圖。
由于是基于對概念和概念之間關(guān)系的理解,Autonomy還可以利用精選內(nèi)容中完整的上下文,實(shí)現(xiàn)概念提煉或基于例子的提煉,進(jìn)而聚焦用戶所感興趣的概念結(jié)果,并提供自動建立檔案、社區(qū)及協(xié)作、信息自動推送等個性化搜索功能。不光如此,該系統(tǒng)還可以自動判別使用者的身份,并通過不斷學(xué)習(xí)更新系統(tǒng)的知識庫。
關(guān)于第三代搜索,眾多的創(chuàng)新者已經(jīng)為我們勾勒出一個大致的輪廓,但可以預(yù)言并且相信的是,浮現(xiàn)中第三代搜索引擎今后的進(jìn)化之旅,還會有很多很多超出我們的想象。
總結(jié)
以上是生活随笔為你收集整理的PageRank行将过时 搜索引擎遭遇范式转移的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 决策树的构造——一个手工例子
- 下一篇: 洗衣机,数据挖掘的物理模型