當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

PageRank行将过时搜索引擎遭遇范式转移

發(fā)布時間：2025/3/15 编程问答 18 豆豆

生活随笔收集整理的這篇文章主要介紹了 PageRank行将过时搜索引擎遭遇范式转移小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

曾被喻為創(chuàng)新機(jī)器的Google，連同盛極一時的古格爾教（Google宗教），正在全球范圍內(nèi)經(jīng)歷一個不可逆轉(zhuǎn)的去魅過程。Google還在創(chuàng)新嗎？面對諸多創(chuàng)意迭出的第三代搜索引擎的出現(xiàn)，PageRank 算法——Google所賴以成名的利器，似乎并沒有給我們提供一個比其他搜索引擎更相關(guān)或者呈現(xiàn)方式更好的搜索結(jié)果。

比如說，在Google搜索框輸入關(guān)鍵字查詢，搜索結(jié)果往往會是數(shù)目多到目不暇接的一個個網(wǎng)頁，除了提供的網(wǎng)頁數(shù)日甚一日的多之外，你很難發(fā)現(xiàn)所搜索的結(jié)果和一年前有何分別。并且，呈現(xiàn)在你面前的這些網(wǎng)頁幾乎是沒有經(jīng)過任何處理的，比如自動分類、聚類、關(guān)聯(lián)、個性化呈現(xiàn)等等。此外，當(dāng)PageRank算法用于決定由大量社區(qū)內(nèi)容、個人主頁、blog組成的網(wǎng)頁的相關(guān)性時，也越來越顯得捉襟見肘，因?yàn)檫@些微內(nèi)容的相關(guān)性排序很難套用PageRank算法。

第二代搜索的軟肋

作為Google排名運(yùn)算法則（排名公式）的核心，PageRank算法假定：某個網(wǎng)頁被鏈接得越多，則該網(wǎng)頁的等級和重要性就越大，從而在相關(guān)性排序中也就越靠前。PageRank的等級以PR值計(jì)算，PR值越高說明該網(wǎng)頁越重要。雖然Google的排名算法實(shí)際上要遠(yuǎn)為復(fù)雜，比如還揉合了Title標(biāo)識、Keywords標(biāo)識等上百個參數(shù)和變量，但囿于關(guān)鍵詞搜索本身的局限，Google并沒有在搜索結(jié)果的相關(guān)性等指標(biāo)上與其競爭對手拉開距離，如果不是有所不如的話。

事實(shí)上，第二代搜索引擎所具有的局限性，Google幾乎無一幸免。

大體而言，第二代搜索的局限見于如下四個方面：

其一，提供的提問函數(shù)相當(dāng)有限。例如，雅虎只提供與、或運(yùn)算,并且一旦選用了一個邏輯運(yùn)算符,即必須應(yīng)用于所有的關(guān)鍵詞；再如，百度搜索僅支持與、或、非布爾表達(dá)式，而不支持異或，也不支持關(guān)鍵詞之間的位置檢索或者勾選搜索結(jié)果；

其二，僅支持單個關(guān)鍵詞或者一組關(guān)鍵詞及邏輯運(yùn)算符組成提問，而并不支持自然語言搜索或語義搜索。以百度為例，百度搜索支持字串搜索，當(dāng)用戶輸入一段話進(jìn)行查詢時，百度會將其切分成多個詞，按照邏輯“與”的關(guān)系進(jìn)行關(guān)鍵詞搜索，但搜索結(jié)果充其量僅能做到差強(qiáng)人意。所以如此，是因?yàn)殛P(guān)鍵詞搜索本身并不是基于對內(nèi)容的理解，所以關(guān)鍵詞與搜索結(jié)果之間的匹配很難做到精準(zhǔn)，往往是搜到哪算哪。

其三，不能利用歷史信息進(jìn)行搜索。用戶的每次搜索都是從頭開始，而不能從原有的查詢結(jié)果中作進(jìn)一步選擇；

其四，呈現(xiàn)方式單一、呆板。多數(shù)搜索引擎只返回一個長長的搜索結(jié)果列表，其中可能有數(shù)以萬計(jì)的包含關(guān)鍵詞的網(wǎng)頁，但這些網(wǎng)頁是否以及在多大程度上與用戶的搜索意圖相關(guān)，則不得而知。

Google的顛覆者

在看到pagerank的局限性以后，一些新興的搜索公司開始嘗試通過提供更精準(zhǔn)、更個性化的搜索結(jié)果，從在呈現(xiàn)方式上數(shù)年一貫制、幾無創(chuàng)新的Google那里搶奪市場份額。

例如Clusty，該公司通過借鑒Autonomy的模式識別技術(shù)以及自動分類等功能，可基于對概念的理解提供搜索結(jié)果的自動分類等功能。此外，像Grokker、Snap、Dogpile這樣的后起之秀，也紛紛以更個性化的搜索結(jié)果呈現(xiàn)方式為招徠，連連攻城掠地。

最近在美國頗受用戶贊譽(yù)的另一個搜索引擎swicki，也在個性化和精準(zhǔn)搜索方面可圈可點(diǎn)。雖然swicki的大部分內(nèi)容來自Google，但同樣針是對關(guān)鍵詞，swicki可以根據(jù)用戶注冊時的使用偏好、搜索習(xí)慣，提供出不同的搜索結(jié)果。通過對搜索結(jié)果的二次評判，swicki還可以逐步校正搜索結(jié)果列表。

在國內(nèi)，除了類似bbmao這樣的社會化搜索引擎開始提供自動分類、聚類、用戶收藏等功能而嶄露頭角外，老牌搜索廠商雅虎中國，也在搜索算法和呈現(xiàn)方式上進(jìn)行了諸多改進(jìn)，不僅強(qiáng)化了對社區(qū)內(nèi)容、blog等微內(nèi)容的數(shù)據(jù)抓取，而且在個性化呈現(xiàn)、模糊搜索等方面也有較大舉措。

一個例子是，此前一個月，雅虎中國、雅虎全球、阿里巴巴三方聯(lián)合推出了一個具有智能模糊匹配功能的搜索引擎——雅虎Imatch。據(jù)稱，該系統(tǒng)可以根據(jù)用戶的搜索習(xí)慣和意圖，智能匹配相關(guān)的搜索結(jié)果。

呈現(xiàn)方式的革命

Clusty、bbmao等元搜索引擎的自動分類、聚類功能一出，即大受用戶追捧，專家也認(rèn)為其提供了比之Google更精準(zhǔn)、細(xì)分的呈現(xiàn)方式，殊不知Clusty、bbmao等所提供的自動分類、聚類功能本身一點(diǎn)都不新鮮。早在10年前，英國的企業(yè)搜索巨擘Autonomy已經(jīng)提供了同類乃至更智能的呈現(xiàn)方式。

例如，Autonomy基于某種專有的模式匹配和概念搜索的算法，可以自動根據(jù)文本中的概念進(jìn)行分類，自動標(biāo)引，并基于用戶興趣自動匹配出個性化、多側(cè)面的直接或隱含的相關(guān)檔案。當(dāng)用戶在搜索框中鍵入某個關(guān)鍵詞，出現(xiàn)的結(jié)果可能被系統(tǒng)自動分為10類（或更多類），若其中9類與用戶的查詢期望距離較大，用戶就可以將接近的那個結(jié)果作為查詢條件，進(jìn)行第二次查詢，直到找到最需要的搜索結(jié)果。而Google、百度等第二代搜索引擎則主要使用SVM和KNN算法進(jìn)行分類，因?yàn)樗惴ǖ南忍烊毕?#xff0c;分類準(zhǔn)確率僅能達(dá)到80%到85%。并且，如果分類樹有變更，如增加、修改或刪除某個分類節(jié)點(diǎn)，整顆分類樹就必須重新學(xué)習(xí)。

同樣因?yàn)榛诟拍畹睦斫?#xff0c;Autonomy還可以通過抽取文檔中包含的重要概念，把相似的文檔聚類到一起（相關(guān)性算法），自動生成類別的標(biāo)題，并支持二維島圖、二維趨勢圖以及三維立體圖的圖形化結(jié)果展示。前不久Google趨勢搜索以及百度指數(shù)的推出，在某些方面可視為對這一功能的一種模仿。

更值得一提的是，模式識別算法還可以分析信息間的主要關(guān)系，進(jìn)而實(shí)現(xiàn)內(nèi)容間的交叉索引對照和自動關(guān)聯(lián)，并實(shí)時生成超鏈接。換句話說，該算法可以不僅可以做到精準(zhǔn)定位用戶的搜索意圖，還可以提供用戶可能壓根想不到的搜索列表。當(dāng)用戶不知道用什么關(guān)鍵詞去搜索的時候，這種對相關(guān)信息的引發(fā)就可以滿足用戶的一些“模糊需求”，而這是Google等第二代搜索所不具備的。

浮現(xiàn)中的第三代搜索

作為對第二代搜索的一種超越，第三代搜索的范式革命不光見于呈現(xiàn)方式，而是表現(xiàn)為參差多態(tài)的演化路徑，例如個性化搜索、社會化搜索、本地化搜索、知識問答社區(qū)、社區(qū)內(nèi)容搜索等等。而在核心搜索技術(shù)上，則大致包含人工智能、模式識別、語義分析、神經(jīng)網(wǎng)絡(luò)等發(fā)展方向。由于神經(jīng)網(wǎng)絡(luò)搜索和人工智能搜索耗資巨大，目前還沒有出現(xiàn)成型的搜索引擎，不過，包括Google、微軟、IBM、Roussinov等在內(nèi)的搜索引擎均已將人工智能搜索的研發(fā)提上了議事日程。在國內(nèi)，Aisou等公司也躍躍欲試，隨時準(zhǔn)備推出人工智能搜索產(chǎn)品。

值得一提的是，Autonomy的模式識別技術(shù)本身也包含有語義分析技術(shù)和部分人工智能技術(shù)。雖然迄今為止，計(jì)算機(jī)還無法做到完全理解語言，但通過采用基于統(tǒng)計(jì)學(xué)、概率論和信息論的概念識別技術(shù)，Autonomy可以理解信息的意義和信息間的連接。用戶搜索時可以直接以自然語言輸入一句話或一段文字，甚至一篇文章，Autonomy會自動判斷用戶查詢條件所描述的概念，從企業(yè)文檔庫中查找所有和用戶搜索概念相關(guān)的文檔。顯然，語義搜索比傳統(tǒng)關(guān)鍵詞搜索更能精準(zhǔn)定位用戶的搜索意圖。

由于是基于對概念和概念之間關(guān)系的理解，Autonomy還可以利用精選內(nèi)容中完整的上下文，實(shí)現(xiàn)概念提煉或基于例子的提煉，進(jìn)而聚焦用戶所感興趣的概念結(jié)果，并提供自動建立檔案、社區(qū)及協(xié)作、信息自動推送等個性化搜索功能。不光如此，該系統(tǒng)還可以自動判別使用者的身份，并通過不斷學(xué)習(xí)更新系統(tǒng)的知識庫。

關(guān)于第三代搜索，眾多的創(chuàng)新者已經(jīng)為我們勾勒出一個大致的輪廓，但可以預(yù)言并且相信的是，浮現(xiàn)中第三代搜索引擎今后的進(jìn)化之旅，還會有很多很多超出我們的想象。

總結(jié)

以上是生活随笔為你收集整理的PageRank行将过时搜索引擎遭遇范式转移的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

编程问答

PageRank行将过时 搜索引擎遭遇范式转移

總結(jié)

PageRank行将过时搜索引擎遭遇范式转移