Bing与DuckDuckGo搜索结果惊人一致?Google展现强势差异
文 | 樂樂QvQ
搜索引擎之間有何不同?隨著世界上最大的兩家公司Google和Microsoft爭奪Web Search空間的愈發激烈,一超多強的搜索格局已經形成。在目前眼花繚亂的搜索市場中,是搜索結果的千篇一律,九九歸一;還是搜索結果的萬花齊放,各有千秋?本文對Google和Bing這兩個主要搜索引擎以及DuckDuckGo的 相似性 進行了詳盡的分析,目的是探索搜索引擎受歡迎程度的差異除了搜索結果的 有效性 還和哪些因素有關。本文主要包含以下4方面內容:
(1)研究搜索引擎結果的相似性;
(2)隨著時間推移其相似性的發展;
(3)影響搜索引擎結果相似性的因素;
(4)指標在不同種類的搜索服務上的差異。
最終結果表明:在搜索結果上Google展現出與其他兩家的明顯差異,但Bing和DuckDuckGo在搜索結果上很大程度沒有區別。
論文題目:《Search Engine Similarity Analysis: A CombinedContent and Rankings Approach》
論文鏈接:https://arxiv.org/abs/2011.00650
Arxiv訪問慢的小伙伴也可以在 【夕小瑤的賣萌屋】訂閱號后臺回復關鍵詞 【1123】 下載論文PDF~
問題出現
搜索引擎之戰從未停止,不斷演進的搜索算法旨在產生更準確的結果以更好地響應用戶需求,而搜索引擎的內部運作又是公司的核心機密。例如,盡管我們知道Google以PageRank為搜索的基礎,但我們也知道當前的Google服務使用了許多專有機制。對于每一家擁有獨立搜索引擎的公司:Bing、百度等也是如此。
搜索引擎市場的普及之戰是一場持續不斷的游戲。例如披露個人數據濫用和更嚴格的數據保護政策的出現,影響了市場的發展。深入研究美國搜索引擎近三年來的發展情況,可以發現Google的市場份額增長了5.45%,Bing的市場份額下降了18.13%,而DuckDuckGo的市場份額幾乎增長了四倍。后者是一個竭盡全力滿足注重隱私的用戶需求的搜索引擎,盡管與上述競爭對手相比,它所占的份額很小,但其可觀的增長表明,與已建立成熟的市場競爭對手相比,它具有很大的潛力。
同時,搜索引擎發展迅速,返回的結果比過去的“ 十個藍色鏈接 ”要豐富得多。如今,搜索結果包括精心制作的頁面標題和詳細的文本片段,同時還匯總了來自多個專門搜索服務(稱為“垂直領域”)的相關內容,例如圖像,視頻,商業地圖或天氣預報。這些優勢凸顯了新的用戶交互模式的價值。然而這使得評價搜索引擎的優劣麻煩了許多,即使常規的結果排名方法仍可以用于搜索引擎比較,它本質上是問題的一階近似,但沒有考慮到當前的異構用戶體驗。
先來吃瓜
先上結論,本文使用metric T比較了三種搜索引擎Google,Bing和DuckDuckGo(以下稱DDG)的多種查詢類型。Google和Bing是兩個主要研究的搜索引擎。DDG采用了不同的理念,對用戶的私密性給予了高度重視。在本文的實證評估中,本文嘗試回答以下五個研究問題(Research Question,下文簡稱RQ):
搜索引擎會產生類似的Web結果嗎?
搜索引擎之間的相似性是否隨時間推移而一致?
網絡結果的哪個方面(即排名或內容)對搜索引擎的相似性影響最大?
搜索引擎針對不同種類的搜索服務會產生相似的結果嗎?
metric T產生的結果與最新技術有何關系?
RQ1
實驗通過采用metric T估算了Google,Bing和DDG之間的相似性。具體來說,實驗對每個時間每個查詢比較每個搜索引擎對的Web結果,從而得出三個二維相似性數組D。每個代表第 天的第 類查詢中兩個搜索引擎之間的相似性。(矩陣中的每個小塊顏色越“藍”代表結果越相似,紅色反之)
結論:在大多數查詢中,Google與Bing和DDG的結果區分明顯,而后兩者在彼此之間幾乎沒有區別。
RQ2
為了估算一段時間內搜索引擎行為的一致性,我們計算了每天和搜索引擎結果對的平均相似性得分(由metric T計算)。下圖展示了每個搜索引擎對隨時間的平均相似度。該圖清楚地表明,搜索引擎的相似性隨時間變化幾乎是恒定的。該實驗的結果表明,要么搜索引擎不會顯著改變其行為,要么它們的行為以相同的方式改變。
比較2016年和2019年搜索引擎的相似度。對于每個搜索引擎對,我們評估它們在2016年和2019年每個查詢類別的相似度。我們觀察到,搜索引擎的相似度長期不會發生顯著變化。Bing-DDG的結果對是2016年和2019年最相似的。
結論:與Bing-Google和Google-DDG相比,Bing和DDG彼此之間更加相似。盡管搜索結果會發生個別更改,但從長遠來看,它們的成對相似性幾乎是穩定的。
RQ3
與現有方法不同,metric T既可以捕獲結果的順序(即換位),也可以捕獲結果的內容(即摘要,標題)。因此,我們可以估算每個因素對搜索引擎之間差異的貢獻程度。為此,實驗為每個因子實例化具有不同權重的metric T(等式2中的a,b,c)。實驗首先將metric T的base weights設置為,,的基準度量。實驗為所有查詢和日期計算每個比較對的平均相似度。從概念上講,metric T base僅考慮重疊結果的數量,通過改變a = 0.1、0.2,...,1,同時保持b = c = 0來檢查代碼片段的效果。類似地,我們通過改變頻段同時保持其他兩個權重固定為零來檢查標題和摘要的效果。
結論:摘要是所有比較對之間的差異影響最大的,其中Google產生的差異最大。所有的搜索引擎都傾向于把它們共同的結果放在鄰接的位置。最后,所有的搜索引擎產生幾乎相同的標題。
RQ4
除了標準的Web搜索之外,搜索引擎還為用戶提供一系列不同服務,例如新聞,圖像和視頻搜索。我們調查了有關搜索引擎之間相似性的調查結果是否適用于2019年的“新聞搜索”——將其他服務作為文本結果的度量標準而排除在外。我們創建了一組30條新聞查詢;其中20個摘自2019年5月的Google新聞趨勢,其余10個是通用新聞主題,例如“洪水”。
結論:不同的搜索引擎服務產生的結果有相當大的差異。
RQ5
使用不同指標的所有搜索引擎對的相似性。對于Bing-Google和Google-DDG比較,metric T的box plots圖低于其他度量,因為它有效地考慮了它們在結果內容上的重大分歧。
與其他Metric T相比,Metric T表現出一致的行為。但是,當內容相似度下降時,metric T的diff結果將與其他度量的結果不同。
評估標準T
吃瓜看戲到此為止,下面我來看看本文是如何評價搜索結果相似性的。本文引入了一個新的度量標準,稱為***T***,用以研究搜索引擎的相似性。
問題表述
接下來,我們假設對于兩個搜索引擎A和B,我們有兩個列表,,,,和,,,, 分別表示兩個搜索引擎中對于同一條搜索query的TopN結果。
通常,搜索引擎產生的響應包括結果的網址標識符、結果標題和描述網頁內容的代碼段。隨著搜索引擎的發展和用戶體驗的變化,搜索結果的順序并不是決定用戶交互方式的唯一因素。具體來說,摘要和標題與用戶決定點擊特定頁面的行為息息相關。因此,搜索引擎應該比較全面的考慮以上三個方面,以便準確地評估引擎相似度。
為了進一步強調 摘要和標題 的重要性,如表一所示,該表顯示了Google和Bing對于“Steven Wilson”查詢返回的最好結果。盡管搜索引擎在順序和URL指向上是一致的(即,兩個結果都指向http://stevenwilsonhq.com/sw/),但它們會產生完全不同的摘要段。根據用戶的搜索條件,不同的摘要段落在吸引用戶點擊上可能比另一個更有效。例如,Bing制作的片段著重于該藝術家最喜歡的電影導演,因此當用戶搜索有關該藝術家的一般信息時,它可能是一個很好的片段。而Google的摘要選取了他的和他新專輯發行相關的音樂新聞。
▲“Steven Wilson”的結果綜上所述由于搜索引擎結果的排名無法完全體現出它們的相似性,因此我們需要更全面的相似性評價指標。這應滿足以下四個條件:
共現URL(結果)的數量。搜索引擎A和B共享在其TopN結果中共同出現的URL越多,它們的相似度就越高。
共現URL的距離。如果在A和B的結果中都出現一個URL,則隨著兩個結果列表中元素的距離增加,A和B的相似性也會降低。
相似性權重隨著結果序位的增加而降低。例如,最高結果的一致性比第三或第四結果的相似性權重更大。
如果兩個搜索引擎相似,則除了返回相似結果外,它們還會產生相似的標題和摘要。
出發點
作為定義搜索引擎吸引力度的基礎,我們采用Jaro-Winkler距離,它是Jaro距離的一種變體,主要應用于記錄鏈接問題,其目標是基于共同元素及其之間的換位數來計算兩個字符串之間的相似性。兩個字符串S1和S2的Jaro距離由下式給出:
上式中:
表示匹配字符的數量。如果兩個字符相同且位置相差不超過((,)),則視為匹配。
表示換位的數量。兩個字符串中順序不同的匹配字符的一半。
例如,假設我們比較了一對長度為n = 10的結果集合,并且得到了匹配元素的數量m = 2。根據等式1,如果t = 0,則這一項等于1,它對整體相似度貢獻的值為,這種情況使得匹配項的數量較少時,對整體的相似度貢獻反而越多(因為匹配項較少時,換位的可能性更低)。為了考慮搜索引擎返回的摘錄和標題,我們將Jaro-Winkler距離調整為如下表示:
其中,表示結果集合長度,是公共結果的數量,是摘要之間區別的懲罰,是標題之間區別的懲罰,是換位的懲罰,,,是摘要,標題和換位懲罰對應的權重。值得注意的是,該式計算的懲罰和是與結果列表的長度之比,而不是與匹配元素的數量之比。因為和具有相同的長度,同樣我們可以使用代替。
另外,當前個字符都完全匹配時,Jaro-Winkler距離通過使用縮放因子p增大其表示:
懲罰計算
換位
兩個列表中出現的元素位置的絕對差之和用于計算“換位數”。對于結果列表和,懲罰計算如下,其中是a在R列表中的位置
換位懲罰用其上限進行標準化。可以證明,在兩個列表的長度為n的情況下,|RA∩RB|的上限為:其中:
標題和摘要
摘要和標題相關的懲罰的過程對于相似性計算來說都是很常見的。由搜索引擎A和B生成的摘要和標題的句子分別是,:
(1) 我們對句子,進行標記,并消除所有停用詞以及查詢詞。
(2) 獲取出現在兩個句子中的所有有標記單詞的并集,并計算相應的頻率,從而形成兩個向量,,其中這兩個向量代表實際的摘要或標題。
(3) 計算兩個向量的余弦距離 ,。
(4) 對所有結果重復此過程,然后求和所有距離,可以計算出總損失。
一致性提升
對于同位置的返回結果,Jaro-Winkler度量標準均等地作用于每一個可以顯示匹配的字符。但是,當我們在結果列表中按順序排列時,我們要求一致性評價的權重遞減。為了做到這一點,當出現共同結果的位置滿足時,完全匹配或相鄰匹配在結果列表的開始處更為重要。
最終T計算
最終的相似性指標將重疊結果的數量以及結果的順序、摘要和標題結合在一起,由下式計算得到出:
其中:
該式可以滿足前文所提到的C1-C4所有制約條件。
數據集
實驗的數據集總共包含約27,600個Top-10列表。為了組合這些搜索結果,本文構造了10類查詢(如下表)。每個類別包含大約30個query;其中20個選擇了2016年5月版的Google Trends,鑒于無法測試所有可能的查詢,實驗選擇了可能會影響大量用戶的熱門查詢。此外,為了實現代表性,本文在每個類別中增加了10個自定義的query,以便包括那些較不流行但并非罕見的搜索情況。
小結
雖說已經有許多度量標準來評估搜索引擎結果的相似性。但是,它們中的大多數都只專注于搜索結果的排名。本文提出的指標背后的核心思路是,通過將搜索結果的語義特征納入排名距離方法中,從而估算搜索引擎的相似度。另外,Metric T的內容意識旨在更好地反映實際的用戶體驗。實驗中指標的雙重性質可實現更具表達力和更強壯的相似度得分,并區分出搜索引擎行為中的重要差異,而其他排名距離指標則不明顯。
萌屋作者:QvQ。
碩士畢業于中國科學院大學,前ACM校隊隊長,區域賽金牌。競賽混子,Kaggle兩金一銀,國內外各大NLP、大數據競賽Top10。校招拿下國內外數十家大廠offer,超過半數的SSP。目前在百度大搜擔任搜索算法工程師。知乎ID:QvQ
作品推薦:
1.13個offer,8家SSP,談談我的秋招經驗
2.2020深度文本匹配最新進展:精度、速度我都要!
3.7款優秀Vim插件幫你打造完美IDE
4.他與她,一個兩年前的故事
后臺回復關鍵詞【入群】
加入賣萌屋NLP/IR/Rec與求職討論群
有頂會審稿人、大廠研究員、知乎大V和妹紙
等你來撩哦~
總結
以上是生活随笔為你收集整理的Bing与DuckDuckGo搜索结果惊人一致?Google展现强势差异的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【小夕精选】YJango 7分钟带你领略
- 下一篇: 全球仅3000人通过的TensorFlo