日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 运维知识 > windows >内容正文

windows

文本搜索系统的评估

發(fā)布時間:2023/12/10 windows 35 豆豆
生活随笔 收集整理的這篇文章主要介紹了 文本搜索系统的评估 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

說明:文章內(nèi)容來源于課程視頻和課程ppt。我只學習了課程沒有做習題。文章不是翻譯,是我對課程的理解。
 這部分本應(yīng)該繼續(xù)說反饋(FeedBack)的。但是課程中安排的是評估(Evaluation)。評估是用于衡量搜索引擎質(zhì)量的。反饋是為了提高搜索引擎質(zhì)量而進行的操作。所以在講反饋之前需要先說明評估。

1為什么做評估

 為什么要評估搜索引擎呢?一方面是為了評估搜索引擎是否有用,另一方面用于比較不同算法、不同文本搜索系統(tǒng)的有效性。

2評估什么

 1 準確性accuracy。可以衡量搜索結(jié)果的準確程度,是不是把無關(guān)數(shù)據(jù)放在top列表中了。
 2 有效性(efficiency)。系統(tǒng)可以在多長時間內(nèi)返回搜索結(jié)果。一次搜索需要多少資源。主要從space和 time overhead兩方面衡量。
 3 有用性usability。搜索系統(tǒng)對用戶是有用的嗎?通過研究用戶行為得出結(jié)論。

3評估方法

 Cranfield Evaluation Methodology克蘭菲爾德評價方法。主要內(nèi)容有兩點:第一、建立一個可重用的測試集。第二、定義測量標準。

3.1建一個可重用測試集

 建立可重用測試集的步驟:1 從文檔中抽樣取得部分文檔。2 從查詢集中抽樣得到部分查詢。3 (人工)判斷文檔與查詢是否相關(guān),所有相關(guān)文檔中理想的排序方式是什么(idea ranked list)。
 

3.2評估標準

 準確率與召回率
 a=搜索到的相關(guān)文檔
 b=搜索到的不相關(guān)文檔
 c=相關(guān)文檔但是沒有搜索到
 precision=aa+b
 recall=aa+b
 理想結(jié)果是:Precision=Recall=1.0。實際中高的recall必定會有一個較低的Precision。
 一般使用中不會定義全局的準確率,而是會設(shè)置一個閥值,計算top n的準確率。例如prcision@10。
 recall與precision結(jié)合使用得到Fβ=(β2+1)P?Rβ2P+RF1=2P?RP+R
 提問:為什么不是0.5*P+0.5*R?
 回答:這是一個求和,求和的結(jié)果由式子中的大數(shù)來決定。就是說,如果有一個P值非常高,即使R值很低,結(jié)果頁可能很高。而F1的式子,需要P和R都非常高,結(jié)果才可能非常大。

4評估排序文檔

 評估排序文檔 evaluate ranked list

4.1 設(shè)置cut off

 評估排序結(jié)果的第一步是要確定一個位置,簡單的說是每頁多少條數(shù)據(jù)。我們可以認為用戶只有很小的可能會翻頁。或者說這次引擎需要評估前兩頁數(shù)據(jù)的準確率和召回率。根據(jù)實際任務(wù)來定。這里假設(shè)cut off=10。查看前10條文檔的情況。

4.2 計算不同位置的準確率和召回率

 在前10條文檔中,我們又不知道用戶會在哪個位置停下來。我們可以先計算用戶在不同位置停止瀏覽的時候的準確率和召回率。

位置文檔準確率召回率
1D1+1/11/10
2D2+2/22/10
3D3-2/32/10
4D4-2/42/10
5D5+3/53/10
6D6-3/63/10
7D7-3/73/10
8D8+4/84/10
9D9-4/94/10
10D10-4/104/10

 
 可以看到隨著位置增加,準確率逐漸降低,召回率逐漸增加。所以我們可以假設(shè)cut off(例如:10)之后的每個位置的準確率為0。
 

 

4.3 比較兩種算法

 比較兩種算法就是比較兩種算法的P-R曲線。
 
 
 如果算法A、B的效果可以用上圖表示,毫無疑問算法A要優(yōu)于算法B。因為在每一個相同召回率的點上,A的準確率>B的準確率。
 
 
 如果算法A、B的效果用上面的圖表示,那哪種算法好呢?我們是否應(yīng)該用算法B替換算法A呢?在最前面的位置,算法B具有較高的準確率;總體來看,算法A具有較高的召回率。如果是今日頭條這樣的場景,一個用戶就想知道今天或者近幾個小時發(fā)生了什么事情,而且還不一定看幾條數(shù)據(jù)就不停下來了。所以最前面的數(shù)據(jù)一定要是準確的,要求高的準確率。這時候算法B比較好。如果這是一個科技查新的系統(tǒng),是一個專利調(diào)研項目,想要知道哪類技術(shù)是不是已經(jīng)研究過,或者進行了哪方面的研究,這時候有一些錯誤數(shù)據(jù)是可以的,但是一定要保證相關(guān)的文獻能被查詢到。也就是說要有較高的召回率。這時候選擇算法A。

4.4 summarize a ranking

 概述排序文檔:平均準確率。
 上面例子的平均準確率=11+22+35+48+0+0+0+0+0+010,這里的分母=相關(guān)文檔的數(shù)量。這里有幾個問題。
 問題1:相關(guān)文檔的數(shù)量是在cut off范圍內(nèi),還是在所有數(shù)據(jù)范圍內(nèi)?我比較偏向于前者。因為這是評價Top k 排序結(jié)果的。如果你要評價前10條數(shù)據(jù),但在數(shù)據(jù)集中相關(guān)文檔只有8,那這個時候分母就應(yīng)該是8。
 問題2:分母為什么不是4,也就是查詢到的相關(guān)文檔數(shù)量?作者的解釋,我看得不是很明白。
 “In fact, that you are favoring a system, that would retrieve very few random documents, as in that case, the denominator would be very small. So, this would be, not a good matching. ”
 大意是說:分母很小,我可以從數(shù)據(jù)中隨機選擇幾個文檔,就能提高準確率。(大概是這意思)。
 好處:這樣的計算結(jié)果同時考慮了準確率和召回率,而且還與相關(guān)文檔的位置有關(guān)系。在上面例子中如果把D5移動到D3,計算結(jié)果就會變大(因為分子的35變成了33)。

4.5 MAP

 平均準確率衡量了一個檢索結(jié)果列表的好壞。那如果是一個查詢(檢索表達式)集合呢?之前提到可重用的測試集是由文檔集和查詢集組成的。
 MAP=Mean Average Precision 平均準確率的平均值。可以用來表示一個查詢集的檢索結(jié)果的好壞。
 MAP分為算術(shù)平均準確率(MAP)和幾何平均準確率(gMAP)。
 MAP=1nni=1pi。它主要由大數(shù)控制。如果一個數(shù)非常大,而其他值非常小,最后的結(jié)果頁可能非常大。
 gMAP=(ni=1pi)1n。它主要由一些較小的數(shù)控制。它要求所有數(shù)都比較大,結(jié)果才能比較大。
 
 如果要衡量搜索引擎的搜索效果,想要提高(幾乎)所有查詢語句的搜索效果,顯然gMAP更合適。如果只需要提高部分查詢的檢索結(jié)果,那MAP可能更合適。
 
 特殊情況:只有一個相關(guān)文檔。例如:問答系統(tǒng),只有一個答案正確;或者頁面中只有一個位置展示相關(guān)文檔。這樣:
 平均準確率=Reciprocal Rank=1/r。r是相關(guān)文檔在檢索結(jié)果中的排序位置。
 MAP=Mean Reciprocal Rank
 r代表了用戶想要看到相關(guān)文檔需要的努力程度。如果r=1,用戶看1篇文檔就找到了相關(guān)文檔。如果r=100,用戶就需要看100篇文檔才能找到相關(guān)文檔(已然放棄)。為什么不用r表示搜索效果的好壞呢?在多個查詢結(jié)果中,假設(shè)有三個查詢結(jié)果,相關(guān)文檔的位置分別是4、5、3。一種表示方式是:14+15+13,另外一種表示方式是:{4+5+3}。在第一種方式中,結(jié)果大,就代表效果好;第二種方式結(jié)果大,代表效果差,思維不同。人們對于1415的差別,和對4與5的差別的感覺是不一樣的,前者能感覺到更有差距。

4.6 多級別相關(guān)性排序評價

 上面介紹的都是一個文檔要么相關(guān),要么不相關(guān)。實際中我們會給文檔分成不同級別的相關(guān)性。例如r=1:不相關(guān);r=2:有點相關(guān);r=3:非常相關(guān)。我們這里假設(shè)關(guān)心top10結(jié)果。

文檔相關(guān)性相關(guān)性累加Discounted Cumulative Gain
D1333
D223+23+2/log2
D313+2+13+2/log2+1/log3
D413+2+1+13+2/log2+1/log3+1/log4
D53
D61
D71
D82
D91
D101…...

 相關(guān)性累加(Cumulative Gain)是把結(jié)果中每個文檔的相關(guān)性等級相加。
 帶折扣的相關(guān)性累加(Discounted Cumulative Gain,DCG)是在相加過程中依據(jù)位置因素帶了折扣:等級/logr,r=位置。
 最后還要計算正則化的DCG,用于不同查詢之間的比較,表示為nDCG=DCG@10IdealDCG@10
 DCG@10=3+2/log2+1/log3+...+1/log10
 IdealDCG@10是對于某個搜素最理想情況下的DCG值。如果對于當前查詢,文檔集中有9篇非常相關(guān)文檔(3級),一篇有點相關(guān)文檔(2級),那么IdealDCG@10=3+3/log2+3/log3+...+2/log10
 nDCG的范圍就是0-1之間,用于衡量不同級別相關(guān)性的搜索。
 

5 評估問題實際中的問題

 在評估中我們需要創(chuàng)建一個文檔集、查詢集以及相關(guān)評價集。在實際中這幾方面都是很有挑戰(zhàn)的。
 首先,我們選擇的文檔和查詢語句要具有代表性,能代表了真實的用戶需求。
 其次,文檔和查詢的量要大,盡量數(shù)據(jù)的抽樣不均衡(這里可以翻譯的更好點)。對于每個查詢,要保證有很多的相關(guān)文檔。
 第三,對每個查詢的每個文檔的相關(guān)性需要大量的人工標記。這是一個勞動密集型的事情,所以我們需要盡可能少的使用人力。
 第四,在制定相關(guān)度級別方面,我們需要認真考慮什么是用戶想要的,再考慮定什么樣的相關(guān)度級別是合適的。
 
 

5.1 統(tǒng)計顯著性檢驗

 統(tǒng)計顯著性測試(statistical significant test)用來解決這樣的問題:我們通過試驗比較算法A和算法B誰更好,計算得到平均值之后,我們怎么確定較好的算法是不是因為某幾個特定的查詢引起的.也就是說對于結(jié)果較好的算法,是幾乎在每個查詢上表現(xiàn)都好,還是只在某些查詢上表現(xiàn)優(yōu)異.例如下圖。我們得到的試驗結(jié)果有多少可信度


 首先看一個符號測試Sign Test。如果SystemB比SystemA好,則標記為+,否則標記為-。7個查詢中4個位+,3個位-,這和拋7枚硬幣得到的結(jié)果相同,所以這個結(jié)果完全是隨機因素影響的,p=1.0。
 其次看Wilcoxon檢驗法。Wilcoxon檢驗法同時考慮了符號和差值大小。我們需要考慮在一定的置信水平上(例如α=0.95),計算得到的|W|值是否在臨界值范圍外。詳細內(nèi)容看看統(tǒng)計學課本或者Wikipedia。

5.2 Judgments

 如果我們不能對所有文檔的相關(guān)性做相關(guān)性標記,那我們應(yīng)該選擇哪部分文檔去標注相關(guān)性呢呢?抽樣。要盡可能選擇多樣性的文檔;選擇Top k文檔(多個算法可能會選到重復的文檔);把N個算法選出的文檔作為測試集,人工標記相關(guān)性;其余未被選中的文檔被認為是不相關(guān)文檔。

6 未涉及到的相關(guān)策略

 A-B Test
 用戶學習
 可以參考的資料:
 Donna Harman, Information Retrieval Evaluation. Synthesis Lectures on Information Concepts, Retrieval, and Services, Morgan & Claypool Publishers 2011
 Mark Sanderson, Test Collection Based Evaluation of Information Retrieval Systems. Foundations and Trends in Information Retrieval 4(4): 247-375 (2010)
 Diane Kelly, Methods for Evaluating Interactive Information Retrieval Systems with Users. Foundations and Trends in Information Retrieval 3(1-2): 1-224 (2009)

總結(jié)

以上是生活随笔為你收集整理的文本搜索系统的评估的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。