日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

《信息检索导论》第七章总结

發(fā)布時(shí)間:2023/12/20 编程问答 44 豆豆
生活随笔 收集整理的這篇文章主要介紹了 《信息检索导论》第七章总结 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

一、打分排序的特性

?

其實(shí)對(duì)于打分排序來說,我們最終只需要確定文檔的相對(duì)順序即可,因此我們可以簡化打分的算法,只需要保持相對(duì)順序不變即可;

?

二、快速排序及打分方法

?

我們前面的打分排序方法都需要計(jì)算查詢及每篇文檔的余弦相似度,然后需要取出打分最高的前K篇文檔,這樣做的復(fù)雜度是很高的;其實(shí)如果有一個(gè)算法能夠近似求出前K篇文檔但是復(fù)雜度少很多(不需要計(jì)算所有文檔的得分),則我們通常會(huì)采用后一種算法;

通用方法:預(yù)先找到文檔子集A(遠(yuǎn)小于初始文檔集),包含了大多數(shù)的候選文檔,并在A中計(jì)算得分最高的前K篇文檔;以下方法都是基于這個(gè)規(guī)則計(jì)算的;

1.索引去除技術(shù)

(1)只考慮term的idf超過閾值的posting;因?yàn)榈蚷df的term通常是stop words,posting非常長,所以不計(jì)算這些將使復(fù)雜度大大降低,因此不必考慮;

這里會(huì)出現(xiàn)超過閾值的doc沒超過K篇,則需要使用層次型索引解決;

層次型索引:將倒排記錄表進(jìn)行分層,比如tf超過20的在第一層,tf超過10的在第二層,當(dāng)需要查找前K篇文檔時(shí),只需要先在第一層查找,如果沒取夠K篇,則到第二層查找;

因此層次型索引是解決可能返回文檔少于K篇的方法;

(2)只考慮包含多個(gè)查詢?cè)~項(xiàng)的文檔;

?

2.勝利表法

?

勝利表(champion list):對(duì)于詞項(xiàng)t,預(yù)先取出posting的tf值最高的r篇文檔,此序列稱為勝利表;

給定一個(gè)查詢Q,我們只需要求Q中的每個(gè)詞項(xiàng)的勝利表的并集,此并集就是通用方法所說的文檔子集A,并在A中計(jì)算余弦相似度;

?

3.靜態(tài)得分排序法Static quality Score

?

每篇文檔都有一個(gè)與查詢無關(guān)的靜態(tài)得分g(d),倒排索引中的posting按照g(d)進(jìn)行降序排列;

而最后的得分是Score(q,d)=g(d)+v(q)v(d);

在第二十一章所說的PageRank是一個(gè)靜態(tài)質(zhì)量得分,是一個(gè)基于網(wǎng)頁鏈接分析的打分;

?

4.分層搜索排序

?

對(duì)于詞項(xiàng)t,維持兩個(gè)表:高端表(tf值最高的m篇文檔)和低端表(其余文檔),都以g(d)排序;

取出打分最高的K篇文檔方法:先計(jì)算高端表的得分,如果已經(jīng)在高端表已經(jīng)能夠取出K篇得分最高的文檔,則結(jié)束;否則,其余的在低端表中取;

?

5.cluster pruning

?

leader:在N篇文檔中找到(根號(hào)N)篇文檔作為leader;

follower:每個(gè)leader都有(根號(hào)N)個(gè)follower,表示與leader距離較近;

查詢方法:給定查詢Q,先與每個(gè)leader計(jì)算余弦相似度,找到最近的leader,文檔子集A為此leader+leader對(duì)應(yīng)的follower;

?

三、其他考慮因素

?

1.查詢?cè)~項(xiàng)鄰近性

我們希望查詢?cè)~在文檔中都靠的很近,這樣才能夠使得文檔和查詢更相關(guān);

最小窗口大小:the quality of mercy is not stained ,如果查詢?yōu)?#xff1a;stained quality;則最小窗口大小為6(quality of mercy is not?strained);

軟合取:文檔不必包含全部的查詢?cè)~項(xiàng),只需要包含大部分的查詢?cè)~項(xiàng)即可;

因此有可能需要將鄰近性也加入權(quán)重中;

?

四、搜索引擎組成

?

?

indexer用于生成各式各樣的索引,比如參數(shù)化索引、域索引、K-gram索引、分層索引;

?

向量空間模型和布爾檢索模型有所不同,布爾模型只考慮詞項(xiàng)在文檔中是否存在,而不考慮出現(xiàn)了幾次,也沒有權(quán)重;

?

轉(zhuǎn)載于:https://www.cnblogs.com/xiazdong/archive/2012/01/07/3058353.html

總結(jié)

以上是生活随笔為你收集整理的《信息检索导论》第七章总结的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。