日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

百度咋做长文本去重(一分钟系列)--转

發布時間:2025/4/5 编程问答 27 豆豆
生活随笔 收集整理的這篇文章主要介紹了 百度咋做长文本去重(一分钟系列)--转 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
2016-01-19?58沈劍?架構師之路

緣起:

(1)原創不易,互聯網抄襲成風,很多原創內容在網上被抄來抄去,改來改去

(2)百度的網頁庫非常大,爬蟲如何判斷一個新網頁是否與網頁庫中已有的網頁重復呢?

這是本文要討論的問題(盡量用大家都能立刻明白的語言和示例表述)。

?

一、傳統簽名算法與文本完整性判斷

問題拋出

(1)運維上線一個bin文件,將文件分發到4臺線上機器上,如何判斷bin文件全部是一致的?

(2)用戶A將消息msg發送給用戶B,用戶B如何判斷收到的msg_t就是用戶A發送的msg?

?

思路

一個字節一個字節的比對兩個大文件或者大網頁效率低,我們可以用一個簽名值(例如md5值)代表一個大文件,簽名值相同則認為大文件相同(先不考慮沖突率)

?

回答

(1)將bin文件取md5,將4臺線上機器上的bin文件也取md5,如果5個md5值相同,說明一致

(2)用戶A將msg以及消息的md5同時發送給用戶B,用戶B收到msg_t后也取md5,得到的值與用戶A發送過來的md5值如果相同,則說明msg_t與msg相同

?

結論:md5是一種簽名算法,常用來判斷數據的完整性與一致性

?

md5設計原則:兩個文本哪怕只有1個bit不同,其md5簽名值差別也會非常大,故它只適用于“完整性”check,不適用于“相似性”check。

?

新問題拋出

有沒有一種簽名算法,如果文本非常相似,簽名值也非常相似呢?

?

二、文本相似性的簽名算法

上文提出的問題,可以用局部敏感哈希LSH(Locality Sensitive Hash)解決,局部敏感哈希是一類文本越相似,哈希值越相似的hash算法,有興趣的同學自行百度,這里分享一下minHash的思路。

?

問題的提出:什么是minHash?

回答:minHash是局部敏感哈希的一種,它常用來快速判定集合的相似性,也常用于檢測網頁的重復性,其思路為,用相同的規則抽取集合中的少部分元素代表整個集合,如果少部分元素的重合度很高,非常可能整個集合的重復度也很高。

?

舉例:待判定的集合為A{1, 7, 5, 9, 3, 11, 15, 13}

已有的集合為:

B{10, 8, 2, 4, 6, 0, 1, 16},

C{100, 700, 500, 900, 300, 1100, 1500,1300},

D{1, 3, 2, 4, 6, 5, 8, 7}

假設使用部分元素代替全體集合的規則為:集合內元素進行排序,取值最小的4個(這個過程有信息損失,我們可以認為是一個hash過程)

處理結果為:

A{1, 3, 5, 7}

B{0, 1, 2, 4}????? =>???? A與B有1個元素相同

C{100, 300, 500, 700}????? =>???? A與C有0個元素相同

D{1, 2, 3, 4}????? =>???? A與D有2個元素相同

判斷結論:我們認為集合A與集合D是最相似的

?

這個例子有點2,但基本能說明整體思路,實際在執行的過程中

(1)我們可以使用更多的元素來代表集合,以提高準確性(例如,將上例中的4個元素代表集合升級為8個元素代表集合)

(2)我們可以使用更多的hash函數來代表集合,以提高準確性(例如,上例除了“排序后取值最小的4個元素代表集合”,還可以增加一個哈希函數“排序后取值最大的4個元素代表集合”)

(3)minHash可以量化評判相似度,亦可以評判網頁是否重復(一個分類問題),設定相似度閾值,高于閾值為重復,低于閾值為不重復

(4)實際排重過程中,網頁庫中的哈希值都可以提前計算,只有待判定的集合或者網頁的哈希值需要臨時計算

?

三、minHash與長文本重復度檢測有什么關系

目前看來沒什么關系,但如果我們能將每一個長文本用一個集合來表示,就能將長文本的相似度用minHash來解決了。

?

問題的提出:如何將長文本轉化為集合?

?

回答:我去,分詞不是就可以么

?

舉例:待判定的長文本為A{我是58沈劍,我來自58到家}

已有網頁庫集合為:

B{我是一只來自58的狼}

C{58到家,服務到家}

D{這事和我沒關系,我是湊數的}

使用分詞將上述文本集合化:

A{我,58,沈劍,來自,到家}

B{我,58,來自,狼}

C{58,服務,到家}

D{事,我,湊數,關系}

判斷結論:當當當當,轉化為集合后,可以快速判斷A與B的相似度最高,當然實際執行過程中,除了分詞還得考慮詞頻,用這種方法對長文本進行相似度檢測,準確率非常高(文本越長越準)

?

四、還有沒有更有效的方法

使用上述方法進行文本相似度檢測,需要進行中文分詞,詞頻統計,哈希值計算,相似度計算,計算量微大。

然而,抄襲成風,一字不改的風氣,讓技術有了更廣闊的優化空間,贊!

怎么優化呢?

不再進行分詞,而是進行“分句”,用標點符號把長文按照句子分開,使用N個句子集合(例如一篇文章中5條最長的句子作為簽名,注意,長句子比短句子更具有區分性)作為文章的簽名,在抄襲成風的互聯網環境下,此法判斷網頁的重復度能大大降低工程復雜度,并且準確度也異常的高。

?

五、結論

在抄襲成風的互聯網環境下,采用“分句”的方式,用5條最長的網頁內容作為網頁的簽名,能夠極大的降低排重系統復雜度,提高排重準確率,不失為一種好的選擇。

標題只是噱頭,百度是不是這么做的我并不知道,知情的同學說一下哈。

轉載于:https://www.cnblogs.com/davidwang456/p/7550118.html

總結

以上是生活随笔為你收集整理的百度咋做长文本去重(一分钟系列)--转的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。

主站蜘蛛池模板: 福利视频导航网 | 亚洲av无码成人精品区 | 亚洲高清视频在线观看 | 亚洲精品一二区 | 亚洲熟女www一区二区三区 | 美女日批在线观看 | 三级av在线免费观看 | 中文字幕日韩精品一区 | www.成人免费 | 国产亚洲精品成人无码精品网站 | 国产a视频 | 国产不卡视频在线播放 | 青青伊人久久 | 狠狠干伊人网 | 一区二区三区欧美视频 | av成人| 无码人妻精品一区二区 | 少妇精品无码一区二区 | 成人综合av | 日本高清xxx | 色综合色综合网色综合 | 免费中文av | 成年人看的黄色 | 干一夜综合 | 国产中文字幕在线观看 | 成人av免费播放 | porn亚洲 | 日本不卡一二三 | 国产精品卡一卡二 | 色图18p| 黄色大毛片 | 男生尿隔着内裤呲出来视频 | 奇米一区二区三区 | 97影院| 国产一区美女 | 手机在线看片你懂的 | 主播一区二区 | 大乳女喂男人吃奶 | 成人午夜影院 | 波多野结衣欲乱上班族 | 特级黄色一级片 | 生活片一级片 | 日韩高清不卡在线 | 国产精品刺激 | 国产成人精品在线 | 欧美成人综合 | av在线播放免费 | 成年人在线播放视频 | 免费在线观看av片 | 鲁一鲁啪一啪 | 久久久久久久久久99 | 亚洲精品无码久久久久 | 伊人视频在线观看 | 久久av高潮av无码av喷吹 | 成人性生活视频 | 天堂va蜜桃一区二区三区漫画版 | 国产精品国色综合久久 | 久草网在线视频 | 超碰伦理 | 国产露脸无套对白在线播放 | 中国黄色一级视频 | 久久αv | 蜜桃av在线看 | 免费色播 | 69视频在线观看免费 | 伊人久久五月 | 午夜精品久久久久久久99 | wwwa级片 | 少妇特黄a一区二区三区 | 96精品在线 | 狠狠狠狠狠 | 久久久久久久久久99 | 女人叉开腿让男人桶 | 在线激情视频 | 日韩一区久久 | 欧美日韩在线免费播放 | 久久av一区二区三区漫画 | 欧美日韩xxx | 亚洲天堂第一页 | 亚欧在线免费观看 | 日韩视频一区在线观看 | 日韩一区在线免费观看 | 国内毛片视频 | 亚洲免费看片 | 国内精品久久久久久 | 爱爱视频网 | 美女洗澡无遮挡 | 午夜啪啪福利 | 意大利少妇愉情理伦片 | 天天躁日日躁狠狠躁av麻豆男男 | 波多野结衣小视频 | 中文字幕理伦片免费看 | 国产成人无码AA精品区 | 无码国产69精品久久久久同性 | 国产一线二线在线观看 | 日韩在线视频二区 | 日韩视频国产 | 新呦u视频一区二区 | 色婷婷婷婷 |