日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

双塔模型没效果了?请加大加粗!

發(fā)布時(shí)間:2025/3/8 编程问答 20 豆豆
生活随笔 收集整理的這篇文章主要介紹了 双塔模型没效果了?请加大加粗! 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

很多研究表明,雙塔在一個(gè)域表現(xiàn)不錯(cuò),在其他域表現(xiàn)不好了。一個(gè)廣泛被認(rèn)同的觀點(diǎn)就是雙塔僅僅用了最后一層的點(diǎn)積算分,這限制了模型的召回能力。這篇論文<Large Dual Encoders Are Generalizable Retrievers>就否認(rèn)了這個(gè)觀點(diǎn),通過(guò)擴(kuò)展雙塔的網(wǎng)絡(luò),就能提升模型對(duì)各個(gè)召回任務(wù)的效果,特別是那些跨域的。實(shí)驗(yàn)結(jié)果表明,該論文提出的Generalizable T5-based dense Retrievers(GTR)在BEIR數(shù)據(jù)集上顯著優(yōu)于現(xiàn)存的一些召回模型。

在query和document的召回任務(wù)中,他們分別被encode到同一空間中,然后使用近鄰檢索給query高效的找到對(duì)應(yīng)document。很多論文都表示,點(diǎn)積(或是cos相似度)不能夠有效抓住語(yǔ)意相關(guān)性,這篇論文并不贊同。值得注意的是,擴(kuò)展雙塔網(wǎng)絡(luò)的capacity和預(yù)訓(xùn)練模型(像是bert)的擴(kuò)展不同,因?yàn)橛衅款i層(用于點(diǎn)積的那層)的存在。提升encoder的capacity卻不能改變點(diǎn)積限制了query和document交互信息的現(xiàn)實(shí)。為了驗(yàn)證這個(gè)假設(shè),該文使用了T5模型,使得encoders可以有50億的參數(shù),并固定頂層為768維度如下圖所示。最后評(píng)估了GTR在BEIR benchmark上zero shot的效果,在9個(gè)域和18個(gè)召回任務(wù)的表現(xiàn)是讓人吃驚的。

T5模型算是大力出奇跡的典范了,靠著統(tǒng)一框架和所有NLP任務(wù)都轉(zhuǎn)換成Text-to-Text任務(wù),同樣的模型,同樣的loss,同樣的訓(xùn)練,同樣的編碼解碼,完成了所有的NLP任務(wù)。

本文用的T5的預(yù)訓(xùn)練模型,直接把模型capacity從百萬(wàn)提升到億,模型架構(gòu)如下所示:

編碼query和passage用的是encoder的mean pooling,并固定輸出是768維度。loss使用的是batch內(nèi)負(fù)采樣,使用sampled softmax loss:

還可以補(bǔ)充一些負(fù)例,如下式所示:

整個(gè)訓(xùn)練過(guò)程包含預(yù)訓(xùn)練步驟和fine-tuning步驟,web-mined語(yǔ)料庫(kù)提供了很多半結(jié)構(gòu)化的數(shù)據(jù)對(duì)(像是對(duì)話,問(wèn)答),可以提供豐富的語(yǔ)意相關(guān)信息。還有些搜索數(shù)據(jù)集,往往是人工標(biāo)注的,雖然質(zhì)量高但是收集成本高。這篇論文使用T5模型的encoder進(jìn)行初始化,并在從互聯(lián)網(wǎng)收集的問(wèn)答pair對(duì)上進(jìn)行訓(xùn)練,然后在SentEval和Sentence Textual Similarity任務(wù)上進(jìn)行評(píng)估。

  • 1.Large Dual Encoders Are Generalizable Retrievers arxiv.org/pdf/2112.0789
  • 2.Exploring the limits of transfer learning with a unified textto-text transforme r arxiv.org/pdf/1910.1068

總結(jié)

以上是生活随笔為你收集整理的双塔模型没效果了?请加大加粗!的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。