日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

文本匹配-dssm

發布時間:2023/12/29 编程问答 32 豆豆
生活随笔 收集整理的這篇文章主要介紹了 文本匹配-dssm 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

文章目錄

  • 論文鏈接地址
  • github
  • 前言
  • 整體模型結構
    • 輸入層
    • 表示層
    • 匹配層
    • 訓練階段
    • 優缺點
    • 模型改進
  • 歡迎指正

論文鏈接地址

Learning Deep Structured Semantic Models for Web Search using Clickthrough Data

github

https://github.com/KATEhuang920909/deep_text_match

前言

傳統文本相似性如BM25、tf-idf等,無法發現語義的query-doc相似對,因此DSSM為計算語義相似度提供了一種方法。

整體模型結構

DSSM模型結構如下:

輸入層

在輸入層用到了word hashing操作,這里用了n-grams方式進行hash,例如trigram將boy切分:#-b-o, b-o-y, o-y-#。這樣可以將將50萬個單詞壓縮到三萬個,bigram可以壓縮到1607個,但是會產生更多碰撞沖突,即不同單詞會用同一個n-gram形式表示,paper中做了一些統計如下:

因此作者選擇了tri-gram,然后one-hot。中文可以以字為最小單位,常用字為1.5萬左右,因此可以直接one-hot。

表示層

表示層為多層DNN,隱藏層神經元大小均為300,最后一層為128,激活函數tanh。

匹配層

匹配層用余弦距離得出相似分數,然后接入softmax將query和doc之間的相似性轉化為一個概率值,公式如下:

其中,γ\gammaγ為平滑引子,D∈(D+,D?)D \in (D^+ ,D^-)D(D+,D?),D為整個樣本空間,D+為正樣本,D-為負樣本。

訓練階段

極大似然估計

利用隨機梯度下降(SGD)使模型收斂。

優缺點

DSSM用字向量,減少切詞產生的誤差,同時送入模型的編碼方式為one-hot,最大程度上減少了基于詞向量累加或者拼接這種方式所帶來的誤差,缺點就是未考慮語序上下文信息

模型改進

CDSSM:1.添加word-trigram,即構建大小為3的滑動窗口,然后拼接起來,維度大小為90K;2.在word-hash層后面接入卷積層和池化層,這樣可以一定程度保留了上下文信息。整體結構如下:

圖中feature map 為 300*1,采用max-pooling,然后接128維輸出層。
優缺點: 上下文信息有效的保存,間隔較遠的上下文信息無法保留

歡迎指正

總結

以上是生活随笔為你收集整理的文本匹配-dssm的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。