日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

SiameseSentenceSimilarity相似句子匹配分类项目

發布時間:2024/7/5 编程问答 28 豆豆
生活随笔 收集整理的這篇文章主要介紹了 SiameseSentenceSimilarity相似句子匹配分类项目 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

SiameseSentenceSimilarity

SiameseSentenceSimilarity,個人實現的基于Siamese bilstm模型的相似句子判定模型,提供訓練數據集和測試數據集.
項目地址:https://github.com/liuhuanyong/SiameseSentenceSimilarity

項目介紹

句子相似度計算是自然語言處理中的一個重要技術手段,主要有兩種方法:
1, 基于傳統的無監督方式,傳統的用于計算句子相似度的方式有很多種,感興趣的,可以參考我的基于傳統方法的句子相似讀計算項目:
https://github.com/liuhuanyong/SentenceSimilarity

2, 基于標注數據的句子相似度計算.這個思想大體是將句子相似度計算問題轉換成一個相似句子類型判定問題,目前經典的方法是Siamese網絡,這是本項目的一個初衷.

數據

數據集主要來源于CCKS2018評測項目微眾銀行客戶問句匹配大賽, 總數據集大小為十萬條.數據集樣式如下:

'''怎么我開不了微利貸 怎么開不了戶 錄制不了 提示上傳失敗 0親為什么我的審批不通過的 為什么還款及時會提示綜合評估未通過 1你好,我借款的驗證碼發到我以前用的那個手機號碼了,我該怎么設置呢 手機號碼換了 1“如何獲得微粒貸資格” 為什么沒微粒貸啊 1為什么沒接到電話 兩天了,怎么還沒有給我打電話審核? 1我的電話已改為 綁定的手機號碼能不能更改 1借貸下來時間 10月國慶期間能借錢不 0什么時候才邀請? 什么時候才能申請 1上邊可借56000元為什么申請不成功 為什么可借一萬五,卻借不出來 11萬利息是多少 10個月利息多少 1沒經過審批 如何能通過微眾銀行審批要求 1延期3天還款收取逾期利息是多少? 14號還款日,逾期兩天手續費是多少? 1申請的額度能取現嗎 取現一次性取完可以嗎 0利息與罰息如何計算 咱這個利息多高啊 1如何申請貨款 怎樣開通我微粒貸 1多久才有貸款 凌晨以后的申請何時到賬 1你好 我要換卡怎么換 我卡掉了 換卡失敗 0'''

模型

模型思想:采用典型的siamese網絡,兩個句子分成左右兩個部分進行輸入,使用了四層雙向lstm(權重共享)進行網絡編碼,最后計算兩個編碼之間的距離,最后做預測分類:
一 , 編碼層:使用兩個雙向LSTM進行編碼,權重共享

'''搭建編碼層網絡,用于權重共享''' def create_base_network(self, input_shape):input = Input(shape=input_shape)lstm1 = Bidirectional(LSTM(128, return_sequences=True))(input)lstm1 = Dropout(0.5)(lstm1)lstm2 = Bidirectional(LSTM(32))(lstm1)lstm2 = Dropout(0.5)(lstm2)return Model(input, lstm2)二, 左右句子編碼相似度計算 '''基于曼哈頓空間距離計算兩個字符串語義空間表示相似度計算''' def exponent_neg_manhattan_distance(self, sent_left, sent_right):return K.exp(-K.sum(K.abs(sent_left - sent_right), axis=1, keepdims=True))

訓練

模型訓練集測試集訓練集準確率測試集準確率備注
問句匹配80000200000.81250.795620個epcho

總結

1,句子相似度計算是自然語言處理中的一個重要技術手段,本文簡單實現了simamese相似度計算網絡.
2,通過LSTM編碼,曼哈頓距離作為相似讀衡量的網絡,在訓練集上達到了0.81,測試集達到0.7956的準確率.
3,目前關于相似度計算的網絡有很多,本項目是一個基礎,后期將逐步學習,嘗試其他網絡.
4,將傳統的相似度計算方式和深度學習網絡進行融合,或許是可以做的一個點.

any question? 請聯系我:
郵箱:lhy_in_blcu@126.com
csdn:https://blog.csdn.net/lhy2014
我的自然語言處理項目: https://liuhuanyong.github.io/

總結

以上是生活随笔為你收集整理的SiameseSentenceSimilarity相似句子匹配分类项目的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。