句子相似度比较的归一化
生活随笔
收集整理的這篇文章主要介紹了
句子相似度比较的归一化
小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.
我們將不同長度的句子(預(yù)處理并分詞之后的長度)直接做比較其實是不公平的,舉個例子:
?
Sentence 1 =? 長度為2
Sentence 2 = 長度為1
Sentence 3 = 長度為3
(在取相似詞TOP4,exp=0.7,的情況下)
即便Sent2與Sent1詞的組成完全不同,base_similarity=0.2513
同樣的,Sent3與Sent1完全不同, ? ? ? base_similarity=0.2063
長度長的詞本身就處于劣勢,所以我考慮在相似度的基礎(chǔ)上,減去base_similarity,并加上一個常數(shù)(純粹為了好看,不然我其實應(yīng)該使用正態(tài)分布作歸一化,這個后續(xù)做)
?
此外,exp取0.6是我在分析近義詞的時候得到的,講道理我應(yīng)該統(tǒng)計得到TOP1 TOP2 TOP3...的平均值或者中位數(shù),這個也后續(xù)做把。。。先用經(jīng)驗值替代
?
轉(zhuǎn)載于:https://www.cnblogs.com/yjybupt/p/9929362.html
總結(jié)
以上是生活随笔為你收集整理的句子相似度比较的归一化的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: TCP连接之报文首部
- 下一篇: react 倒计时 countDown