Ansj分词双数组Trie树实现与arrays.dic词典格式
http://www.hankcs.com/nlp/ansj-word-pairs-array-tire-tree-achieved-with-arrays-dic-dictionary-format.html
arrays.dic是一個雙數(shù)組Trie樹格式的詞典,用文本的形式儲存了索引,字串,base,check,status與詞性。
一個直觀的圖示:
index就是base數(shù)組中的下標(biāo)。
term是詞的當(dāng)前狀態(tài),不一定代表一個詞,如“一舉一”是“一舉一動”的前綴。
base是base數(shù)組的值。代表字串的當(dāng)前狀態(tài),其實就是字串一路按base[tx] = base[t] + x查過來的值。比如base[一舉一動] = base[一舉一] + code(動)。特別地,如果字串長度為1的話(字符),那么base值就是字符的雙字節(jié)碼。
check是check數(shù)組的值。check是用來驗證這個詞是從哪個狀態(tài)轉(zhuǎn)換過來的。比如是由轉(zhuǎn)換過來的。base[105540] + 21160 = 126700.
status是term的成詞狀態(tài):1:繼續(xù) 2:是個詞語但是還可以繼續(xù) 3:確定。參考。
nature是這個詞以這些詞性出現(xiàn)的頻次。
轉(zhuǎn)載請注明:碼農(nóng)場???Ansj分詞雙數(shù)組Trie樹實現(xiàn)與arrays.dic詞典格式
轉(zhuǎn)載于:https://www.cnblogs.com/DjangoBlog/p/4073062.html
創(chuàng)作挑戰(zhàn)賽新人創(chuàng)作獎勵來咯,堅持創(chuàng)作打卡瓜分現(xiàn)金大獎總結(jié)
以上是生活随笔為你收集整理的Ansj分词双数组Trie树实现与arrays.dic词典格式的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Cisco二层交换机命令
- 下一篇: CUDA编程中内存管理机制