日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程语言 > python >内容正文

python

中文分词算法python代码_python实现中文分词FMM算法实例

發布時間:2025/3/21 python 25 豆豆
生活随笔 收集整理的這篇文章主要介紹了 中文分词算法python代码_python实现中文分词FMM算法实例 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

本文實例講述了python實現中文分詞FMM算法。分享給大家供大家參考。具體分析如下:

FMM算法的最簡單思想是使用貪心算法向前找n個,如果這n個組成的詞在詞典中出現,就ok,如果沒有出現,那么找n-1個...然后繼續下去。假如n個詞在詞典中出現,那么從n+1位置繼續找下去,直到句子結束。

import re

def PreProcess(sentence,edcode="utf-8"):

sentence = sentence.decode(edcode)

sentence=re.sub(u"[。,,!……!《》<>\"'::?\?、\|“”‘';]"," ",sentence)

return sentence

def FMM(sentence,diction,result = [],maxwordLength = 4,edcode="utf-8"):

i = 0

sentence = PreProcess(sentence,edcode)

length = len(sentence)

while i < length:

# find the ascii word

tempi=i

tok=sentence[i:i+1]

while re.search("[0-9A-Za-z\-\+#@_\.]{1}",tok)<>None:

i= i+1

tok=sentence[i:i+1]

if i-tempi>0:

result.append(sentence[tempi:i].lower().encode(edcode))

# find chinese word

left = len(sentence[i:])

if left == 1:

"""go to 4 step over the FMM"""

"""should we add the last one? Yes, if not blank"""

if sentence[i:] <> " ":

result.append(sentence[i:].encode(edcode))

return result

m = min(left,maxwordLength)

for j in xrange(m,0,-1):

leftword = sentence[i:j+i].encode(edcode)

# print leftword.decode(edcode)

if LookUp(leftword,diction):

# find the left word in dictionary

# it's the right one

i = j+i

result.append(leftword)

break

elif j == 1:

"""only one word, add into result, if not blank"""

if leftword.decode(edcode) <> " ":

result.append(leftword)

i = i+1

else:

continue

return result

def LookUp(word,dictionary):

if dictionary.has_key(word):

return True

return False

def ConvertGBKtoUTF(sentence):

return sentence.decode('gbk').encode('utf-8')

dictions = {}

dictions["ab"] = 1

dictions["cd"] = 2

dictions["abc"] = 1

dictions["ss"] = 1

dictions[ConvertGBKtoUTF("好的")] = 1

dictions[ConvertGBKtoUTF("真的")] = 1

sentence = "asdfa好的是這樣嗎vasdiw呀真的daf dasfiw asid是嗎?"

s = FMM(ConvertGBKtoUTF(sentence),dictions)

for i in s:

print i.decode("utf-8")

test = open("test.txt","r")

for line in test:

s = FMM(CovertGBKtoUTF(line),dictions)

for i in s:

print i.decode("utf-8")

運行結果如下:

asdfa

好的

vasdiw

真的

daf

dasfiw

asid

希望本文所述對大家的Python程序設計有所幫助。

本文標題: python實現中文分詞FMM算法實例

本文地址: http://www.cppcns.com/jiaoben/python/127911.html

總結

以上是生活随笔為你收集整理的中文分词算法python代码_python实现中文分词FMM算法实例的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。

主站蜘蛛池模板: 91在线视频免费播放 | 国产女主播一区二区三区 | 色播欧美 | 黑人巨大精品一区二区在线 | 少妇99| 欧美综合自拍 | 亚洲免费成人网 | 黄色永久视频 | 女人私密又肥又大 | 少妇愉情理伦片bd | 中文字幕伦理 | 亚洲综合免费观看高清完整版在线 | 天天干天天操天天玩 | 国产成人精品一区二三区四区五区 | 操欧美女 | 国产婷婷色一区二区在线观看 | 五月天狠狠干 | 一级二级在线观看 | 美女裸体网站久久久 | 成人国产精品一区二区 | 99热精品在线播放 | 黄色一极毛片 | 18黄暴禁片在线观看 | 中国丰满人妻videoshd | 一级特级片 | 二区在线观看 | 最新日韩中文字幕 | 亚洲丁香色 | 日本后进式猛烈xx00动态图 | 被灌满精子的波多野结衣 | 国产亚洲色婷婷久久99精品91 | a级片毛片 | 粉色午夜视频 | 96久久| 亚洲一区综合 | 国产性―交一乱―色―情人 | 观看av在线 | 成人在线免费播放视频 | 日批视频免费在线观看 | 在线观看第一页 | 久久精品国产亚洲AV黑人 | 日韩小视频| 亚洲激情免费视频 | 国产精品美女久久久久av爽 | 99久久精品国产一区二区三区 | 人妻无码中文字幕免费视频蜜桃 | 图片区视频区小说区 | 精品不卡视频 | 午夜两性| 久久久久中文字幕亚洲精品 | 青青草视频免费看 | 91九色国产在线 | 少妇免费直播 | 国产午夜精品一区 | 曰批女人视频在线观看 | 美女xx网站| 黄色日韩在线 | 久久手机看片 | 少妇高潮迭起 | www视频在线| 手机在线看片日韩 | 18禁裸男晨勃露j毛免费观看 | 日本特级黄色大片 | 午夜一级在线 | 国产99久| 国模私拍一区二区三区 | 午夜激情福利在线 | 黄色激情视频网站 | 久草福利资源站 | 日韩少妇视频 | 一区视频免费观看 | 精品一区二区三区在线观看 | 日韩福利在线视频 | 无码人妻丰满熟妇区五十路 | 少女情窦初开的第4集在线观看 | 中文字幕人妻色偷偷久久 | 天天想你在线观看完整版电影免费 | 亚洲国产精品午夜久久久 | 天天艹 | 你懂的av在线 | 久久久久久久国产视频 | 久久久久久综合 | 久久久高清视频 | 成人福利视频网 | 床戏高潮做进去大尺度视频网站 | 精产国产伦理一二三区 | 国产视频一二 | 国产欧美久久久久久 | 原创真实夫妻啪啪av | 欧美大片高清免费观看 | 国产最新精品视频 | 99无码熟妇丰满人妻啪啪 | 素人一区二区 | 国产粉嫩一区二区三区 | 国产一二三四五区 | www.日韩高清 | 国产精品中文无码 | 国产视频欧美视频 | 亚洲男人天堂电影 |