日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

中文分词技术及应用

發布時間:2023/12/20 编程问答 29 豆豆
生活随笔 收集整理的這篇文章主要介紹了 中文分词技术及应用 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
中文分詞技術及應用

中文分詞算法有5大類:
1、 基于詞典的方法
2、基于統計的方法
3、基于規則的方法
4、基于字標注的方法
5、基于人工智能的技術(基于理解)的方法
中文分詞目前有4個瓶頸:
1、分詞歧義
2、未登陸詞識別
3、分詞粒度問題(表達相同意思的同一字串,在語料中存在不同的切分方式)
4、錯別字與諧音字規范化
中文分詞有5大評價標準:
1、分詞正確率
2、切分速度
3、功能完備性
4、易擴展性與可維護性
中文信息處理包括3個層次:
1、詞法分析(中文分詞是第一步,詞性標注)
2、句法分析:對輸入的文本句子進行分析以得到句子的句法結構的處理過程,句法分析的輸出結果常作為語義分析的輸入。
2.1、短語結構句法分析:識別處句子中的短語結果以及短語間的層次句法關系
2.2、依存句法分析:識別句子中詞匯與詞匯之間的相互依存關系,屬于淺層句法分析
2.3、深層文法句法分析:利用深層文法,如詞匯化樹鄰接文法、詞匯功能文法、組合范疇文法等,對句子進行深層句法分析。
3、語義分析:理解句子表達的真實語義
3.1、語義角色標注:屬于淺層語義分析技術

1、基于詞典的方法:字符串匹配,機器分詞方法
原理:按照一定策略將待分析的漢字穿與一個“大詞典”中的詞條進行匹配,若在詞典中找到某個字符串,則匹配成功。
1.1、按照掃描方向的不同:正向匹配&逆向匹配
1.2、按照長度的不同:最大匹配&最小匹配
1.3、按照是否與詞性標注過程相結合:單純分詞方法&分詞與標注相結合
1.1.1、基于字符串匹配方法:正向最大匹配算法(MM)
步驟:
1、從左向右取切分漢字句的m個字符串作為匹配字段,m為大機器詞典中最長詞條數
2、查找大機器詞典并進行匹配,若匹配成功,則將這個匹配字段作為一個詞切分出來,否則,則將這個匹配字段的最后一個詞去掉,剩下的字符串繼續匹配字段,直到以上過程切分到所有詞為止。
優點:簡單,易于實現
缺點:匹配速度慢,存在歧義切分問題,缺乏自學習的智能性。
2、基于統計的分詞(無字典分詞)
主要思想是:上下文中,相鄰的字同時出現的次數越多,就越可能構成一個詞。可以對訓練文本中相鄰出現的頻度進行統計,計算他們之間的互現信息。互現信息體系了漢字之間結合的緊密程度。當緊密程度高于某一個閾值時,便可以認為此字組可能構成一個詞。該方法又稱無字典分詞。
主要統計模型有:N 元文法模型、隱馬爾科夫模型等
在實際應用中一般將其與基于詞典的分詞方法結合起來使用,即可以發揮分詞切分速度快、效率高的特點,又利用了無詞典分詞結合上下文識別生詞、自動消除歧義的優點。
2.1、N-gram模型
N-gram模型思想:第n個詞的出現只![在這里插入圖片描述](htt
與前面n-1個詞相關,整句的概率就是各個詞出現概率的乘積。
2.2、隱馬爾科夫模型
原理:根據觀測者序列找到真正的隱藏狀態值序列
中文分詞的應用:

3、具體應用
中文分詞是大部分下游應用的基礎,小到POS詞性標注、NER命名實體識別,大到自動分類、自動摘要、語音模型、自動摘要、搜索引擎、機器翻譯、語音合成等。
以下具體闡述:中文分詞在搜索引擎中的應用:
搜索引擎針對用戶提交查詢的關鍵詞串進行查詢處理后,根據用戶的關鍵詞串用各種匹配方法進行分詞。
搜索引擎的查詢處理:
1、首先到數據庫里搜索相關信息
2、若用戶提交的字符串不超過3個漢字,則直接去數據庫索引
3、分詞:若超過4個字符串,則用分隔符把用戶提交的字符串分割成N個子字符串查詢
4、檢索用戶提供的字符串里有無重復詞匯,若有則去掉,默認為一個詞匯,檢索用戶提交的字符串是否有字母和數字,若有則把字母與數字當作一個詞

總結

以上是生活随笔為你收集整理的中文分词技术及应用的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。