日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

自然语言处理(NLP)任务中常用的分词工具及底层算法支持

發布時間:2024/3/7 编程问答 82 豆豆
生活随笔 收集整理的這篇文章主要介紹了 自然语言处理(NLP)任务中常用的分词工具及底层算法支持 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

剛剛和一個在三快在線(美團)的算法老同學聊天,聊到了他們現有分詞工具效果不好的問題,我們最終討論的結果就是沒有效果好或者效果不好之后,只有適合不適合,歸根結底還是要看各個分詞工具中模型的基礎訓練數據成分構成。

本人日常工作中常用的分詞工具

1、jieba 分詞
2、lac 分詞
3、公司根據自己領域內數據訓練并封裝的分詞工具jimi 分詞,對外未公開。

今天重點聊聊前兩個大眾比較熟知的分詞工具

1、jieba 分詞

  • 支持四種分詞模式:

精確模式,試圖將句子最精確地切開,適合文本分析;
全模式,把句子中所有的可以成詞的詞語都掃描出來, 速度非常快,但是不能解決歧義;
搜索引擎模式,在精確模式的基礎上,對長詞再次切分,提高召回率,適合用于搜索引擎分詞。
paddle模式,利用PaddlePaddle深度學習框架,訓練序列標注(雙向GRU)網絡模型實現分詞。同時支持詞性標注。

  • 底層算法支撐

基于前綴詞典實現高效的詞圖掃描,生成句子中漢字所有可能成詞情況所構成的有向無環圖 (DAG)
采用了動態規劃查找最大概率路徑, 找出基于詞頻的最大切分組合
對于未登錄詞,采用了基于漢字成詞能力的 HMM 模型,使用了 Viterbi 算法

  • 至于其他基礎API建議參考Git鏈接:https://github.com/fxsjy/jieba
jieba 分詞亮點:
  • 亮點1.關鍵詞提取

基于 TF-IDF 算法的關鍵詞抽取(依托于詞頻+逆文檔頻率)
基于 TextRank 算法的關鍵詞抽取(抽取式無監督的文本摘要算法,內部運用了圖結構)

  • 亮點2.詞性分析
適用場景包括:大眾型的行業文本分詞工具,不適合非常嚴格且對分詞準召率要求極高的細分領域。

2、lac 分詞

  • LAC分詞簡介

LAC是一個聯合的詞法分析模型,整體性地完成中文分詞、詞性標注、專名識別任務。

  • 底層算法支持及準召率數據

LAC基于一個堆疊的雙向GRU結構,在長文本上準確復刻了百度AI開放平臺上的詞法分析算法。效果方面,分詞、詞性、專名識別的整體準確率95.5%;單獨評估專名識別任務,F值87.1%(準確90.3,召回85.4%),總體略優于開放平臺版本。在效果優化的基礎上,LAC的模型簡潔高效,內存開銷不到100M,而速度則比百度AI開放平臺提高了57%。

  • LAC分詞底層支持算法詳解

詞法分析任務的輸入是一個字符串(我們后面使用『句子』來指代它),而輸出是句子中的詞邊界和詞性、實體類別。
序列標注是詞法分析的經典建模方式。我們使用基于GRU的網絡結構學習特征,將學習到的特征接入CRF解碼層完成序列標注。CRF解碼層本質上是將傳統CRF中的線性模型換成了非線性神經網絡,基于句子級別的似然概率,因而能夠更好的解決標記偏置問題。
模型要點如下:

  • 輸入采用one-hot方式表示,每個字以一個id表示
  • one-hot序列通過字表,轉換為實向量表示的字向量序列;
  • 字向量序列作為雙向GRU的輸入,學習輸入序列的特征表示,得到新的特性表示序列,我們堆疊了兩層雙向GRU以增加學習能力;
  • CRF以GRU學習到的特征為輸入,以標記序列為監督信號,實現序列標注。
    • 相關文檔鏈接地址:https://www.paddlepaddle.org.cn/modelbasedetail/lac
    亮點分析
    • 特點1.支持定制化功能;

    LAC支持用戶配置定制化的專名類型輸出。當定制化的專名詞出現在輸入query中時,如果該詞與原有的詞法分析結果不存在邊界沖突,則會用定制化專名類型替代原有的標簽。

    • 特點2.較好的解決了解決了序列標注問題上的標記偏置問題

    序列標注是詞法分析的經典建模方式。我們使用基于GRU的網絡結構學習特征,將學習到的特征接入CRF解碼層完成序列標注。CRF解碼層本質上是將傳統CRF中的線性模型換成了非線性神經網絡,基于句子級別的似然概率,因而能夠更好的解決標記偏置問題。

    • 特點3.關鍵詞發現及NER

    適用場景

    • 因其支持定制化的特性,簡單改造就可以使用于一些細分領域,所以在一些數據比較稀缺的細分領域內應用較為常見,例如:金融、法律、醫療等。

    總結

    以上就是個人對以上兩種比較常用的分詞工具的理解和膚淺認知,希望可以給迷茫中的你帶來幫助。沒錯我就是我,那個曾為人師,如今依然奮斗在一線自然語言處理工程師崗位的宣哥。

    總結

    以上是生活随笔為你收集整理的自然语言处理(NLP)任务中常用的分词工具及底层算法支持的全部內容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。