當(dāng)前位置：首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

中文(语音结果)的文本纠错综述 Chinese Spelling Check

發(fā)布時(shí)間：2023/12/9 编程问答 38 豆豆

生活随笔收集整理的這篇文章主要介紹了中文(语音结果)的文本纠错综述 Chinese Spelling Check 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

中文的文本糾錯(cuò)，應(yīng)用場(chǎng)景很多，諸如輸入法糾錯(cuò)、輸入預(yù)測(cè)、ASR 后糾錯(cuò)等等。這邊簡(jiǎn)單梳理下對(duì)于這個(gè)任務(wù)的調(diào)研結(jié)果。

綜述中很多內(nèi)容參考了 hqc888688 的這篇博客，非常感謝。

1. 問(wèn)題分析

1.1 definition

中文文本糾錯(cuò)，常見(jiàn)類型包括：

諧音字詞糾錯(cuò)，如配副眼睛-配副眼鏡

混淆音字詞糾錯(cuò)，如流浪織女-牛郎織女

字詞順序顛倒糾錯(cuò)，如伍迪艾倫-艾倫伍迪

字詞補(bǔ)全，如愛(ài)有天意-假如愛(ài)有天意

形似字糾錯(cuò)，如高梁-高粱

中文拼音推導(dǎo)，如 xingfu-幸福

中文拼音縮寫推導(dǎo)，如 sz-深圳

語(yǔ)法錯(cuò)誤，如想象難以-難以想象

當(dāng)然，針對(duì)確定場(chǎng)景，這些問(wèn)題并不一定全部存在，比如輸入法中需要處理1234，搜索引擎需要處理1234567，ASR 后文本糾錯(cuò)只需要處理12，其中5主要針對(duì)五筆或者筆畫手寫輸入等。

1.2 features

paper 上方案大多是基于英文糾錯(cuò)的，但中英文糾錯(cuò)區(qū)別還是蠻大的。了解清這些區(qū)別，有利于我們進(jìn)行算法選型和調(diào)優(yōu)工作。

邊界詞

由于中文不存在詞邊界，一方面導(dǎo)致糾錯(cuò)時(shí)必須考慮上下文，另一方面拼寫錯(cuò)誤也會(huì)導(dǎo)致分詞結(jié)果變化。

這就要求盡量基于字符進(jìn)行建模，保證召回。

字符集

英文拼寫錯(cuò)誤通常與正確拼寫的編輯距離在1-2，且由于英文字符集僅有26個(gè)，可以簡(jiǎn)單地針對(duì)字符級(jí)別的錯(cuò)誤進(jìn)行建模。可是中文常用字符集約7000。

這就要求具體計(jì)算過(guò)程中非常注意效率。

錯(cuò)誤類型

英文拼寫錯(cuò)誤通常為 insert、delete、substitute 和，而由于中文字符通常可以單獨(dú)成詞，insert、delete、transposite 則體現(xiàn)在了中文的語(yǔ)法錯(cuò)誤，通常的拼寫錯(cuò)誤主要集中于 transposite。

這就要求距離計(jì)算中充分優(yōu)化超參，以突顯某些操作的重要性。

session 信息

交互環(huán)境可以提供大量參考信息，如領(lǐng)域、候選詞表、熱度詞表等。

這就要求要充分利用 session 信息，并提供多級(jí)算法。

1.3 evaluation

評(píng)測(cè)數(shù)據(jù)

中文輸入糾錯(cuò)的評(píng)測(cè)數(shù)據(jù)主要包括 SIGHAN Bake-off 2013/2014/2015 這三個(gè)數(shù)據(jù)集，均是針對(duì)繁體字進(jìn)行的糾錯(cuò)。其中，只有 SIGHAN Bake-off 2013 是針對(duì)母語(yǔ)使用者的，而另外兩個(gè)是針對(duì)非母語(yǔ)使用者。

訓(xùn)練數(shù)據(jù)

雖然沒(méi)有公開(kāi)訓(xùn)練數(shù)據(jù)，但在明確特定場(chǎng)景下糾錯(cuò)任務(wù)的 Features 后，我們很容易根據(jù)正確文本，通過(guò)增刪改構(gòu)造大量的訓(xùn)練樣本。

評(píng)價(jià)指標(biāo)

雖然文本糾錯(cuò)具體會(huì)分為錯(cuò)誤識(shí)別和錯(cuò)誤修正兩部分，并分別構(gòu)造評(píng)價(jià)指標(biāo)。但考慮到端到端任務(wù)，我們?cè)u(píng)價(jià)完整的糾錯(cuò)過(guò)程：

該糾的，即有錯(cuò)文本記為 P，不該糾的，即無(wú)錯(cuò)文本記為 N
對(duì)于該糾的，糾對(duì)了，記為 TP，糾錯(cuò)了或未糾，記為 FP
對(duì)于不該糾的，未糾，記為 TN，糾了，記為 FN。

通常場(chǎng)景下，差準(zhǔn)比查全更重要，FN 更難接受，可構(gòu)造下述評(píng)價(jià)指標(biāo)：

$1Fβ=2P+1R\frac{1}{F_\beta}=\frac{2}{P}+\frac{1}{R}$ ，其中 $P=TPTP+FPP=\frac{TP}{TP+FP}$ ， $R=TPTP+2FNR=\frac{TP}{TP+2FN}$ 。

2. 主流技術(shù)

中文本糾錯(cuò)的 paper 很多，整體來(lái)看，可以統(tǒng)一在一個(gè)框架下，即三大步：

錯(cuò)誤識(shí)別

該階段主要目的在于，判斷文本是否存在錯(cuò)誤需要糾正，如果存在則傳遞到后面兩層。

這一階段可以提高整體流程的效率。
生成糾正候選

該階段主要目的在于，利用一種或多種策略（規(guī)則或模型），生成針對(duì)原句的糾正候選。

這一階段是整體流程召回率的保證，同時(shí)也是一個(gè)模型的上限。
評(píng)價(jià)糾正候選

該階段主要目的在于，在上一階段基礎(chǔ)上，利用某種評(píng)分函數(shù)或分類器，結(jié)合局部乃至全局的特征，針對(duì)糾正候選進(jìn)行排序，最終排序最高（如沒(méi)有錯(cuò)誤識(shí)別階段，則仍需比原句評(píng)分更高或評(píng)分比值高過(guò)閾值，否則認(rèn)為不需糾錯(cuò)）的糾正候選作為最終糾錯(cuò)結(jié)果。

大部分的模型基本上可以劃分為這三階段，大多模型省略第一階段，認(rèn)為所有文本都默認(rèn)需要糾正，部分模型會(huì)將三階段聯(lián)合建模，在逐個(gè)構(gòu)造候選的同時(shí)進(jìn)行評(píng)分和篩選，本質(zhì)上都屬于這個(gè)框架。

2.1 錯(cuò)誤識(shí)別的主要方法

[10] 利用最大熵分類進(jìn)行錯(cuò)誤識(shí)別。
[8] 基于字符級(jí)別的詞向量。給定待糾錯(cuò)的句子，對(duì)每個(gè)字符進(jìn)行判定，看給定上下文時(shí)該字符的條件概率是否超過(guò)一定閾值，如果沒(méi)有超過(guò)，那么判定有錯(cuò)。
[13] 使用雙向字符級(jí) N-gram LM，對(duì)句子里的字符打分，得分低的地方視為待糾錯(cuò)位置。將待糾錯(cuò)位置與上下文組合進(jìn)行詞典查詞，當(dāng)所有組合在詞典中都查找不到，則將其視為錯(cuò)字。

2.2 生成糾正候選的主要方法

困惑集，是中文文本糾錯(cuò)任務(wù)中較為關(guān)鍵的數(shù)據(jù)之一，用于存儲(chǔ)每個(gè)字詞可能被混淆的錯(cuò)別字詞的可能。困惑集的數(shù)據(jù)格式是 key-value 格式，key 為中文中的常用字詞，value 為該字詞可能的錯(cuò)誤形式。key 可以僅基于字符，也可以包含詞語(yǔ)。通常一個(gè) key 對(duì)應(yīng)多個(gè) value。

錯(cuò)誤形式，主要分為兩大類，分別是發(fā)音混淆或者是形狀混淆。形狀混淆，通常是五筆輸入筆畫輸入手寫輸入帶來(lái)的錯(cuò)誤。發(fā)音混淆最為常見(jiàn)，可分為相同讀音、相同音節(jié)不同音調(diào)、相似音節(jié)相同音調(diào)、相似音節(jié)不同音調(diào)。

困惑集的質(zhì)量很大程度上決定了中文糾錯(cuò)的上限。

利用困惑集進(jìn)行直接替換

[1] 假設(shè)句子中每個(gè)字符都存在錯(cuò)誤，利用困惑集逐個(gè)替換每個(gè)字符，生成所有可能的糾正組合。這種方式可以保證召回，但效率和FN不理想。
[2] 假設(shè)句子中每個(gè)單字都存在錯(cuò)誤，即先分詞然后針對(duì)單個(gè)字符的詞，利用困惑集逐個(gè)替換，生成所有可能的糾正組合。同樣效率不高。

利用困惑集和規(guī)則進(jìn)行有選擇替換

[7] 在分詞后利用一系列規(guī)則進(jìn)行困惑集的替換。針對(duì)單字詞，將困惑集中的所有可能替換均加入候選；針對(duì)多字詞，若該詞不在詞表中，嘗試對(duì)每個(gè)漢字進(jìn)行替換，若替換后詞出現(xiàn)在詞表，則加入候選；針對(duì)多字詞，若該詞在詞表中，不做任何處理。

利用困惑集和詞表或語(yǔ)言模型進(jìn)行有選擇替換

這類方法主要有兩種思路：一是過(guò)濾掉正確的部分，減少替換的次數(shù)；一是對(duì)于常見(jiàn)的錯(cuò)誤構(gòu)建模板或詞表，遇到之后直接替換，避免替換的產(chǎn)生。

[9] 訓(xùn)練字符級(jí)別的 N-gram 模型，選擇頻數(shù)超過(guò)閾值的為有效序列。對(duì)文本分詞后得到單詞組成的序列，檢查這些序列是否在詞表或者 N-gram 中出現(xiàn)過(guò)，如沒(méi)有，則對(duì)該序列的單字進(jìn)行替換。
[3] 利用未登錄詞識(shí)別，找到無(wú)意義的單音節(jié)詞素，利用困惑集進(jìn)行替換
[3] 由于谷歌1T一元數(shù)據(jù)中包含了很多拼寫錯(cuò)誤，可以利用其構(gòu)造修正詞典，利用糾錯(cuò)詞對(duì)直接進(jìn)行拼寫替換。具體步驟為：對(duì)1T一元數(shù)據(jù)中出現(xiàn)頻率低的詞用困惑集替換，如果新的詞頻率很高，則作為糾錯(cuò)詞對(duì)候選；計(jì)算每一個(gè)糾錯(cuò)詞對(duì)中兩個(gè)詞在另一個(gè)大語(yǔ)料上的頻數(shù)，如果原詞頻數(shù) / 修改詞頻數(shù) < 0.1，那么將糾錯(cuò)詞對(duì)寫入修正詞典。
[6] 統(tǒng)計(jì)語(yǔ)料構(gòu)造高可信度模板，利用模版過(guò)濾一部分正確的序列，只對(duì)剩余的部分進(jìn)行替換工作。主要維護(hù)三類數(shù)據(jù)，模板、長(zhǎng)詞詞表、常用錯(cuò)誤詞表。
[5] 對(duì)困惑集進(jìn)行擴(kuò)充，并對(duì)每一個(gè)拼寫錯(cuò)誤構(gòu)建倒排索引，拼寫錯(cuò)誤為索引詞，潛在正確結(jié)果為檢索內(nèi)容，對(duì)于每個(gè)潛在正確內(nèi)容，利用漢字出現(xiàn)的頻率進(jìn)行排名。預(yù)測(cè)同時(shí)，在監(jiān)測(cè)階段維護(hù)一個(gè)錯(cuò)詞修正表，每次替換之后不在詞表的詞均加入錯(cuò)詞表，最終找到正確結(jié)果的詞加入正確詞表，每次結(jié)束之后構(gòu)建錯(cuò)詞修正表。如果下次預(yù)測(cè)到的時(shí)候直接利用錯(cuò)詞修正表進(jìn)行調(diào)整。

利用模型生成

模型生成的糾錯(cuò)候選，基本上可以考慮所有的可能，并且利用其本身的評(píng)分函數(shù)，可以在生成糾錯(cuò)候選的過(guò)程中進(jìn)行預(yù)篩選。

目前效果比較好的方式有 HMM 和基于圖理論的方法，而利用 SMT 進(jìn)行生成的效果沒(méi)有這兩種好。

雖然方式比較多，但都可以看做基于貝葉斯的信道噪聲模型：

$T^=argmaxp(S∣T)p(T)p(S)=argmaxp(S∣T)p(T)\hat{T}=argmax{\frac{p(S|T)p(T)}{p(S)}}=argmax{p(S|T)p(T)}$

可見(jiàn)，生成一個(gè)糾錯(cuò)候選的決定因素有兩個(gè)，一個(gè)是候選 T 的語(yǔ)言模型，一個(gè)是條件概率模型也稱為 error model。不同類型方法的主要區(qū)別就在于錯(cuò)誤模型。如果只考慮替換錯(cuò)誤，從而理解為一個(gè)對(duì)齊之后的字符錯(cuò)誤模型。

[4] 利用 HMM 思想進(jìn)行糾錯(cuò)候選生成，其中錯(cuò)誤模型利用 LD 估計(jì)。不過(guò) HMM 模型很大一個(gè)問(wèn)題是其一階馬爾科夫性無(wú)法建模長(zhǎng)距離依賴。
[11] 利用圖模型進(jìn)行糾錯(cuò)候選生成。利用困惑集替換目前的每一個(gè)字得到拓展后的節(jié)點(diǎn)集合。邊的權(quán)重由替換概率（原始漢字同困惑集漢字的相似程度）和這個(gè)詞的條件概率（由語(yǔ)言模型計(jì)算）得到。并且提供了解決連續(xù)兩個(gè)字以上都是錯(cuò)誤而無(wú)法解決的問(wèn)題的方法。
[7] 利用 SMT 進(jìn)行糾錯(cuò)工作。由于中文糾錯(cuò)不需要調(diào)序，因此這里不需要考慮對(duì)齊模型，只需要計(jì)算翻譯模型和翻譯后的語(yǔ)言模型。

2.3 評(píng)價(jià)糾正候選的主要方法

利用語(yǔ)言模型進(jìn)行評(píng)價(jià)

[11] 利用句子的困惑度進(jìn)行評(píng)分，更關(guān)注句子整體
[11] 利用互信息進(jìn)行評(píng)分，更關(guān)注局部，如 $△MI=max(MI(ci?1,c^)?MI(ci?1,ci),MI(c^i,ci+1)?MI(ci,ci+1))△MI = max(MI(c_{i-1},\hat{c}) - MI(c_{i-1},c_i), MI(\hat{c}_{i},c_{i+1})-MI(c_{i},c_{i+1}))$
[9] 利用 SMT 的預(yù)測(cè)部分進(jìn)行評(píng)分。
[7] 利用前向算法加字符級(jí)別的語(yǔ)言模型進(jìn)行評(píng)分。
[1, 2, 3, 5, 6] 只是單純的利用全句的語(yǔ)言模型進(jìn)行排序。

利用分類器進(jìn)行評(píng)價(jià)

[7] 將原任務(wù)轉(zhuǎn)化為一個(gè)二分類問(wèn)題，利用 SVM 的置信度評(píng)分進(jìn)行排序。對(duì)于每個(gè)位置的字符，如果候選和原句不同，則從候選與原句中抽取出相應(yīng)位置的這些字符組成列表。由 SVM 對(duì)每個(gè)字符對(duì)進(jìn)行評(píng)分，主要特征包括：基本的上下文字符級(jí)別特征，PMI特征，詞典／語(yǔ)言模型特征。
[4] 則是以一個(gè)整句為單位進(jìn)行評(píng)分。設(shè)置了兩輪排序，第一輪采用簡(jiǎn)單易獲取的特征搭配 LR，進(jìn)行初篩；第二輪采用全部的特征搭配 SVM。特征們包括 LM 特征、字典特征、LD 特征、分詞特征，業(yè)務(wù)特征等。

2.4 其他

自動(dòng)機(jī)

自動(dòng)機(jī)可以實(shí)現(xiàn)高效的字符匹配過(guò)程。其中，Levenshtein自動(dòng)機(jī)通過(guò)構(gòu)建一個(gè)有限狀態(tài)自動(dòng)機(jī)，可以準(zhǔn)確識(shí)別出和某個(gè)目標(biāo)單詞相距在給定編輯距離內(nèi)的所有字符串集合。

這可以實(shí)現(xiàn)快速的候選生成，作為困惑集的補(bǔ)充。

統(tǒng)計(jì)信息

在糾錯(cuò)時(shí)，除了 Ngram 信息，還有下述統(tǒng)計(jì)信息可以作為特征使用：互信息，共現(xiàn)詞，拼音的混淆規(guī)則、穩(wěn)定度、相似度，N-gram 距離（Solr 在用方案）。

2.5 總結(jié)

影響糾錯(cuò)效果的主要因素有如下幾點(diǎn)：

困惑集：主要影響召回率，糾錯(cuò)首先需要的就是構(gòu)建一個(gè)好的困惑集，使其盡可能小但是包涵絕大多數(shù)情況。
語(yǔ)言模型：在糾錯(cuò)任務(wù)中，常常使用兩種語(yǔ)言模型，一種是基于字符級(jí)別的，主要用于錯(cuò)誤的發(fā)現(xiàn)，一般字符級(jí)別的階數(shù)在1到5之間。還有一種是詞級(jí)別的，主要用于排序階段。
詞表：詞表主要用于判斷替換字符之后是否可以成詞，詞表最好是比較大的常用詞表加上需要應(yīng)用的領(lǐng)域詞表。
語(yǔ)料：根據(jù) [12] 提供的方式，確實(shí)可以利用大規(guī)模的互聯(lián)網(wǎng)語(yǔ)料估計(jì)錯(cuò)誤拼寫，而且語(yǔ)料也應(yīng)用于語(yǔ)言模型的生成。

從模型選擇上，SMT 更適合用于評(píng)分階段，圖模型是一個(gè)比較好的分詞同糾錯(cuò)一起完成的模型，SVM也是評(píng)分階段的常用手段。

3. 實(shí)踐

下面，以語(yǔ)音控制系統(tǒng) ASR 產(chǎn)生的的中文文本為例，進(jìn)行文本糾錯(cuò)，簡(jiǎn)單描述下主要思路。

3.1 收集先驗(yàn)知識(shí)

詞表

領(lǐng)域類別詞表
意圖類別詞表
領(lǐng)域內(nèi)實(shí)體詞表

語(yǔ)言模型

利用領(lǐng)域內(nèi)和通用語(yǔ)料，生成 N-gram 語(yǔ)料。
注意平滑。

困惑集

收集字符、詞級(jí)別的困惑集
根據(jù)詞表生成困惑集

糾錯(cuò)對(duì)照表

常用易錯(cuò)字詞-正確字詞對(duì)照表
收集，并利用 [3] 生成
該數(shù)據(jù)在糾錯(cuò)中具有高優(yōu)先級(jí)

熱詞信息

利用日志信息，生成關(guān)鍵詞的熱度信息

訓(xùn)練數(shù)據(jù)

利用領(lǐng)域內(nèi)和通用語(yǔ)料，隨機(jī)產(chǎn)生錯(cuò)誤（同音字、諧音字、字詞亂序、字詞增刪等），構(gòu)造訓(xùn)練樣本

3.2 任務(wù)目標(biāo)

該場(chǎng)景下僅處理如下類型問(wèn)題：諧音糾錯(cuò)，混淆音糾錯(cuò)，亂序糾錯(cuò)，字詞補(bǔ)全。
支持同時(shí)處理上述錯(cuò)誤類型，當(dāng)同時(shí)處理時(shí)，優(yōu)先順序?yàn)?#xff1a;諧音糾錯(cuò)，混淆音糾錯(cuò)，亂序糾錯(cuò)，字詞補(bǔ)全。
引入熱詞干預(yù)、糾錯(cuò)對(duì)照表干預(yù)
充分利用 session 信息。

在確定領(lǐng)域前，主要處理諧音糾錯(cuò)，混淆音糾錯(cuò)，可用資源有領(lǐng)域類別詞表、意圖類別詞表、基于通用語(yǔ)料的其他先驗(yàn)。

在確定領(lǐng)域后，主要處理字詞補(bǔ)全、亂序糾錯(cuò)、諧音糾錯(cuò)，混淆音糾錯(cuò)，可充分利用領(lǐng)域內(nèi)先驗(yàn)。

3.3 算法流程

錯(cuò)誤識(shí)別

基于字向量使用 Self-attention 針對(duì)每個(gè)字符的二分類判別器
基于字符的雙向 N-gram LM
分詞后，針對(duì)單字詞，認(rèn)為有錯(cuò)；針對(duì)多字詞，若該詞不在詞表中，認(rèn)為有錯(cuò)
對(duì)于出現(xiàn)在糾錯(cuò)對(duì)照表中的認(rèn)為有錯(cuò)
根據(jù) session 信息，高效利用字典信息

生成糾正候選

對(duì)于認(rèn)為有錯(cuò)的字詞利用困惑集進(jìn)行逐一替換，生成糾正候選
基于拼音利用編輯距離自動(dòng)機(jī)生成候選
利用 HMM、圖模型、Seq2Seq 生成
根據(jù) session 信息，高效利用字典信息

評(píng)價(jià)糾正候選

利用多類統(tǒng)計(jì)特征，訓(xùn)練判別模型
熱詞具有較高優(yōu)先級(jí)
如果候選句子中沒(méi)有分?jǐn)?shù)比原句更高或者與原始評(píng)分相比得分不高于閾值的，則認(rèn)為原句沒(méi)有錯(cuò)誤。否則，得分最高的候選句即作為糾錯(cuò)結(jié)果輸出。

References

[0] hqc888688, https://blog.csdn.net/hqc888688/article/details/74858126
[1] Yu He and Guohong Fu. 2013. Description of HLJU Chinese spelling checker for SIGHAN Bakeoff 2013. In Proceedings of the 7th SIGHAN Workshop on Chinese Language Processing. 84–87.
[2] Chuanjie Lin and Weicheng Chu. 2013. NTOU Chinese spelling check system in SIGHAN Bake-off 2013. In Proceedings of the 7th SIGHAN Workshop on Chinese Language Processing. 102–107.
[3] Yuming Hsieh, Minghong Bai, and Kehjiann Chen. 2013. Introduction to CKIP Chinese spelling check system for SIGHAN Bakeoff 2013 evaluation. In Proceedings of the 7th SIGHAN Workshop on Chinese Language Processing. 59–63.
[4] Zhang, S., Xiong, J., Hou, J., Zhang, Q., & Cheng, X. 2015. HANSpeller++: A Unified Framework for Chinese Spelling Correction. ACL-IJCNLP 2015, 38.
[5] Jui-Feng Yeh, Sheng-Feng Li, Mei-Rong Wu, Wen-Yi Chen, and Mao-Chuan Su. 2013. Chinese word spelling correction based on N-gram ranked inverted index list. In Proceedings of the 7th SIGHAN Workshop on Chinese Language Processing. 43–48.
[6] Tinghao Yang, Yulun Hsieh, Yuhsuan Chen, Michael Tsang, Chengwei Shih, and Wenlian Hsu. 2013. Sinica- IASL Chinese spelling check system at SIGHAN-7. In Proceedings of the 7th SIGHAN Workshop on Chinese Language Processing. 93–96.
[7] Liu, X., Cheng, F., Duh, K. and Matsumoto, Y., 2015. A Hybrid Ranking Approach to Chinese Spelling Check. ACM Transactions on Asian and Low-Resource Language Information Processing, 14(4), p.16.
[8] Guo, Z., Chen, X., Jin, P. and Jing, S.Y., 2015, December. Chinese Spelling Errors Detection Based on CSLM. In Web Intelligence and Intelligent Agent Technology (WI-IAT), 2015 IEEE/WIC/ACM International Conference on (Vol. 3, pp. 173-176).
[9] Hsunwen Chiu, Jiancheng Wu, and Jason S. Chang. 2013. Chinese spelling checker based on statistical machine translation. In Proceedings of the 7th SIGHAN Workshop on Chinese Language Processing.49–53.
[10] Dongxu Han and Baobao Chang. 2013. A maximum entropy approach to Chinese spelling check. In Proceedings of the 7th SIGHAN Workshop on Chinese Language Processing. 74–78.
[11] Zhao, H., Cai, D., Xin, Y., Wang, Y. and Jia, Z., 2017. A Hybrid Model for Chinese Spelling Check. ACM Transactions on Asian and Low-Resource Language Information Processing (TALLIP), 16(3), p.21.
[12] Hsieh, Y.M., Bai, M.H., Huang, S.L. and Chen, K.J., 2015. Correcting Chinese spelling errors with word lattice decoding. ACM Transactions on Asian and Low-Resource Language Information Processing, 14(4), p.18.
[13] Yu J, Li Z. Chinese spelling error detection and correction based on language model, pronunciation, and shape[C]//Proceedings of The Third CIPS-SIGHAN Joint Conference on Chinese Language Processing. 2014: 220-223.
[14] Lin C J, Chu W C. A Study on Chinese Spelling Check Using Confusion Sets and? N-gram Statistics[J]. International Journal of Computational Linguistics & Chinese Language Processing, Volume 20, Number 1, June 2015-Special Issue on Chinese as a Foreign Language, 2015, 20(1).
[15] Chen K Y, Lee H S, Lee C H, et al. A study of language modeling for Chinese spelling check[C]//Proceedings of the Seventh SIGHAN Workshop on Chinese Language Processing. 2013: 79-83.
[16] Zhao J, Liu H, Bao Z, et al. N-gram Model for Chinese Grammatical Error Diagnosis[C]//Proceedings of the 4th Workshop on Natural Language Processing Techniques for Educational Applications (NLPTEA 2017). 2017: 39-44.
[17] Zheng B, Che W, Guo J, et al. Chinese Grammatical Error Diagnosis with Long Short-Term Memory Networks[C]//Proceedings of the 3rd Workshop on Natural Language Processing Techniques for Educational Applications (NLPTEA2016). 2016: 49-56.
[18] Xie P. Alibaba at IJCNLP-2017 Task 1: Embedding Grammatical Features into LSTMs for Chinese Grammatical Error Diagnosis Task[J]. Proceedings of the IJCNLP 2017, Shared Tasks, 2017: 41-46.

總結(jié)

以上是生活随笔為你收集整理的中文(语音结果)的文本纠错综述 Chinese Spelling Check的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇： [js] axios拦截器原理是什么？
下一篇： [css] css怎么更改表单的单选框或