日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

NLP-基础知识-002 (语言模型)

發(fā)布時(shí)間:2025/4/5 编程问答 27 豆豆
生活随笔 收集整理的這篇文章主要介紹了 NLP-基础知识-002 (语言模型) 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

一、Noisy Channel Model

p(text|source) = k * p(source|text)P(text) ----> Noisy Channel Model主要通過貝葉斯定理: p(text|source) = p(source|text)*p(text)/p(source)p(source) 為常數(shù)應(yīng)用場景:語音識別、機(jī)器翻譯、拼寫糾錯(cuò)、OCR、密碼破譯機(jī)器翻譯: 英文-翻譯成-中文p(中文|英文) = k * p(英文|中文) * p(中文)(語言模型)argmax Translation model拼接糾錯(cuò):輸入:錯(cuò)誤的寫法 輸出:正確的寫法p(正確的寫法|錯(cuò)誤的寫法) = k * p(錯(cuò)誤的寫法|正確的寫法) (->類似于編輯距離) * p(正確的寫法)(->語言模型)語音識別:輸入:語音 輸出:轉(zhuǎn)化為文本p(文本|語音信號) = k * p(語音信號 | 文本) (->Translation model)* p(文本) (->語言模型)密碼破解:輸入:加密字符串 輸出:明文p(明文|加密字符串) = k * p(加密字符串|明文) * p(明文)(->語言模型)

?二、語言模型

Language Model(LM)語言模型用來判斷:是否一句話從語法上通順例子:今天是周日 vs 周日是今天 -> 訓(xùn)練好的語言模型 -> P-LM(今天是周日) > P-LM(周日是今天)全民AI是趨勢 vs 趨勢是全民AI Chain RuleP(A,B,C,D) = P(A)*P(B|A)*P(C|AB)P(D|ABC)P(A,B) = P(A|B)P(B) = p(B|A)P(A)p(休息|今天,是,春節(jié),我們,都) 存在的問題就是"今天,是,春節(jié),我們,都"這么長的字符串很少在文中出現(xiàn),條件概率很難計(jì)算而且大部分都是0,沒有任何意義解決辦法:馬爾科夫假設(shè)p(休息|今天,是,春節(jié),我們,都) 約等于 p(休息|都) ("都" 離 "休息" 最近) first order 馬爾科夫假設(shè)p(休息|今天,是,春節(jié),我們,都) 約等于 p(休息|我們,都) second order ....p(休息|今天,是,春節(jié),我們,都) 約等于 p(休息|春節(jié),我們,都) third order ....字符串越長,統(tǒng)計(jì)出來的字符串越少,結(jié)果越小越不準(zhǔn)確first order: p(w1,w2,w3,....wn) = p(w1)p(w2|w1)p(w3|w2)......p(wn|wn-1)例子:Language model(use second order)p(是|今天) = 0.01 p(今天) = 0.002 p(周日|是) = 0.001 p(周日|今天) = 0.0001 p(周日)=0.02 p(是|周日) = 0.0002比較:今天是周日 vs 今天周日是p-LM("今天是周日") = p(今天) * p(是|今天) * p(周日|是) = 0.002 * 0.001 * 0.001 = 2 * 10^(-8)p-LM("今天周日是") = p(今天) * p(周日|今天) * p(是|周日) = 4 * 10 ^ (-10)p-LM("今天是周日") > p-LM("今天周日是")語言模型分類(Language Model):Unigram: P(w1,w2,w3,w4,w5....wn) = p(w1)p(w2)p(w3)....p(wn)p(今天,是,春節(jié),我們,都,休息) = p(今天)p(是)p(春節(jié))p(我們)p(都)p(休息)p(今天,春節(jié),是,我們,都,休息) = p(今天)p(春節(jié))P(是)p(我們)p(都)p(休息)p(今天,是,春節(jié),我們,都,休息) = p(今天,春節(jié),是,我們,都,休息) 從上面可以看出,兩個(gè)句子的值在算法上是相同的,但是本質(zhì)上兩個(gè)句子的質(zhì)量是不一樣的,體現(xiàn)出Unigram沒有考慮詞之間的順序信息Bigram(first order 馬爾科夫假設(shè)):P(w1,w2,w3,w4,w5....wn) = p(w1)p(w2|w1)p(w3|w2)......p(wn|wn-1)p(今天,是,春節(jié),我們,都,休息) = p(今天)p(是|今天)p(春節(jié)|是)....p(今天,春節(jié),是,我們,都,休息) = p(今天)p(春節(jié)|今天)p(是|春節(jié))......Bigram考慮到前面一個(gè)單詞p(今天,是,春節(jié),我們,都,休息) > p(今天,春節(jié),是,我們,都,休息)N-gramN = 3P(w1,w2,w3,w4,w5....wn) = p(w1)p(w2|w1)p(w3|w1w2)p(w4|w2w3)......一般N不會(huì)超過6、7,一般N會(huì)采用2

三、估計(jì)語言模型的概率

p(w1,w2,w3...wn) = p(w1)p(w2)....p(wn)根據(jù)語料庫計(jì)算每一個(gè)單詞的概率Bigram:Estimating Probability語料庫:今天 的 天氣 很好 啊我 很 想 出去 運(yùn)動(dòng)但 今天 上午 想 上課訓(xùn)練營 明天 才 開始"今天 上午 想 出去 運(yùn)動(dòng)"p-LM("今天 上午 想 出去 運(yùn)動(dòng)") = p-LM("今天")p-LM("上午|今天")p-LM(想|上午)p-LM(出去|想)p-LM(運(yùn)動(dòng)|出去) = 1/36p-LM("今天 上午 的 天氣 很好 呢") = p-LM("今天")p-LM("上午|今天")p-LM("的|上午").... = 0p-LM("的|上午") = 0N-gram: Estimating Probablity語料庫:N = 3"今天 上午 有 課程" = p-LM("今天")*p-LM("上午"|"今天")*p-LM("有|今天,上午")*p-LM("課程|上午,有")

四、評估語言模型

Evaluation of Language ModelQ:訓(xùn)練出來的語言模型效果好還是壞?理想情況下:1、假設(shè)兩個(gè)語言模型 A、B 2、選定一個(gè)特定的任務(wù)比如拼寫糾錯(cuò) 3、把兩個(gè)模型A,B都應(yīng)用在此任務(wù)中 4、最后比較準(zhǔn)確率,從而判斷A,B的表現(xiàn)核心思路:今天 __今天天氣 __今天天氣很好,__........Perplexity:(無監(jiān)督的方式下,針對文本的評估方法)Perplexity = 2^(-x) x:average log likelihoodPerplexity越小越好假設(shè)應(yīng)用Bigram訓(xùn)練好的Bigramp(天氣|今天) = 0.01、P(今天) = 0.002、p(很好|天氣) = 0.1、p(適合|很好) = 0.01、p(出去|適合) = 0.02、P(運(yùn)動(dòng)|出去) = 0.1likelihood(今天) p(今天) = 0.002 => logp(今天) = a1 今天(天氣) p(天氣|今天) = 0.01 => logp(天氣|今天) = -2 今天天氣(很好) p(很好|天氣) = 0.1 => logp(很好|天氣) = -1 今天天氣很好,(適合) p(適合|很好) = 0.01 => log p(適合|很好) = -2 今天天氣很好,適合(出去) p(出去|適合) = 0.02 => log p(出去|適合) = a2 今天天氣很好,適合出去(運(yùn)動(dòng)) p(運(yùn)動(dòng)|出去) = 0.1 => log p(運(yùn)動(dòng)|出去) = -1x = (a1-2-1-2+a2-1)/6Perplexity = 2^(-x)很多出現(xiàn)概率為0的情況,采取平滑的方法Bigram"今天 訓(xùn)練營 沒有" = P-LM("今天")*P-LM("訓(xùn)練營|今天")P-LM(沒有|訓(xùn)練營) = 0"今天 沒有 訓(xùn)練營 課程" = 0從語法上可以看出兩個(gè)都是0,但是實(shí)際質(zhì)量并不是相同的,第二個(gè)會(huì)好一些

五、平滑(Smoothing)

SmoothingAdd-one SmoothingAdd-k SmoothingInterperationGood-Turning Smoothing

總結(jié)

以上是生活随笔為你收集整理的NLP-基础知识-002 (语言模型)的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。

主站蜘蛛池模板: 黑人欧美一区二区三区 | 亚洲人成人无码网www国产 | 亚洲国产日韩一区无码精品久久久 | 亚洲无码高清精品 | 中文字幕日韩欧美一区二区三区 | www,av在线 | 亚洲av无码片一区二区三区 | 激情都市一区二区 | 性精品| 57pao成人国产永久免费视频 | 久久久精品一区二区 | 伊人久久成人 | 青娱乐国产视频 | 欧美又粗又大xxxxbbbb疯狂 | 国产福利久久 | 999久久久精品视频 亚洲视频精品在线 | 丝袜操| 日韩综合第一页 | xxxx18日本 | 欧美国产日韩在线观看 | 欧美激情啪啪 | 成年人免费小视频 | 国产高清一区二区三区四区 | 91精品免费观看 | 91pao| 久久久精品人妻一区二区三区色秀 | 在线观看国产免费av | 亚洲综合五月天 | 国产极品在线观看 | 老版k8经典电影 | av在线你懂的 | 久久精品二区 | av一级网站 | 97超碰免费在线 | 在线播放你懂得 | 日本欧美一区 | 国产精品成人一区二区三区电影毛片 | 美女极度色诱图片www视频 | 成人av中文解说水果派 | 精品一二三| 免费毛片网站在线观看 | 国产一级久久 | 国产乱国产乱老熟 | 另类一区 | 国产1区2区| 中国毛片基地 | 亚洲欧美日本一区二区 | 丰满少妇一区二区三区 | 日本一区二区色 | 亚洲videos | 国产欧美成人 | 国内av免费 | 久久一区二区电影 | 99久久久无码国产精品免费蜜柚 | 美女毛毛片 | 欧美日韩午夜激情 | 中文字幕一区二区久久人妻网站 | 狠狠搞视频| 国产外围在线 | 99免费观看视频 | av一区二区三 | 久久精品国产露脸对白 | 97av视频| 97人人模人人爽人人少妇 | 黑人与日本少妇高潮 | 国产免费看av| 美女色综合| 在线观看理论片 | 日剧再来一次第十集 | 黄网站免费视频 | 在线www色| 农村妇女愉情三级 | 国产一区二区片 | 国产精品成人免费 | 久久国产视频一区 | 麻豆影视免费观看 | 国产精品久久久久久久av | 国产午夜福利在线播放 | 国产成人久久精品流白浆 | 日韩中文在线视频 | 女女同性女同一区二区三区按摩 | 久久人妻少妇嫩草av蜜桃 | 男生和女生一起差差差很痛的视频 | 邻居少妇张开双腿让我爽一夜 | 免费成人深夜小野草 | 亚洲精品一区二区三区中文字幕 | 激情视频网址 | 色屁屁ts人妖系列二区 | 中文字幕日本一区 | 国产精品第二页 | 国产视频手机在线播放 | 成人毛片18女人毛片 | 中文字幕在线观看线人 | 操操网站| a在线一区| 爱情岛亚洲品质自拍极速福利网站 | 精品人妻一区二区三区换脸明星 | 日韩在线免费 | 中文字幕在线观看高清 |