當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

自然语言处理笔记6-哈工大关毅

發布時間：2024/1/1 编程问答 36 豆豆

生活随笔收集整理的這篇文章主要介紹了自然语言处理笔记6-哈工大关毅小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

前言

碩士生涯結束，開始專心做一件自己覺得有用的工具，先做工程，后搞理論。
自然語言處理是一個非常難的問題，同時是人工智能皇冠上的明珠。
接下來會記錄一系列自然語言處理的筆記，來自于哈工大老師關毅。

Markov模型1

設 $X=（X_1,X_2,...X_t）是隨機變量序列，其中每個隨機變量的取值在有限集S={s_1,S_2},稱為狀態空間，時間不變性假設$
N階Markov模型，只需修改狀態空間的定義S’={X}。定義新的變量 $Xibelongtos′X_i belong to s'$
使得 $X_t=(S_{i-1},S_i)$ 并且約定：
$P(X_i|X_{i-1})=P((S_{i-1},S_i)|(S_{i-2}，S_{i-3}))$
Markov模型的形式化表示，一個馬爾可夫模型是一個三元組 $（S，π,A）（S，\pi,A）$ ,其中S是狀態的集合， $π\pi$ 是初始狀態的概率，A是狀態間的轉移概率。
發射字符依賴于當前狀態，不同狀態，有不同輸出。
HMM：不同狀態可以有相同輸出，輸出在狀態轉移中進行。

Markov模型2

HMM模型：
最大的靈活性在狀態轉移中以特定概率輸出。
##HMM模型：
HMM是一個五元組（S,k,pi,a,b），其中s是狀態的集合，k是輸出字符的集合，pi是初始狀態的概率，a是狀態轉移的概率。b是狀態轉移時輸出字符的概率。
t:=1
以概率 $p_i$ 在狀態 $S_i$ 開始（ie，X1=i）
forever do
move from state Si to state Sj with
probability $A_{ij}(i,e,..{X_{t+1}=j})$
Emit observation symbol Ot=k
with probability b
t:=t+1
end
##HMM的基本問題
給定一個輸出的字符序列。如何調整模型的參數使得產生這一序列的概率最大，IBM Watson醫生。隱馬模型的基本問題：給定一個模型M=（S,k,pi,a,b），如何高效地計算某一輸出字符序列的概率P（O|u）。
給定一個輸出字符序列O和一個模型u，如何確定產生這一序列概率最大的狀態序列
（X1，x2）
詞網格分類，音字轉換。網格cell states。
問題1：評價（evaluation）
給定一個模型u=（s,k,pi,a,b）如何高效地計算某一輸出字符序列的概率P（O|u）。
O=（o1,o2,…,or）,u=(a,b,pi)
計算P（O|u）。
給定詞網格最優路徑
方案一：直觀方法。
X1–>o1
P(o|x,u)=bx1oz= $∑P(O∣X,U)?P(X∣u)\sum P(O|X,U)*P(X|u)$
動態規劃，遞推求解。
$αi(t)=P(O1,..Oi∣Xt)\alpha_i(t)=P(O1,..Oi|X_t)$
方案2：向前過程

= $∑i=1αi(t)?bjαijbj?αt+1\sum_{i=1}\alpha_i(t)*b_j\alpha_{ij}b_j*\alpha_{t+1}$

Markov 模型3

向前過程
RRGB
動態規劃法
向后過程概述：
$KaTeX parse error: Expected 'EOF', got '\lmd' at position 5: P(O|\?l?m?d?)=\sum_{1<j<N}p…$
算法效率與前算法相同。
用途：參數訓練問題的一個重要組成部分。
##解碼
確定產生概率最大的狀態
delta為在t時刻到達狀態j，輸出字符Ot時，輸出前面t-1
個字符的最可能路徑的概率。
delta_j(t)=max_{xi…xt+1}P(x1…xt+1,O1…Ot-1,Xt=1,Ot)
delta+{t+1}(j)=max_deltat(j)aijbij(ot+1)
viterbi algorithm:
初始化：
delta（i）=piibi（Oi）
phi（i）=0
遞歸：
最優路徑 qt=phi_t=1（Qt+1）
把連乘變成加。
參數統計
argmax_uP(O|u)

Markov模型4

Markov模型（5）

HMM評價，解碼編碼問題
ch6尾聲，音字轉換
T=argmax（v|s）
語言單位間的遠距離約束
遞歸模型
規則與統計相結合
采用規則的方法：
短語結合規則：
A+NP->NP
A+‘的’+NP->NP
M+‘枝’+NP->NP
短語匹配算法。
從詞網格到元素網格
顆粒度疏，工作量太大。
規則匹配強度不夠。
做了幾個宣傳詞，要有自己的優勢項。
還做了系統掛接問題。

總結

以上是生活随笔為你收集整理的自然语言处理笔记6-哈工大关毅的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：【OpenCV】透视变换仿射变换
下一篇：信息安全保障人员（CISAW）安全集成方

生活随笔

生活随笔

编程问答

自然语言处理笔记6-哈工大关毅

目錄

文章目錄

前言

Markov模型1

Markov模型2

Markov 模型3

Markov模型4

Markov模型（5）

總結

编程问答

自然语言处理笔记6-哈工大 关毅

目錄

文章目錄

前言

Markov模型1

Markov模型2

Markov 模型3

Markov模型4

Markov模型（5）

總結

自然语言处理笔记6-哈工大关毅