日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

自然语言处理笔记6-哈工大 关毅

發布時間:2024/1/1 编程问答 36 豆豆
生活随笔 收集整理的這篇文章主要介紹了 自然语言处理笔记6-哈工大 关毅 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

目錄

文章目錄

  • 目錄
  • 前言
  • Markov模型1
  • Markov模型2
  • Markov 模型3
  • Markov模型4
  • Markov模型(5)

前言

碩士生涯結束,開始專心做一件自己覺得有用的工具,先做工程,后搞理論。
自然語言處理是一個非常難的問題,同時是人工智能皇冠上的明珠。
接下來會記錄一系列自然語言處理的筆記,來自于哈工大老師關毅。

Markov模型1

X=(X1,X2,...Xt)是隨機變量序列,其中每個隨機變量的取值在有限集S=s1,S2,稱為狀態空間,時間不變性假設X=(X_1,X_2,...X_t)是隨機變量序列,其中每個隨機變量的取值在有限集S={s_1,S_2},稱為狀態空間,時間不變性假設X=X1?,X2?,...Xt?S=s1?,S2?,
N階Markov模型,只需修改狀態空間的定義S’={X}。定義新的變量Xibelongtos′X_i belong to s'Xi?belongtos
使得Xt=(Si?1,Si)X_t=(S_{i-1},S_i)Xt?=(Si?1?,Si?)并且約定:
P(Xi∣Xi?1)=P((Si?1,Si)∣(Si?2,Si?3))P(X_i|X_{i-1})=P((S_{i-1},S_i)|(S_{i-2},S_{i-3}))P(Xi?Xi?1?)=P((Si?1?,Si?)(Si?2?Si?3?))
Markov模型的形式化表示,一個馬爾可夫模型是一個三元組(S,π,A)(S,\pi,A)Sπ,A,其中S是狀態的集合,π\piπ是初始狀態的概率,A是狀態間的轉移概率。
發射字符依賴于當前狀態,不同狀態,有不同輸出。
HMM:不同狀態可以有相同輸出,輸出在狀態轉移中進行。

Markov模型2

HMM模型:
最大的靈活性在狀態轉移中以特定概率輸出。
##HMM模型:
HMM是一個五元組(S,k,pi,a,b),其中s是狀態的集合,k是輸出字符的集合,pi是初始狀態的概率,a是狀態轉移的概率。b是狀態轉移時輸出字符的概率。
t:=1
以概率pip_ipi?在狀態SiS_iSi?開始(ie,X1=i)
forever do
move from state Si to state Sj with
probability Aij(i,e,..Xt+1=j)A_{ij}(i,e,..{X_{t+1}=j})Aij?(i,e,..Xt+1?=j)
Emit observation symbol Ot=k
with probability b
t:=t+1
end
##HMM的基本問題
給定一個輸出的字符序列。如何調整模型的參數使得產生這一序列的概率最大,IBM Watson醫生。 隱馬模型的基本問題:給定一個模型M=(S,k,pi,a,b),如何高效地計算某一輸出字符序列的概率P(O|u)。
給定一個輸出字符序列O和一個模型u,如何確定產生這一序列概率最大的狀態序列
(X1,x2)
詞網格分類,音字轉換。網格cell states。
問題1:評價(evaluation)
給定一個模型u=(s,k,pi,a,b)如何高效地計算某一輸出字符序列的概率P(O|u)。
O=(o1,o2,…,or),u=(a,b,pi)
計算P(O|u)。
給定詞網格最優路徑
方案一:直觀方法。
X1–>o1
P(o|x,u)=bx1oz=∑P(O∣X,U)?P(X∣u)\sum P(O|X,U)*P(X|u)P(OX,U)?P(Xu)
動態規劃,遞推求解。
αi(t)=P(O1,..Oi∣Xt)\alpha_i(t)=P(O1,..Oi|X_t)αi?(t)=P(O1,..OiXt?)
方案2:向前過程

=∑i=1αi(t)?bjαijbj?αt+1\sum_{i=1}\alpha_i(t)*b_j\alpha_{ij}b_j*\alpha_{t+1}i=1?αi?(t)?bj?αij?bj??αt+1?

Markov 模型3

向前過程
RRGB
動態規劃法
向后過程概述:
KaTeX parse error: Expected 'EOF', got '\lmd' at position 5: P(O|\?l?m?d?)=\sum_{1<j<N}p…
算法效率與前算法相同。
用途:參數訓練問題的一個重要組成部分。
##解碼
確定產生概率最大的狀態
delta為在t時刻到達狀態j,輸出字符Ot時,輸出前面t-1
個字符的最可能路徑的概率。
delta_j(t)=max_{xi…xt+1}P(x1…xt+1,O1…Ot-1,Xt=1,Ot)
delta+{t+1}(j)=max_deltat(j)aijbij(ot+1)
viterbi algorithm:
初始化:
delta(i)=piibi(Oi)
phi(i)=0
遞歸:
最優路徑 qt=phi_t=1(Qt+1)
把連乘變成加。
參數統計
argmax_uP(O|u)

Markov模型4

設計更新計算更新值。basic思想。
設定模型的初始值,U-old。
基于U_old計算輸出U_new和O的概率。
如果P(o|u_new)-P(O|u_old)<某個閾值
停止
否則,U_old<-U_new返回step2.
Baum-Welch算法。
向前向后算法。
基于HMM的詞性標注。
詞性標注:
作用句法分析的前期步驟
難點:兼類詞。
詞性標準應用:
Tbest=argmaxPr(T|s)=argmaxP(S|t)P(T)
如何計算P(S|t)和P(T)
簡化:
詞wi的出現,僅僅依賴于它的詞性標記,標記ti的出現僅僅條件依賴于它前面的標記t_i-1
公式轉化 計算P(S|T)和P(T)
Pr(S|t)Pr(t)=\timr P(Wi|ti)P(Ti|ti-1)
使用最大相似度估計:
P(Ti|ti-1)=c(ti,tj)/c(ti)
音字轉換
發射字符:狀態是什么?
發射字是什么?
不是什么?轉化為生產力的學習。

Markov模型(5)

HMM評價,解碼編碼問題
ch6尾聲,音字轉換
T=argmax(v|s)
語言單位間的遠距離約束
遞歸模型
規則與統計相結合
采用規則的方法:
短語結合規則:
A+NP->NP
A+‘的’+NP->NP
M+‘枝’+NP->NP
短語匹配算法。
從詞網格到元素網格
顆粒度疏,工作量太大。
規則匹配強度不夠。
做了幾個宣傳詞,要有自己的優勢項。
還做了系統掛接問題。

總結

以上是生活随笔為你收集整理的自然语言处理笔记6-哈工大 关毅的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。