日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

数学之美 系列七 -- 信息论在信息处理中的应用

發布時間:2025/3/15 编程问答 21 豆豆
生活随笔 收集整理的這篇文章主要介紹了 数学之美 系列七 -- 信息论在信息处理中的应用 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

數學之美 系列七 -- 信息論在信息處理中的應用

?

http://googlechinablog.com/2006/05/blog-post_25.html

?

?

我們已經介紹了信息熵,它是信息論的基礎,我們這次談談信息論在自然語言處理中的應用。

先看看信息熵和語言模型的關系。我們在系列一中談到語言模型時,沒有講如何定量地衡量一個語言模型的好壞,當然,讀者會很自然地想到,既然語言模型能減少語音識別和機器翻譯的錯誤,那么就拿一個語音識別系統或者機器翻譯軟件來試試,好的語言模型必然導致錯誤率較低。這種想法是對的,而且今天的語音識別和機器翻譯也是這么做的。但這種測試方法對于研發語言模型的人來講,既不直接、又不方便,而且很難從錯誤率反過來定量度量語言模型。事實上,在賈里尼克(Fred Jelinek)的人研究語言模型時,世界上既沒有像樣的語音識別系統,更沒有機器翻譯。我們知道,語言模型是為了用上下文預測當前的文字,模型越好,預測得越準,那么當前文字的不確定性就越小。

信息熵正是對不確定性的衡量,因此信息熵可以直接用于衡量統計語言模型的好壞。賈里尼克從信息熵出發,定義了一個稱為語言模型復雜度(Perplexity)的概念,直接衡量語言模型的好壞。一個模型的復雜度越小,模型越好。李開復博士在介紹他發明的 Sphinx 語音識別系統時談到,如果不用任何語言模型(即零元語言模型)時,復雜度為997,也就是說句子中每個位置有 997 個可能的單詞可以填入。如果(二元)語言模型只考慮前后詞的搭配不考慮搭配的概率時,復雜度為 60。雖然它比不用語言模型好很多,但是和考慮了搭配概率的二元語言模型相比要差很多,因為后者的復雜度只有 20。

信息論中僅次于熵的另外兩個重要的概念是互信息Mutual Information) 相對熵Kullback-Leibler Divergence)

互信息是信息熵的引申概念,它是對兩個隨機事件相關性的度量。比如說今天隨機事件北京下雨和隨機變量空氣濕度的相關性就很大,但是和姚明所在的休斯敦火箭隊是否能贏公牛隊幾乎無關。互信息就是用來量化度量這種相關性的。在自然語言處理中,經常要度量一些語言現象的相關性。比如在機器翻譯中,最難的問題是詞義的二義性(歧義性)問題。比如 Bush 一詞可以是美國總統的名字,也可以是灌木叢。(有一個笑話,美國上屆總統候選人凱里 Kerry 的名字被一些機器翻譯系統翻譯成了"愛爾蘭的小母牛"Kerry 在英語中另外一個意思。)那么如何正確地翻譯這個詞呢?人們很容易想到要用語法、要分析語句等等。其實,至今為止,沒有一種語法能很好解決這個問題,真正實用的方法是使用互信息。具體的解決辦法大致如下:首先從大量文本中找出和總統布什一起出現的互信息最大的一些詞,比如總統、美國、國會、華盛頓等等,當然,再用同樣的方法找出和灌木叢一起出現的互信息最大的詞,比如土壤、植物、野生等等。有了這兩組詞,在翻譯 Bush 時,看看上下文中哪類相關的詞多就可以了。這種方法最初是由吉爾(Gale),丘奇(Church)和雅讓斯基(Yarowsky)提出的。

當時雅讓斯基在賓西法尼亞大學是自然語言處理大師馬庫斯 (Mitch Marcus) 教授的博士生,他很多時間泡在貝爾實驗室丘奇等人的研究室里。也許是急于畢業,他在吉爾等人的幫助下想出了一個最快也是最好地解決翻譯中的二義性,就是上述的方法,這個看上去簡單的方法效果好得讓同行們大吃一驚。雅讓斯基因而只花了三年就從馬庫斯那里拿到了博士,而他的師兄弟們平均要花六年時間。

信息論中另外一個重要的概念是相對熵,在有些文獻中它被稱為成交叉熵。在英語中是 Kullback-Leibler Divergence,是以它的兩個提出者庫爾貝克和萊伯勒的名字命名的。相對熵用來衡量兩個正函數是否相似,對于兩個完全相同的函數,它們的相對熵等于零。在自然語言處理中可以用相對熵來衡量兩個常用詞(在語法上和語義上)是否同義,或者兩篇文章的內容是否相近等等。利用相對熵,我們可以得出信息檢索中最重要的一個概念:詞頻率-逆向文檔頻率(TF/IDF)。我們下回會介紹如何根據相關性對搜索出的網頁進行排序,就要用的上TF/IDF 的概念。另外,在新聞的分類中也要用到相對熵和TF/IDF。

對信息論有興趣又有一定數學基礎的讀者,可以閱讀斯坦福大學托馬斯.科弗 (Thomas Cover) 教授的專著 "信息論基礎"(Elements of Information Theory)
http://www.amazon.com/gp/product/0471062596/ref=nosim/103-7880775-7782209?n=283155
http://www.cnforyou.com/query/bookdetail1.asp?viBookCode=17909
科弗教授是當今最權威的信息論專家。

?

總結

以上是生活随笔為你收集整理的数学之美 系列七 -- 信息论在信息处理中的应用的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。

主站蜘蛛池模板: 熊出没之冬日乐翻天免费高清观看 | 国产成人精品在线观看 | 色综合天天综合网天天看片 | 欧美黄页网站 | 男受被做哭激烈娇喘gv视频 | a亚洲天堂| 黄色a级免费 | 免费av成人 | 亚洲天堂2016 | 九九热综合 | 欧美性区 | 中国黄色一级毛片 | 欧美韩日一区二区 | 欧美亚洲另类小说 | 日韩少妇裸体做爰视频 | 少妇 av| 欧美一区二区三区久久妖精 | 超碰人人人 | 国产永久视频 | 黄色在线观看视频网站 | 香蕉视频在线观看网站 | 四虎影视最新网址 | 免费黄色小视频 | 中文字幕狠狠 | 深夜免费福利 | 波多av| 午夜小网站| 波多野结衣免费观看视频 | 热久久伊人 | 日韩免费影院 | 亚洲精品久久久久久国 | 天天综合网天天综合色 | 2019天天干天天操 | 中文字幕日本人妻久久久免费 | 精品久久久久久久久久久久久久久久久 | 亚洲日b视频 | 风间ゆみ大战黑人 | 美女被叉叉的影院 | 色悠悠在线视频 | 国产一区二区在线观看视频 | 亚洲av无码潮喷在线观看 | 懂色av一区二区三区 | 久久久久午夜 | 欧美精品做受xxx性少妇 | 99热在线观看 | 777在线视频 | 亚洲第一综合网 | 亚洲综合大片69999 | 日韩黄色免费观看 | 麻豆国产91在线播放 | 香蕉蜜桃视频 | 婷婷亚洲天堂 | 亚洲免费一级 | 日本久久爱| 欧美一级在线看 | 久久看片 | 一级片黑人| 久久国产柳州莫菁门 | 九九热视频精品 | 在线99| 国产看片网站 | 香蕉视频免费在线看 | 国产精品高清在线观看 | 九一精品在线 | 日本熟妇乱子伦xxxx | 专业操老外 | 毛片基地免费观看 | 三级黄色短视频 | 一区二区三区在线看 | 大咪咪av| 丝袜毛片 | 不卡在线一区二区 | 波多野结衣家庭主妇 | 日韩中文字幕一区二区三区四区 | 免费色片网站 | free性娇小hd第一次 | 六月婷婷久久 | av图区| 久久国产一区二区三区 | 尤物天堂 | 亚洲成人网在线 | 亚洲色图28p | 亚洲精品免费在线 | 操批网站 | 成年人午夜网站 | 欧美精品一级片 | 日韩v | 久久久久久久综合 | 国产免费一区二区三区四区五区 | 久久精品黄aa片一区二区三区 | 懂色av一区二区三区蜜臀 | 欧美与黑人午夜性猛交久久久 | 亚洲国产一区在线 | 天天插插 | 男人桶女人桶爽30分钟 | 久久男人 | 亚洲作爱视频 | 精品五月天 | 少妇性色av |