日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

数学之美 系列十五 繁与简 自然语言处理的几位精英

發布時間:2025/3/15 编程问答 41 豆豆
生活随笔 收集整理的這篇文章主要介紹了 数学之美 系列十五 繁与简 自然语言处理的几位精英 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

數學之美 系列十五 繁與簡 自然語言處理的幾位精英

我在數學之美系列中一直強調的一個好方法就是簡單。但是,事實上,自然語言處理中也有一些特例,比如有些學者將一個問題研究到極致,執著追求完善甚至可以說完美的程度。他們的工作對同行有很大的參考價值,因此我們在科研中很需要這樣的學者。在自然語言處理方面新一代的頂級人物麥克爾·柯林斯 (Michael Collins) 就是這樣的人。

柯林斯:追求完美

柯林斯從師于自然語言處理大師馬庫斯 (Mitch Marcus)(我們以后還會多次提到馬庫斯),從賓夕法利亞大學獲得博士學位,現任麻省理工學院 (MIT) 副教授(別看他是副教授,他的水平在當今自然語言處理領域是數一數二的),在作博士期間,柯林斯寫了一個后來以他名字命名的自然語言文法分析器 (sentence parser),可以將書面語的每一句話準確地進行文法分析。文法分析是很多自然語言應用的基礎。雖然柯林斯的師兄布萊爾 (Eric Brill) 和 Ratnaparkhi 以及師弟 Eisnar 都完成了相當不錯的語言文法分析器,但是柯林斯卻將它做到了極致,使它在相當長一段時間內成為世界上最好的文法分析器??铝炙钩晒Φ年P鍵在于將文法分析的每一個細節都研究得很仔細。柯林斯用的數學模型也很漂亮,整個工作可以用完美來形容。我曾因為研究的需要,找柯林斯要過他文法分析器的源程序,他很爽快地給了我。我試圖將他的程序修改一下來滿足我特定應用的要求,但后來發現,他的程序細節太多以至于很難進一步優化??铝炙沟牟┦空撐目胺Q是自然語言處理領域的范文。它像一本優秀的小說,把所有事情的來龍去脈介紹的清清楚楚,對于任何有一點計算機和自然語言處理知識的人,都可以輕而易舉地讀懂他復雜的方法。

柯林斯畢業后,在 AT&T 實驗室度過了三年快樂的時光。在那里柯林斯完成了許多世界一流的研究工作諸如隱含馬爾科夫模型的區別性訓練方法,卷積核在自然語言處理中的應用等等。三年后,AT&T 停止了自然語言處理方面的研究,柯林斯幸運地在 MIT 找到了教職。在 MIT 的短短幾年間,柯林斯多次在國際會議上獲得最佳論文獎。相比其他同行,這種成就是獨一無二的。柯林斯的特點就是把事情做到極致。如果說有人喜歡“繁瑣哲學”,柯林斯就是一個。

布萊爾:簡單才美

在研究方法上,站在柯林斯對立面的典型是他的師兄艾里克 · 布萊爾 (Eric Brill) 和雅讓斯基,后者我們已經介紹過了,這里就不再重復。與柯林斯從工業界到學術界相反,布萊爾職業路徑是從學術界走到工業界。與柯里斯的研究方法相反,布萊爾總是試圖尋找簡單得不能再簡單的方法。布萊爾的成名作是基于變換規則的機器學習方法 (transformation rule based machine learning)。這個方法名稱雖然很復雜,其實非常簡單。我們以拼音轉換字為例來說明它:

第一步,我們把每個拼音對應的漢字中最常見的找出來作為第一遍變換的結果,當然結果有不少錯誤。比如,“常識”可能被轉換成“長識”;

第二步,可以說是“去偽存真”,我們用計算機根據上下文,列舉所有的同音字替換的規則,比如,如果 chang 被標識成“長”,但是后面的漢字是“識”,則將“長”改成“?!?#xff1b;

第三步,應該就是“去粗取精”,將所有的規則用到事先標識好的語料中,挑出有用的,刪掉無用的。然后重復二三步,直到找不到有用的為止。

布萊爾就靠這么簡單的方法,在很多自然語言研究領域,得到了幾乎最好的結果。由于他的方法再簡單不過了,許許多多的人都跟著學。布萊爾可以算是我在美國的第一個業師,我們倆就用這么簡單的方法作詞性標注 (part of speech tagging),也就是把句子中的詞標成名詞動詞,很多年內無人能超越。(最后超越我們的是后來加入 Google 的一名荷蘭工程師,用的是同樣的方法,但是做得細致很多)布萊爾離開學術界后去了微軟研究院。在那里的第一年,他一人一年完成的工作比組里其他所有人許多年做的工作的總和還多。后來,布萊爾又加入了一個新的組,依然是高產科學家。據說,他的工作真正被微軟重視要感謝 Google,因為有了 Google,微軟才對他從人力物力上給于了巨大的支持,使得布萊爾成為微軟搜索研究的領軍人物之一。在研究方面,布萊爾有時不一定能馬上找到應該怎么做,但是能馬上否定掉一種不可能的方案。這和他追求簡單的研究方法有關,他能在短時間內大致摸清每種方法的好壞。

由于布萊爾總是找簡單有效的方法,而又從不隱瞞自己的方法,所以他總是很容易被包括作者我自己在內的很多人趕上和超過。好在布萊爾很喜歡別人追趕他,因為,當人們在一個研究方向超過他時,他已經調轉船頭駛向它方了。一次,艾里克對我說,有一件事我永遠追不上他,那就是他比我先有了第二個孩子 :)

在接下來了系列里,我們還會介紹一個繁與簡結合的例子。

轉自:http://googlechinablog.com/2006/08/blog-post_115634657041368311.html

總結

以上是生活随笔為你收集整理的数学之美 系列十五 繁与简 自然语言处理的几位精英的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。