日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

《自然语言处理简明教程》读书笔记:前言

發布時間:2023/12/9 编程问答 27 豆豆
生活随笔 收集整理的這篇文章主要介紹了 《自然语言处理简明教程》读书笔记:前言 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

前言

自然語言處理(Natural Language Processing,簡稱NLP),就是以電子計算機為工具,對人類特有的書面形式和口頭形式的自然語言的信息進行各種類型處理和加工的技術。這項技術現在已經形成一門專門的邊緣性交叉性學科,它涉及語言學、數學和計算機科學,橫跨文科、理科和工科三大知識領域。自然語言處理的目的在于建立各種自然語言處理系統,如機器翻譯系統、自然語言理解系統、信息自動檢索系統、信息自動抽取系統、文本信息挖掘系統、術語數據庫系統、計算機輔助教學系統、語音自動識別系統、語音自動合成系統、文字自動識別系統等。

自然語言處理是語言文字應用的一個新課題,從語言學的觀點來看,我們可以把它作為應用語言學的一個分支。

自然語言處理又是人工智能的一個主要內容,它是電子計算機模擬人類智能的一個重要方面。智能化的電子計算機和智能化的互聯網已經不是虛無縹緲的幻想,而是指日可待的現實。它同人類歷史上語言的出現、文字的創造、造紙技術的發明以及印刷技術的發明一樣,將成為人類文明史上的又一件大事。

自然語言是人類區別于其他動物的重要標志之一。人借助于自然語言交流思想、互相了解;人和借助自然語言進行思維活動,認識事物的本質和規律,創造了人類的物質文明和精神文明。

自然語言是人腦的高級功能之一,它是人類特有的一種最重要的智能,智能化電子計算機和智能化互聯網的研究離不開自然語言處理,自然語言處理的研究水平,在智能化計算機和智能化互聯網的研制中,起著舉足輕重的作用。

在計算機軟件中,早已設計了許多人工語言,這些人工語言與自然語言一樣,都遵循著形式語言的規律和法則。自然語言與人工語言之間,在形式描述方面,確實存在著某些共同的性質。

但是,自然語言畢竟是人類歷史長期發展而約定俗稱的產物,它帶著幾千年人類歷史的痕跡,比人工語言要復雜得多,因而用計算機處理起來也就困難得多。

自然語言起碼在下面四個方面與人工語言大相徑庭:

(1)自然語言中充滿著歧義,而人工語言中的歧義則是可以控制的;

(2)自然語言的結構復雜多樣,而人工語言的結構則相對簡單;

(3)自然語言的語義表達千變萬化,迄今還沒有一種簡單而通用的途徑來描述它,而人工語言的語義則可以由人來直接定義;

(4)自然語言的結構和語義間有著千絲萬縷的、錯綜復雜的聯系,一般不存在一一對應的同構關系,而人工語言則常常可以把結構和語義分別進行處理,人工語言的結構和語義之間有著整齊的意義對應的同構關系。

自然語言的這些獨特性質,使得自然語言處理成為人工智能領域的一大難題。

當前(這本書是2010年出版的)自然語言處理的發展表現在下面五個方面:

第一,基于句法-語義規則的理性主義方法受到質疑,隨著語料庫建設和語料庫語言學的崛起,大規模真實文本的處理稱為自然語言處理的主要戰略目標,概率和數據驅動的方法幾乎成為了自然語言處理的標準方法。

基于規則的理性主義方法的哲學基礎是邏輯實證主義,即智能的基本單位是符號,認知過程就是在符號的表征下進行符號運算,因此,思維就是符號運算。

賽爾在他的論文《心智、大腦與程序》中,提出了所謂“中文屋子”的質疑,他的批評使基于規則的理性主義的觀點受到了普遍的懷疑。

理性主義方法的另一個弱點是在實踐方面。自然語言處理的理性主義者把自己的目的局限于某個十分狹窄的專業領域之中,他們采用的主流技術是基于規則的句法-語義分析,盡管這些應用系統在某些受限的“子語言”中也曾經獲得一定程度的成功,但是,要想進一步擴大這些系統的覆蓋面,用它們來處理大規模的真實文本,仍然有很大的困難。

當前語料庫的建設和語料庫語言學的崛起,正是自然語言處理戰略目標轉移的一個重要標志。隨著人們對大規模真實文本處理的日益關注,越來越多的學者認識到,基于語料庫的分析方法至少是對基于規則的分析方法的一個重要補充。因為從“大規模”和“真實”這兩個因素來考察,語料庫才是最理想的語言知識資源。

目前,基于大規模真實語料庫的概率和數據驅動的方法幾乎成為了自然語言處理的標準方法。句法剖析、詞類標注、參照消解、話語分析、機器翻譯的技術全都開始引入概率,并且采用從語音識別和信息檢索中借過來的基于概率和數據驅動的評測方法。

傳統的語言材料的搜集、整理和加工完全是手工進行的,這是一種枯燥無味、費時費力的工作。計算機出現后,人們可以把這些工作交給計算機去做,這大大地減輕了人們的勞動。后來,在這種工作中逐漸創造了一整套完整的理論和方法,形成了語料庫語言學,并成為了自然語言處理的一個分支學科。

語料庫語言學主要研究機器可讀自然語言文本的采集、存儲、檢索、統計、語法標注、句法語義分析,以及具有上述功能的語料庫在語言定量分析、詞典編纂、作品風格分析、自然語言理解和機器翻譯等領域中的應用。

第二,自然語言處理中越來越多地使用機器自動學習的方法來獲取語言知識。

自然語言處理中的經驗主義傾向始于20世紀90年代,在21世紀它更以驚人的步伐向前推進。這樣的加速發展在很大的程度上受到下面三種彼此協同的趨勢的推動。

第一個趨勢是建立帶標記語料庫的趨勢。在語言數據聯盟和其他相關機構的幫助下,研究者們可以獲得口語和書面語的大規模的預料。重要的是,在這些語料中還包括一些標注過的預料,這些語料庫是帶有句法、語義和語用等不同層次的標準文本語言資源。這些語言資源的存在大大地推動了人們使用有監督的機器學習方法來處理那些在傳統上非常復雜的自動剖析和自動語義分析等問題。這些語言資源也推動了有競爭性的評測機制的建立。評測的范圍涉及到自動剖析、信息抽取、詞義排歧、問答系統、自動文摘等領域。

第二個趨勢是統計機器學習的趨勢。對于機器學習的日益增長的重視,導致了學者們與統計機器學習的研究者們更加頻繁地交互,彼此之間相互影響。

第三個趨勢是高性能計算機系統發展的趨勢,高性能計算機系統的廣泛應用,為機器學習系統的大規模訓練和效能發揮提供了有利的條件,而這些在20世紀是難以想象的。

在20世紀90年代末期,大規模的無監督統計學習方法得到了重新關注。機器翻譯和主題模擬等領域中統計方法的進步,說明了也可以只訓練完全沒有標注過的數據來構建機器學習系統,這樣的系統也可以得到有效的應用。由于建造可靠的標注語料庫要花費很高的成本,建造的難度很大,在很多問題中,這成為了使用有監督的機器學習方法的一個限制性因素。因此,這個趨勢的進一步發展,將使我們更多地使用無監督的機器學習技術。

傳統語言學基本上是通過語言學家自行歸納總結語言現象的手工方法來獲取知識的,由于人的記憶力有限,任何語言學家,哪怕是語言學界的權威泰斗,都不可能記憶和處理浩如煙海的全部的語言數據,因此,使用傳統的手工方法來獲取語言知識,猶如以管窺豹,以蠡測海,這種獲取語言知識的方法不僅效率極低,而且帶有很大的主觀性。

當前的自然語言處理研究提倡建立語料庫,使用機器學習的方法,讓計算機自動地從浩如煙海的語料庫中獲取準確的語言知識。機器詞典和大規模語料庫的建設,成為了當前自然語言處理的熱點。

使用這種機器學習方法開發出來的基于語料庫的自動分析軟件是獨立于具體語言的。只要有訓練語料庫,即使研究者不懂有關的語言,仍然可以使用自動分析軟件得出不錯的分析結果。這樣的機器學習方法達到的分析精度已經可以與基于規則的方法達到的精度相媲美。這是語言學歷史上獲取語言學知識方法的革命性變革,每一個語言學工作者都應當敏銳地認識到這樣的變革,改變陳舊的、傳統的知識獲取方法,采用新穎的、現代的知識獲取方法。

第三,統計數學方法越來越受到重視。

自然語言處理中越來越多地使用統計數學方法來分析語言數據,使用人工觀察和內省的方法,顯然不可能從浩如煙海的語料庫中獲取精確可靠的語言知識,必須使用統計數學的方法。

語言模型是描述自然語言內在規律的數學模型,構造語言模型是自然語言處理的核心。語言模型可以分為傳統的規則型語言模型和基于統計的語言模型。規則型語言模型是人工編制的語言規則,這些語言規則主要來自語言學家掌握的語言學知識,具有一定的主觀性和片面性,難以處理大規模的真實文本。基于統計的語言模型通常是概率模型,計算機借助于語言統計模型的概率參數,可以估計出自然語言中語言成分出現的可能性,而不是單純地判斷這樣的語言成分是否符合語言學規則,這種概率性的語言統計模型顯然比規則型語言模型更加客觀和全面。

第四,自然語言處理中越來越重視詞匯的作用,出現了強烈的“詞匯主義”的傾向。

近些年來,語料庫證據支持的詞匯學研究蓬勃發展。越來越多的實證研究表明,詞匯和語法在語言中是交織在一起的,必須整合起來進行描述。詞匯是話語實現的主要載體,語法的作用僅僅是管理意義、組合成份和構筑詞項。

理論語言學中強調詞匯作用的傾向,叫作“詞匯主義”,這種詞匯主義的傾向也影響到自然語言處理。

自然語言中充滿了歧義,歧義問題的解決不僅與概率和結構有關,還往往與詞匯的特性有關;英語中的介詞短語附著問題和并列結構歧義問題,都必須依靠詞匯知識才能解決。盡管在自然語言處理中使用數學,使用概率的方法,在遇到詞匯依存問題的時候往往顯得捉襟見肘、無能為力,我們還需要探索其他的途徑來進一步提升概率語法的功能,其中的一個有效途徑,就是在概率語法中引入詞匯信息。

第五,多語言在線語言處理技術迅猛發展。隨著網絡技術的發展,互聯網逐漸變成一個多語言的網絡世界,互聯網上的機器翻譯、信息檢索和信息抽取等自然語言處理的需要變得更加緊迫。

信息量的豐富大大地擴張了人們的視野,人們希望能夠準確地、迅速地獲取到自己需要的信息,自然語言處理技術已經成為了解決海量信息的獲取問題的強有力的手段。

而所有的這些信息主要都是以語言文字作為載體的,也就是說,網絡世界主要是由語言文字構成的。

由于互聯網上使用英語之外的其他語言的人數增加得越來越多,英語在互聯網上獨霸天下的局面已經徹底打破,互聯網確實已經變成了“多語言的網絡世界”。“多語言”這個特性使得互聯網變得豐富多彩,同時也造成了不同語言之間交流和溝通的困難,互聯網上的語言障礙問題顯得越來越突出,越來越嚴重。因此,網絡上的不同自然語言之間的計算機自動處理也就變得越來越迫切了。

總結

以上是生活随笔為你收集整理的《自然语言处理简明教程》读书笔记:前言的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。