NLP自然语言理解-中科院(宗成庆) P1~P4
自然語言:人類語言,人類歷史發(fā)展過程中所產(chǎn)生的;
機器翻譯、網(wǎng)絡安全文本挖掘;
俠義:自然語言到機器內(nèi)部的一種映射;
被動統(tǒng)計語言存在的規(guī)律,主動讓計算機完成某樣功能,為人類提供服務。機器翻譯、信息檢索、自動形成Summary;
應用:機器翻譯、信息檢索、自動文摘、問答系統(tǒng)、信息過濾、信息抽取(屬于關(guān)聯(lián)、關(guān)系)、文檔分類(情感文本的分類)、文字編輯和自動校對、語言教學和文字識別、語音識別(語音->文本)、語音合成(文本->語音)、說話人識別;
完美的理論體系以及實用的技術(shù);
NLP發(fā)展中的基本問題:
(1)形態(tài)學(詞、詞素)
分詞,詞的邊界;詞的構(gòu)成規(guī)律和詞的識別方法;西方語言詞尾變化如何還原到原型;
(2)語法學問題;
句子為什么這樣寫,語法規(guī)律,建立快速有效的句子結(jié)構(gòu)的分析方法;
(3)語義問題(根本問題)
語義的理解;由詞的意義推演到句子的意義;
(4)語用學問題;
一句話在不同的上下文中,不同語言環(huán)境,不同的含義;特定環(huán)境的含義;
(5)語音學問題
發(fā)聲的規(guī)律,發(fā)聲的特點,聲音和文字的對應關(guān)系;
NLP發(fā)展中的主要困難:
(1)大量歧義現(xiàn)象。
(2)大量未知語言現(xiàn)象;
記錄語言習得的過程,分析語言學習的過程;
中間需要大量的知識庫、語料庫做支撐;
基于關(guān)鍵詞的搜索引擎;
信息論、數(shù)學中的工具、方法處理自然語言;
統(tǒng)計方法需要大量數(shù)據(jù)的支撐;
總結(jié)
以上是生活随笔為你收集整理的NLP自然语言理解-中科院(宗成庆) P1~P4的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 5月JC学习总结
- 下一篇: 错误: 找不到或无法加载主类 hello