自然语言处理-停用词
生活随笔
收集整理的這篇文章主要介紹了
自然语言处理-停用词
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
[做一個搬運工,信息來自百度百科]
停用詞
???? 停用詞是指在信息檢索中,為節省存儲空間和提高搜索效率,在處理自然語言數據(或文本)之前或之后會自動過濾掉某些字或詞,這些字或詞即被稱為Stop Words(停用詞)。這些停用詞都是人工輸入、非自動化生成的,生成后的停用詞會形成一個停用詞表。????但是,并沒有一個明確的停用詞表能夠適用于所有的工具。甚至有一些工具是明確地避免使用停用詞來支持短語搜索的。
類別
????對于一個給定的目的,任何一類的詞語都可以被選作停用詞。通常意義上,停用詞大致分為兩類。一類是人類語言中包含的功能詞,這些功能詞極其普遍,與其他詞相比,功能詞沒有什么實際含義,比如'the'、'is'、'at'、'which'、'on'等。但是對于搜索引擎來說,當所要搜索的短語包含功能詞,特別是像'The Who'、'The The'或'Take The'等復合名詞時,停用詞的使用就會導致問題。另一類詞包括詞匯詞,比如'want'等,這些詞應用十分廣泛,但是對這樣的詞搜索引擎無法保證能夠給出真正相關的搜索結果,難以幫助縮小搜索范圍,同時還會降低搜索的效率,所以通常會把這些詞從問題中移去,從而提高搜索性能。介紹
????人類語言包含很多功能詞。與其他詞相比,功能詞沒有什么實際含義。最普遍的功能詞是限定詞(“the”、“a”、“an”、“that”、和“those”),這些詞幫助在文本中描述名詞和表達概念,如地點或數量。介詞如:“over”,“under”,“above” 等表示兩個詞的相對位置。 這些功能詞的兩個特征促使在搜索引擎的文本處理過程中對其特殊對待。第一,這些功能詞極其普遍。記錄這些詞在每一個文檔中的數量需要很大的磁盤空間。第二,由于它們的普遍性和功能,這些詞很少單獨表達文檔相關程度的信息。如果在檢索過程中考慮每一個詞而不是短語,這些功能詞基本沒有什么幫助。 在信息檢索中,這些功能詞的另一個名稱是:停用詞(stopword)。稱它們為停用詞是因為在文本處理過程中如果遇到它們,則立即停止處理,將其扔掉。將這些詞扔掉減少了索引量,增加了檢索效率,并且通常都會提高檢索的效果。停用詞主要包括英文字符、數字、數學字符、標點符號及使用頻率特高的單漢字等。功能
????為節省存儲空間和提高搜索效率,搜索引擎在索引頁面或處理搜索請求時會自動忽略某些字或詞,這些字或詞即被稱為Stop Words(停用詞)。通常意義上,Stop Words大致為如下兩類:????1、這些詞應用十分廣泛,在Internet上隨處可見,比如“Web”一詞幾乎在每個網站上均會出現,對這樣的詞搜索引擎無 法保證能夠給出真正相關的搜索結果,難以幫助縮小搜索范圍,同時還會降低搜索的效率;
????2、這類就更多了,包括了語氣助詞、副詞、介詞、連接詞等,通常自身 并無明確的意義,只有將其放入一個完整的句子中才有一定作用,如常見的“的”、“在”之類。
????舉個例子來說,像“IT技術點評”,雖然其中的“IT”從我們的本意上是指“Information Technology”,事實上這種縮寫也能夠為大多數人接受,但對搜索引擎來說,此“IT”不過是“it”,即“它”的意思,這在英文中是一個極其常見 同時意思又相當含混的詞,在大多數情況下將被忽略。我們在IT技術點評中保留“IT”更多地面向“人”而非搜索引擎,以求用戶能明了IT技術點評網站涉及的內容限于信息技術,雖然從SEO的角度這未必是最佳的處理方式。
漢語停用詞整理
英語停用詞整理
總結
以上是生活随笔為你收集整理的自然语言处理-停用词的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 软考——论文写作基本介绍
- 下一篇: 扩展欧几里得算法求逆元_从辗转相除法到求