《自然语言处理实战入门》---- 停用词 知多少?
生活随笔
收集整理的這篇文章主要介紹了
《自然语言处理实战入门》---- 停用词 知多少?
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
文章大綱
- 簡介
- 中文常用停用詞表數量級
- 自己動手匯總一個
- 結論
- 參考文獻
簡介
停用詞是指在信息檢索中,為節省存儲空間和提高搜索效率,在處理自然語言數據(或文本)之前或之后會自動過濾掉某些字或詞,這些字或詞即被稱為Stop Words(停用詞)。這些停用詞都是人工輸入、非自動化生成的,生成后的停用詞會形成一個停用詞表。但是,并沒有一個明確的停用詞表能夠適用于所有的工具。甚至有一些工具是明確地避免使用停用詞來支持短語搜索的。
對于一個給定的目的,任何一類的詞語都可以被選作停用詞。通常意義上,停用詞大致分為兩類。一類是人類語言中包含的功能詞,這些功能詞極其普遍,與其他詞相比,功能詞沒有什么實際含義,比如’the’、‘is’、‘at’、‘which’、‘on’等。但是對于搜索引擎來說,當所要搜索的短語包含功能詞,特別是像’The Who’、'The The’或’Take The’等復合名詞時,停用詞的使用就會導致問題。另一類詞包括詞匯詞,比如’want’等,這些詞應用十分廣泛,但是對這樣的詞搜索引擎無法保證能夠給出真正相關的搜索結果,難以幫助縮小搜索范圍,同時還會降低搜索的效率,所以通常會把這些詞從問題中移去,從而提高搜索性能。
人類語言包含很多功能詞。與其他詞相比,功能詞沒有什么實際含義。最普遍的功能詞是限定詞&
總結
以上是生活随笔為你收集整理的《自然语言处理实战入门》---- 停用词 知多少?的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【C语言进阶深度学习记录】十八 条件编译
- 下一篇: 欧几里得算法(即辗转相除法)的时间复杂度