文本分类入门(三)统计学习方法
文本分類入門(三)統計學習方法
前文說到使用統計學習方法進行文本分類就是讓計算機自己來觀察由人提供的訓練文檔集,自己總結出用于判別文檔類別的規則和依據。理想的結果當然是讓計算機在理解文章內容的基礎上進行這樣的分類,然而遺憾的是,我們所說的“理解”往往指的是文章的語義甚至是語用信息,這一類信息極其復雜,抽象,而且存在上下文相關性,對這類信息如何在計算機中表示都是尚未解決的問題(往大里說,這是一個“知識表示”的問題,完全可以另寫一系列文章來說了),更不要說讓計算機來理解。
利用計算機來解決問題的標準思路應該是:為這種問題尋找一種計算機可以理解的表示方法,或建立一個模型(一個文檔表示模型);然后基于這個模型,選擇各方面滿足要求的算法來解決。用譚浩強的話說,程序,就是數據+算法。(啥?你不知道譚浩強是誰?上過學么?學過C么?這搗什么亂?)
既然文本的語義和語用信息很難轉換成計算機能夠理解的表示形式,接下來順理成章的,人們開始用文章中所包含的較低級別的詞匯信息來表示文檔,一試之下,效果居然還不錯。
統計學習方法進行文本分類(以下就簡稱為“統計學習方法”,雖然這個方法也可以應用到除文本分類以外的多個領域)的一個重要前提由此產生,那就是認為:文檔的內容與其中所包含的詞有著必然的聯系,同一類文檔之間總存在多個共同的詞,而不同類的文檔所包含的詞之間差異很大[1]。
進一步的,不光是包含哪些詞很重要,這些詞出現的次數對分類也很重要。
這一前提使得向量模型(俗稱的VSM,向量空間模型)成了適合文本分類問題的文檔表示模型。在這種模型中,一篇文章被看作特征項集合來看,利用加權特征項構成向量進行文本表示,利用詞頻信息對文本特征進行加權。它實現起來比較簡單,并且分類準確度也高,能夠滿足一般應用的要求。[5]
而實際上,文本是一種信息載體,其所攜帶的信息由幾部分組成:如組成元素本身的信息(詞的信息)、組成元素之間順序關系帶來的信息以及上下文信息(更嚴格的說,還包括閱讀者本身的背景和理解)[12]。
而VSM這種文檔表示模型,基本上完全忽略了除詞的信息以外所有的部分,這使得它能表達的信息量存在上限[12],也直接導致了基于這種模型構建的文本分類系統(雖然這是目前絕對主流的做法),幾乎永遠也不可能達到人類的分類能力。后面我們也會談到,相比于所謂的分類算法,對特征的選擇,也就是使用哪些特征來代表一篇文檔,往往更能影響分類的效果。
對于擴充文檔表示模型所包含的信息量,人們也做過有益的嘗試,例如被稱為LSI(Latent Semantic Index潛在語義索引)的方法,就被實驗證明保留了一定的語義信息(之所以說被實驗證明了,是因為人們還無法在形式上嚴格地證明它確實保留了語義信息,而且這種語義信息并非以人可以理解的方式被保留下來),此為后話。
前文說到(就不能不用這種老舊的說法?換換新的,比如Previously on "Prison Break",噢,不對,是Previously on Text Categorizaiton……)統計學習方法其實就是一個兩階段的解決方案,(1)訓練階段,由計算機來總結分類的規則;(2)分類階段,給計算機一些它從來沒見過的文檔,讓它分類(分不對就打屁屁)。
?
下一章就專門說說訓練階段的二三事。
?
參考:
http://wiki.52nlp.cn/
http://www.blogjava.net/zhenandaci/category/31868.html
?
?[1]李曉明,閆宏飛,王繼民,“搜索引擎——原理、技術與系統”.科學出版社,2004
[2]馮是聰, "中文網頁自動分類技術研究及其在搜索引擎中的應用," 北京大學,博士論文, 2003
[3]Y. Yang and X. Liu, "A re-examination of text categorization methods" presented at Proceedings of ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR'99), 1999.
[4]F. Sebastiani, "A tutorial on Automated Text Categorization", Proceedings of ASAI-99, 1st Argentinian Symposium on Artificial Intelligence, Buenos Aires, AR, 1999
[5]王濤:文本自動分類研究,圖書館學研究,2007.12
[6]周文霞:現代文本分類技術研究,武警學院學報,2007.12
[7]奉國和:自動文本分類技術研究,情報雜志,2007.12
[8]崔彩霞,張朝霞:文本分類方法對比研究,太原師范學院學報(自然科學版),2007.12
[9]吳軍:Google黑板報數學之美系列,http://googlechinablog.com
[10]劉霞,盧葦:SVM在文本分類中的應用研究,計算機教育,2007.1
[11]都云琪,肖詩斌:基于支持向量機的中文文本自動分類研究,計算機工程,2002,28(11)
[12]周昭濤,卜東波:文本的圖表示初探,中文信息學報,第19卷 第2期
[13]Baeza-Yates,R.and Ribeiro-Neto:Modern Information Retrieval,1st ed.Addison Wesley Longman,Reading,MA,1999
[14]唐春生,張磊:文本分類研究進展
[15]李莼,羅振聲:基于語義相關和概念相關的自動分類方法研究,計算機工程與應用,2003.12
[16]單松巍,馮是聰,李曉明:幾種典型特征選取方法在中文網頁分類上的效果比較,計算機工程與應用,2003.22
[17]Yiming Yang,Jan O Pedersen:A comparative Study on Feature Selection in Text Categorization, Proceedings of the Fourteenth International Conference on Machine Learning(ICML~97),l997
[18]董振東:知網簡介,知網,http://www.keenage.com/zhiwang/c_zhiwang.html
[19]Tom M.Mitchell,”Machine Learning”,McGraw Hill Companies,1997
[20] Edda? Leopold, Jorg Kindermann,“Text Categorization with Support Vector Machines:How to Represent Texts in Input Space?”, Kluwer Academic Publishers,2002
[21] Thorsten Joachims,”Text Categorization with Support Vector Machines: Learning with Many Relevant Features”
[22]Nello Cristianini,An Introduction to Support Vector Machines and Other Kernel-based Learning Methods,Cambridge University Press,2000
[23]F. Sebastiani, "MACHINE LEARNING IN AUTOMATED TEXT CATEGORIZATION", ACM Computing Surveys, Vol. 34, No. 1, 2002
[24]TRS公司,TRS文本挖掘基礎件白皮書
[25]蘇金樹,張博鋒:基于機器學習的文本分類技術研究進展,Journal of Software,2006.9
總結
以上是生活随笔為你收集整理的文本分类入门(三)统计学习方法的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 文本分类入门(二)文本分类的方法
- 下一篇: 文本分类入门(七)相关概念总结