日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

            歡迎訪問 生活随笔!

            生活随笔

            當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

            编程问答

            文本分类入门(七)相关概念总结

            發布時間:2025/3/15 编程问答 12 豆豆
            生活随笔 收集整理的這篇文章主要介紹了 文本分类入门(七)相关概念总结 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

            ?

            ?學習方法:使用樣例(或稱樣本,訓練集)來合成計算機程序的過程稱為學習方法[22]

            監督學習:學習過程中使用的樣例是由輸入/輸出對給出時,稱為監督學習[22]。最典型的監督學習例子就是文本分類問題,訓練集是一些已經明確分好了類別文檔組成,文檔就是輸入,對應的類別就是輸出。

            非監督學習:學習過程中使用的樣例不包含輸入/輸出對,學習的任務是理解數據產生的過程 [22]。典型的非監督學習例子是聚類,類別的數量,名稱,事先全都沒有確定,由計算機自己觀察樣例來總結得出。

            TSRTerm Space Reduction:特征空間的壓縮,即降維,也可以叫做特征提取。包括特征選擇和特征抽取兩大類方法。

            分類狀態得分(CSVCategorization Status Value):用于描述將文檔歸于某個類別下有多大的可信度。

            準確率(Precision:在所有被判斷為正確的文檔中,有多大比例是確實正確的。

            召回率(Recall:在所有確實正確的文檔中,有多大比例被我們判為正確。

            假設:計算機對訓練集背后的真實模型(真實的分類規則)的猜測稱為假設。可以把真實的分類規則想像為一個目標函數,我們的假設則是另一個函數,假設函數在所有的訓練數據上都得出與真實函數相同(或足夠接近)的結果。

            泛化性:一個假設能夠正確分類訓練集之外數據(即新的,未知的數據)的能力稱為該假設的泛化性[22]

            一致假設:一個假設能夠對所有訓練數據正確分類,則稱這個假設是一致的[22]

            過擬合:為了得到一致假設而使假設變得過度復雜稱為過擬合[22]。想像某種學習算法產生了一個過擬合的分類器,這個分類器能夠百分之百的正確分類樣本數據(即再拿樣本中的文檔來給它,它絕對不會分錯),但也就為了能夠對樣本完全正確的分類,使得它的構造如此精細復雜,規則如此嚴格,以至于任何與樣本數據稍有不同的文檔它全都認為不屬于這個類別!

            超平面(Hyper Plane):n維空間中的線性函數唯一確定了一個超平面。一些較直觀的例子,在二維空間中,一條直線就是一個超平面;在三維空間中,一個平面就是一個超平面。

            線性可分和不可分:如果存在一個超平面能夠正確分類訓練數據,并且這個程序保證收斂,這種情況稱為線形可分。如果這樣的超平面不存在,則稱數據是線性不可分的[22]

            正樣本和負樣本:對某個類別來說,屬于這個類別的樣本文檔稱為正樣本;不屬于這個類別的文檔稱為負樣本。

            規劃:對于目標函數,等式或不等式約束都是線性函數的問題稱為線性規劃問題對于目標函數是二次的,而約束都是線性函數的最優化問題稱為二次規劃問題[22]

            對偶問題:

            給定一個帶約束的優化問題

            目標函數:min f(x)

            約束條件:C(x) 0

            可以通過拉格朗日乘子構造拉格朗日函數

            L(x,λ)=f(x)- λTC(x)

            g(λ)= f(x)-λTC(x)

            則原問題可以轉化為

            目標函數:max g(λ)

            約束條件:λ≥0

            這個新的優化問題就稱為原問題的對偶問題(兩個問題在取得最優解時達到的條件相同)。

            ?

            參考:

            http://wiki.52nlp.cn/

            http://www.blogjava.net/zhenandaci/category/31868.html

            [1]李曉明,閆宏飛,王繼民,“搜索引擎——原理、技術與系統”.科學出版社,2004

            [2]馮是聰, "中文網頁自動分類技術研究及其在搜索引擎中的應用," 北京大學,博士論文, 2003

            [3]Y. Yang and X. Liu, "A re-examination of text categorization methods" presented at Proceedings of ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR'99), 1999.

            [4]F. Sebastiani, "A tutorial on Automated Text Categorization", Proceedings of ASAI-99, 1st Argentinian Symposium on Artificial Intelligence, Buenos Aires, AR, 1999

            [5]王濤:文本自動分類研究,圖書館學研究,2007.12

            [6]周文霞:現代文本分類技術研究,武警學院學報,2007.12

            [7]奉國和:自動文本分類技術研究,情報雜志,2007.12

            [8]崔彩霞,張朝霞:文本分類方法對比研究,太原師范學院學報(自然科學版),2007.12

            [9]吳軍:Google黑板報數學之美系列,http://googlechinablog.com

            [10]劉霞,盧葦:SVM在文本分類中的應用研究,計算機教育,2007.1

            [11]都云琪,肖詩斌:基于支持向量機的中文文本自動分類研究,計算機工程,200228(11)

            [12]周昭濤,卜東波:文本的圖表示初探,中文信息學報,第19 2

            [13]Baeza-Yates,R.and Ribeiro-Neto:Modern Information Retrieval,1st ed.Addison Wesley Longman,Reading,MA,1999

            [14]唐春生,張磊:文本分類研究進展

            [15]李莼,羅振聲:基于語義相關和概念相關的自動分類方法研究,計算機工程與應用,2003.12

            [16]單松巍,馮是聰,李曉明:幾種典型特征選取方法在中文網頁分類上的效果比較,計算機工程與應用,2003.22

            [17]Yiming Yang,Jan O Pedersen:A comparative Study on Feature Selection in Text Categorization, Proceedings of the Fourteenth International Conference on Machine Learning(ICML~97)l997

            [18]董振東:知網簡介,知網,http://www.keenage.com/zhiwang/c_zhiwang.html

            [19]Tom M.Mitchell,Machine Learning,McGraw Hill Companies1997

            [20] Edda? Leopold, Jorg Kindermann,Text Categorization with Support Vector MachinesHow to Represent Texts in Input Space?, Kluwer Academic Publishers,2002

            [21] Thorsten Joachims,”Text Categorization with Support Vector Machines: Learning with Many Relevant Features”

            [22]Nello Cristianini,An Introduction to Support Vector Machines and Other Kernel-based Learning Methods,Cambridge University Press,2000

            [23]F. Sebastiani, "MACHINE LEARNING IN AUTOMATED TEXT CATEGORIZATION", ACM Computing Surveys, Vol. 34, No. 1, 2002

            [24]TRS公司,TRS文本挖掘基礎件白皮書

            [25]蘇金樹,張博鋒:基于機器學習的文本分類技術研究進展,Journal of Software,2006.9

            總結

            以上是生活随笔為你收集整理的文本分类入门(七)相关概念总结的全部內容,希望文章能夠幫你解決所遇到的問題。

            如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。