日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

文本分类入门(二)文本分类的方法

發(fā)布時(shí)間:2025/3/15 编程问答 14 豆豆
生活随笔 收集整理的這篇文章主要介紹了 文本分类入门(二)文本分类的方法 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

文本分類入門(二)文本分類的方法

文本分類問題與其它分類問題沒有本質(zhì)上的區(qū)別,其方法可以歸結(jié)為根據(jù)待分類數(shù)據(jù)的某些特征來進(jìn)行匹配,當(dāng)然完全的匹配是不太可能的,因此必須(根據(jù)某種評(píng)價(jià)標(biāo)準(zhǔn))選擇最優(yōu)的匹配結(jié)果,從而完成分類。

因此核心的問題便轉(zhuǎn)化為用哪些特征表示一個(gè)文本才能保證有效和快速的分類(注意這兩方面的需求往往是互相矛盾的)。因此自有文本分類系統(tǒng)的那天起,就一直是對(duì)特征的不同選擇主導(dǎo)著方法派別的不同。

最早的詞匹配法僅僅根據(jù)文檔中是否出現(xiàn)了與類名相同的詞(頂多再加入同義詞的處理)來判斷文檔是否屬于某個(gè)類別。很顯然,這種過于簡(jiǎn)單的方法無法帶來良好的分類效果。

后來興起過一段時(shí)間的知識(shí)工程的方法則借助于專業(yè)人員的幫助,為每個(gè)類別定義大量的推理規(guī)則,如果一篇文檔能滿足這些推理規(guī)則,則可以判定屬于該類別。這里與特定規(guī)則的匹配程度成為了文本的特征。由于在系統(tǒng)中加入了人為判斷的因素,準(zhǔn)確度比詞匹配法大為提高。但這種方法的缺點(diǎn)仍然明顯,例如分類的質(zhì)量嚴(yán)重依賴于這些規(guī)則的好壞,也就是依賴于制定規(guī)則的“人”的好壞;再比如制定規(guī)則的人都是專家級(jí)別,人力成本大幅上升常常令人難以承受;而知識(shí)工程最致命的弱點(diǎn)是完全不具備可推廣性,一個(gè)針對(duì)金融領(lǐng)域構(gòu)建的分類系統(tǒng),如果要擴(kuò)充到醫(yī)療或社會(huì)保險(xiǎn)等相關(guān)領(lǐng)域,則除了完全推倒重來以外沒有其他辦法,常常造成巨大的知識(shí)和資金浪費(fèi)。

后來人們意識(shí)到,究竟依據(jù)什么特征來判斷文本應(yīng)當(dāng)隸屬的類別這個(gè)問題,就連人類自己都不太回答得清楚,有太多所謂“只可意會(huì),不能言傳”的東西在里面。人類的判斷大多依據(jù)經(jīng)驗(yàn)以及直覺,因此自然而然的會(huì)有人想到何讓機(jī)器像人類一樣自己來通過對(duì)大量同類文檔的觀察來自己總結(jié)經(jīng)驗(yàn),作為今后分類的依據(jù)。

這便是統(tǒng)計(jì)學(xué)習(xí)方法的基本思想(也有人把這一大類方法稱為機(jī)器學(xué)習(xí),兩種叫法只是涵蓋范圍大小有些區(qū)別,均無不妥)。

統(tǒng)計(jì)學(xué)習(xí)方法需要一批由人工進(jìn)行了準(zhǔn)確分類的文檔作為學(xué)習(xí)的材料(稱為訓(xùn)練集,注意由人分類一批文檔比從這些文檔中總結(jié)出準(zhǔn)確的規(guī)則成本要低得多),計(jì)算機(jī)從這些文檔中挖掘出一些能夠有效分類的規(guī)則,這個(gè)過程被形象的稱為訓(xùn)練,而總結(jié)出的規(guī)則集合常常被稱為分類器。訓(xùn)練完成之后,需要對(duì)計(jì)算機(jī)從來沒有見過的文檔進(jìn)行分類時(shí),便使用這些分類器來進(jìn)行。

現(xiàn)如今,統(tǒng)計(jì)學(xué)習(xí)方法已經(jīng)成為了文本分類領(lǐng)域絕對(duì)的主流。主要的原因在于其中的很多技術(shù)擁有堅(jiān)實(shí)的理論基礎(chǔ)(相比之下,知識(shí)工程方法中專家的主觀因素居多),存在明確的評(píng)價(jià)標(biāo)準(zhǔn),以及實(shí)際表現(xiàn)良好。

下一章就深入統(tǒng)計(jì)學(xué)習(xí)方法,看看這種方法的前提,相關(guān)理論和具體實(shí)現(xiàn)。

?

參考:

http://wiki.52nlp.cn/

http://www.blogjava.net/zhenandaci/category/31868.html

?

總結(jié)

以上是生活随笔為你收集整理的文本分类入门(二)文本分类的方法的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。