文本聚类分析算法_聚类分析算法综述
前 言
聚類是人類認識未知世界的一種重要的認知手段。在生產和生活中,人們往往面對非常復雜的事和物,如果能夠把相似的東西歸為一類,有明顯區別的事物分屬在不同的類別中,處理起來就大為簡便。所謂“物以類聚,人以群分”,說的就是這個道理。譬如人們將生物分為動物和植物,又根據不同的生理特點將生物分為不同的門、綱、目、科、屬、種在化學理論中,人們根據不同的化學性質將各種元素劃分為不同的類別,比如鹵族元素、惰性氣體等等,進而總結出元素周期率在社會學中,人們還根據不同的信仰劃分出不同的黨派、宗教等。
在原始的分類學中,人們的分類依據是經驗和專業知識來進行定性分析,很少使用數學工具。隨著人類對自然和社會的認識不斷深入,要處理的數據量規模越來越大,相互關系也越來越復雜,分類越來越細,對分類的要求也越來越高,這時僅僅依靠定性分析就不能滿足要求,于是數學這個得力工具被引入,形成了數值分類學,對分析對象進行定量的研究。由于數值分類學中的方法不僅能夠用于分類,還能用于其他領域,于是人們覺得使用“聚類分析”這個名稱更為恰當。
聚類分析的應用相當廣泛。在商務上,聚類能幫助市場分析人員從消費者信息庫中發現不同的消費群體,并且用購買模式'來刻畫不同的消費群體的特征。在生物學上,聚類可以被用來輔助研究動植物的分類,可以用來分類具有相似功能的基因,還可以用來發現人群中的一些潛在的結構。聚類分析也可以用于在泥土觀測數據庫中對相似地區的區分,也可以根據房子的類型、價值和地域對一個城市中的房屋進行分類。聚類還可以用來從空間數據庫中識別出具有相似特征的空間對象可以從保險公司的數據庫中發現汽車保險中具有較高索賠概率的群體還可以用來分類萬維網上不同類型的文檔,或分析日志以發現特殊的訪問模式等。
在實際應用聚類分析中,我們根據有無領域知識參與將整個過程分解為三個環節,每個步驟都有其明確的任務,這樣對于整個聚類分析的過程就會有更清晰的認識。數據聚類分析是一個正在蓬勃發展的領域。聚類分析所涉及的領域包括數據挖掘、統計學、機器學習、空間數據庫技術、生物學和市場學等。由于各應用數據庫所包含的數據量越來越大,聚類分析己成為數據挖掘研究中一個非常活躍的研究課題。正因為如此,聚類分析是一種觀察式學習法,而不是示例式學習法田衛。在概念聚類方法中,僅當一組對象可以由一個概念所描述時,這些對象方才能構成一個類。這與基于幾何距離表示相似程度并進行聚類的傳統聚類方法有所不同。
圖1 文本聚類的基本過程
本章根據聚類的全過程如圖1所示,對文本分類的如下過程進行一一闡述
第一步是特征抽取。它的輸入是原始樣本,由領域專家決定使用哪些特征來深刻地刻畫樣本的本質性質和結構。特征抽取的結果是輸出一個矩陣,每一行是一個樣本,每一列是一個特征指標變量。選取特征的優劣將直接影響以后的分析和決策。如果第一步就選擇了和聚類意圖根本無關的特征變量,企圖得到良好的聚類結果則無異于緣木求魚。因為無論后續步驟采用多么優良的聚類算法和閉值選擇方案,都不可能計算出執行者的意圖。合理的特征選取方案應當使得同類樣本在特征空間中相距較近,異類樣本則相距較遠。在有些應用場合還需要將得到的樣本矩陣進行一些后處理工作。比如為了統一量綱就對變量進行標準化處理,這樣采用不同量綱的變量才具有可比性在有些場合可能選擇的特征變量太多,不利于以后的分析和決策,這時可以先進行一下降維處理僅憑經驗和領域知識選擇的特征變量有可能是相關的,進行主成分分析就可以消除變量間的相關性,從而得到一些相互獨立的特征變量。
第二步是執行聚類算法,獲得聚類譜系圖。聚類的輸入是一個樣本矩陣,它把一個樣本想象成特征變量空間中的一個點。聚類算法的目的就是獲得能夠反映維空間中這些樣本點之間的最本質的“抱團”性質。這一步沒有領域專家的參與,它除了幾何知識外不考慮任何的領域知識,不考慮特征變量在其領域中的特定含義,僅僅認為它是特征空間中一維而己。聚類算法的輸出一般是一個聚類譜系圖,由粗到細地反映了所有的分類情況或者直接給出具體的分類方案,包括總共分成幾類,每類具體包含那些樣本點等等。
第三步是選取合適的分類閡值。在得到了聚類譜系圖之后,領域專家憑借經驗和領域知識,根據具體的應用場合,決定閉值的選取。選定閉值之后,就能夠從聚類譜系圖上直接看出分類方案。沒有領域專家的參與,不考慮具體的應用背景,而僅僅依賴于從聚類譜系圖出發尋找聚類指數突變點,或者求最小生成樹的長邊等等,往往不會得到滿意的結果。領域專家還可以對聚類結果結合領域知識進行進一步的分析,從而加深樣本點和特征變量的認識。
總之,實際應用聚類分析是一個需要多方參與的過程,它無法脫離領域專家的參與,聚類算法僅僅是整個聚類流程中的一環而已,光依靠聚類算法專家一般不會得到滿意的效果。關于聚類算法,我們將在下一章中重點討論幾種常用的聚類分析算法。
《來源于科技文獻,經本人分析整理,以技術會友,廣交天下朋友》
創作挑戰賽新人創作獎勵來咯,堅持創作打卡瓜分現金大獎總結
以上是生活随笔為你收集整理的文本聚类分析算法_聚类分析算法综述的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: python最大分词_中文分词算法之最大
- 下一篇: 开心果 | 即使天天看的图标 你未必都