日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

数据挖掘中特征选择算法的基本综述

發(fā)布時間:2023/12/9 编程问答 42 豆豆
生活随笔 收集整理的這篇文章主要介紹了 数据挖掘中特征选择算法的基本综述 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

? ? ? ?特征選擇作為常見的降維方法是數據挖掘中的研究熱點之一。特征選擇時指從原始的特征集合中選取出以某種標準最優(yōu)的特征子集。其目的就是選出最優(yōu)的特征子集,進而達到使分類或回歸模型更好的預測精度。

一、定義:

特征選擇是從N個特征的集合中選出具有M個特征的子集(N>=M).也稱為屬性簡約,可以為滿足一些應用再不失去數據的原來的價值的基礎上選擇最優(yōu)的屬性子集,去除掉了不相關的和冗余的屬性。

二、特征選擇四要素:

1、搜索的起點和方向。顧名思義,在進行特征選擇時,要有選擇的起點和方向。搜索方向即評價的特征子集產生的次序,搜索的方向有從空集開始的前向搜索、從全集開始的后向搜索、雙向搜索和隨機搜索等,

2、搜索策略。特征選擇的搜索策略有窮舉式搜索、序列搜索、隨機搜索。

3、特征評估函數。評價標準在特征選擇中有重要作用,是特征選擇的依據。評價標準可分為兩種:一種是用于單獨衡量每個特征的預測能力的評價標準;另一種是用于評價某個特征子集整體預測性能的評價標準。

4、停止原則。停止原則決定什么時候停止搜索,結束算法的執(zhí)行。一般停止原則有三種,一是執(zhí)行時間即實現規(guī)定了算法的執(zhí)行時間,二是評價次數即制定算法需要運算多少次,三是設置閾值即給算法目標設置一個評價閾值,通過目標與該閾值的比較決定算法是否停止。

三、特征選擇算法的分類:

1、根據在特征選擇過程中,特征子集的評價是否用到在決策機器構造過程中所使用的學習算法可以分類三類。

? ? ?1)Filter(過濾)方法:相關測量法、類間類內距離測量法、信息熵法、檢驗以及Relief等。

? ? ?2)Wrapper(包裝)方法:在特征選擇時依賴具體機器學習算法,它在篩選特征的過程中直接所選特征子集來訓練學習器,根據測試集在學習器上的性能表現來評價該特征子集的優(yōu)劣。

? ? ?3)Filter和Wrapper組合式方法。

2、根據搜索策略劃分特征選擇算法可分為三類。

? ? ?1)采用全局最優(yōu)搜索特征選擇算法。舉例:分支界定算法

? ? ?2)采用隨機搜索策略的特征選擇算法。舉例:基于遺傳算法、k近鄰分類器特征選擇方法、使用算法結合人工神經網絡分類器進行特征選擇的方法。

? ? ?3)采用序列搜索策略的特征選擇算法。該類特征選擇算法可分為:單獨最優(yōu)特征組合、序列前向選擇方法、?廣義序列向前選擇方法、?序列后向選擇方法、廣義序列后向選擇方法、增l去r選擇方法、廣義增l去r特征選擇方法、浮動搜索方法。

四、影響特征權值的因素:

1、詞頻

? ? ? ?文本內中頻詞往往具有代表性,高頻詞區(qū)分能力較小,而低頻詞或者稀有出現詞也常常可以做為關鍵特征詞。所以詞頻是特征提取中必須考慮的重要因素,并且在不同方法中有不同的應用公式。

2、詞性

? ? ? ?文本中的一些虛詞,如感嘆詞、介詞、連詞等,對于標識文本的類別特性并沒有貢獻,也就是對確定文本類別沒有意義的詞。如果把這些對文本分類沒有意思的虛詞作為文本特征詞,將會帶來很大噪音,從而直接降低文本分類的效率和準確率。因此,在提取文本特征時,應首先考慮剔除這些對文本分類沒有用處的虛詞,而在實詞中,又以名詞和動詞對于文本的類別特性的表現力最強,所以可以只提取文本中的名詞和動詞作為文本的一級特征詞。

3、文檔頻率

? ? ? 出現文檔多的特征詞,分類區(qū)分能力較差,出現文檔少的特征詞更能代表文本的不同主題。

4、標題

? ? ??標題是作者給出的提示文章內容的短語,對摘要內容的影響不可忽視。標題的正確識別能在一定程度上提高文摘的質量。

5、位置

? ? ? 首句和末句的權重上可通過統(tǒng)計數字擴大一個常數倍。首段、末段、段首、段尾、標題和副標題、子標題等處的句子往往在較大程度上概述了文章的內容。對于出現在這些位置的句子應該加大權重。

6、語法結構

? ? ? ?句式與句子的重要性之間存在著某種聯(lián)系,比如摘要中的句子大多是陳述句,而疑問句、感嘆句等則不具內容代表性。而通常“總之”、“綜上所述”等一些概括性語義后的句子,包含了文本的中心內容。

7、專業(yè)詞庫

? ? ? 通用詞庫包含了大量不會成為特征項的常用詞匯,為了提高系統(tǒng)運行效率,系統(tǒng)根據挖掘目標建立專業(yè)的分詞表,這樣可以在保證特征提取準確性的前提下,顯著提高系統(tǒng)的運行效率。

8、信息熵

? ? ? 信息熵方法的基本目的是找出某種符號系統(tǒng)的信息量和多余度之間的關系,以便能用最小的成本和消耗來實現最高效率的數據儲存、管理和傳遞。信息熵是數學方法和語言文字學的結合。我們將可以將信息論中的熵原理引入到特征詞權重的計算中。

9、文檔、詞語長度

? ? ??一般情況下,詞的長度越短,其語義越泛。一般來說, 中文中詞長較長的詞往往反映比較具體、下位的概念, 而短的詞常常表示相對抽象、上位的概念一般說來, 短詞具有較高的頻率和更多的含義, 是面向功能的;而長詞的頻率較低, 是面向內容的, 增加長詞的權重, 有利于詞匯進行分割, 從而更準確地反映出特征詞在文章中的重要程度。詞語長度通常不被研究者重視。但是本文在實際應用中發(fā)現,關鍵詞通常是一些專業(yè)學術組合詞匯,長度較一般詞匯長。

10、詞語間關聯(lián)

11、單詞的區(qū)分能力

? ? ? 一個詞的區(qū)分能力是確定該詞是否為特征詞的關鍵因素,因此單詞的在類內和類間的區(qū)分能力是影響特征權值的主要因素。在TF*IDF公式的基礎上,又擴展了一項單詞的類區(qū)分能力。新擴展的項用于描述單詞與各個類別之間的相關程度。? ? ??

12、詞語分布偏差

? ? ??詞語分布偏差所考慮的是詞語在文章中的統(tǒng)計分布。在整篇文章中分布均勻的詞語通常是重要的詞匯。

五、常見的特征選擇的算法:

1、TF-IDF

? ? ? ?單詞權重最有效的方法就是TF-IDF。其中TF稱為詞頻,用于計算該詞描述文檔內容的能力;IDF稱為逆文檔頻率,用于計算該詞區(qū)別文檔的能力。TF-IDF就是建立在這樣一條基本假設之上的:在一個文本中出現很多次的單詞,在另一個同類文本中出現的次數也會很多,反之亦然。所以如何特徵空間坐標系取TF詞頻作為測度,就可以體現同類文本的特點,另外還要考慮單詞區(qū)別不同類別的能力,TF-IDF認為一個單詞出現的文本頻率越小,它區(qū)別不同類別的能力就越大,所以引入了逆文本頻度IDF的概念,以TF和IDF的乘積作為特征空間坐標系的取值測度。

2、詞頻方法(Word Frequyency)

? ? ? ?詞頻是一個詞在文檔中出現的次數。通過詞頻進行特征選擇就是將詞頻小于某一個閾值的詞刪除,從而降低特征空間的維數。這個方法是基于這樣一個假設,即出現頻率小的詞對過濾的影響也比較小。但是在信息檢索的研究中認為,有時頻率小的詞含有更多的信息,因此在特征選擇的過程中不宜簡單地根據詞頻大幅度刪詞

3、文檔頻次方法(Document Frequency)

? ? ? ?文檔頻率是最為簡單的一中特征選擇算法,它指的是在整個數據集中有多少個文本包含這個單詞,在訓練文本集中對每個特征計算它的文檔頻率,并且根據預先設定的閾值取出那些文檔頻次特別低和特別高的特征。文檔頻次通過在訓練文檔數量中計算線性近似復雜度來衡量巨大的文檔集,計算復雜度較低,能夠適用于任何語料,因此是特征降維的常用方法。在訓練文本集中對每個特征計算它的文檔頻數,若該項的DF 值小于某個閾值則將其刪除,若其DF 值大于某個閾值也將其去掉。因為他們分別代表了“沒有代表性”和“沒有區(qū)分度”2 種極端的情況。DF 特征選取使稀有詞要么不含有用信息,要么太少而不足以對分類產生影響,要么是噪音,所以可以刪去。DF 的優(yōu)點在于計算量很小,而在實際運用中卻有很好的效果。缺點是稀有詞可能在某一類文本中并不稀有,也可能包含著重要的判斷信息,簡單舍棄,可能影響分類器的精度。文檔頻數最大的優(yōu)勢就是速度快,它的時間復雜度和文本數量成線性關系,所以非常適合于超大規(guī)模文本數據集的特征選擇。

4、互信息(Mutual Information)

? ? ? ?互信息衡量的是某個詞和類別之間的統(tǒng)計獨立關系。互信息是計算語言學模型分析的常用方法,它度量兩個對象之間的相互性。在過濾問題中用于度量特征對于主題的區(qū)分度。互信息的定義與交叉熵近似。互信息本來是信息論中的一個概念,用于表示信息之間的關系, 是兩個隨機變量統(tǒng)計相關性的測度,使用互信息理論進行特征抽取是基于如下假設:在某個特定類別出現頻率高,但在其他類別出現頻率比較低的詞條與該類的互信息比較大通常用互信息作為特征詞和類別之問的測度,如果特征詞屬于該類的話,它們的互信息量最大。

5、期望交叉熵(Expected Cross Entropy)

? ? ? ?交叉與信息量的定義相似。交叉?,也稱KL距離,它反映了文本主題類的概率分布和在出現了某特定詞匯的條件下文本主題類的概率分布之間的距離,詞匯w的交越大,對文本主題類分布的影響也越大。它與信息增益唯一的不同之處在于沒有考慮單詞未發(fā)生的情況,只計算出現在文本中的特征項。如果特征項和類別強相關, P ( Ci | w )就大,若P( Ci) 又很小的話,則說明該特征對分類的影響大。交叉熵反映了文本類別的概率分布和在出現了某個特定詞的條件下文本類別的概率分布之間的距離, 特征詞t 的交叉熵越大, 對文本類別分布的影響也越大。熵的特征選擇效果都要優(yōu)于信息增益。

6、二次信息熵(QEMI)

? ? ? ?將二次熵函數應用于互信息評估方法中,取代互信息中的Shannon熵,就形成了基于二次熵的互信息評估函數。基于二次熵的互信息克服了互信息的隨機性,是一個確定的量,因此可以作為信息的整體測度,另外它還比互信息最大化的計算復雜度要小,所以可以比較高效地用在基于分類的特征選取上。

7、CHI統(tǒng)計方法

? ? ? ?CHI 統(tǒng)計方法是度量詞條和文檔類別之間的相關程度的統(tǒng)計測試方法,其最基本的思想就是通過觀察實際值與理論值的偏差來確定理論的正確與否。

? ? ??X2統(tǒng)計量用于度量特征w和主題類C之間的獨立性。而表示除w以外的其他特征,C表示除C以外的其他主題類,當特征w和主題類C之間完全獨立的時候,X2統(tǒng)計量為0。X2統(tǒng)計量和互信息的差別在于它是歸一化的統(tǒng)計量,但是它對低頻特征的區(qū)分效果也不好。X2 統(tǒng)計得分的計算有二次復雜度, 相似于互信息和信息增益。在 X2 統(tǒng)計和互信息之間主要的不同在于 X2 是規(guī)格化評價, 因而 X2 評估分值對在同類中的詞是可比的, 但是 X2 統(tǒng)計對于低頻詞來說是不可靠的。利用X2 統(tǒng)計方法來進行特征抽取是基于如下假設:在指定類別文本中出現頻率高的詞條與在其他類別文本中出現頻率比較高的詞條,對判定文檔是否屬于該類別都是很有幫助的.

8、信息增益方法(Information Gain)

? ? ? ?信息增益方法是機器學習的常用方法,在過濾問題中用于度量已知一個特征是否出現于某主題相關文本中對于該主題預測有多少信息。通過計算信息增益可以得到那些在正例樣本中出現頻率高而在反例樣本中出現頻率低的特征,以及那些在反例樣本中出現頻率高而在正例樣本中出現頻率低的特征。

9、遺傳算法(Genetic Algorithm, GA)

? ? ? 遺傳算法是一種通用型的優(yōu)化搜索方法,它利用結構化的隨機信息交換技術組合群體中各個結構中最好的生存因素,復制出最佳代碼串,并使之一代一代地進化,最終獲得滿意的優(yōu)化結果。在將文本特征提取問題轉化為文本空間的尋優(yōu)過程中,首先對Web文本空間進行遺傳編碼,以文本向量構成染色體,通過選擇、交叉、變異等遺傳操作,不斷搜索問題域空間,使其不斷得到進化,逐步得到Web文本的最優(yōu)特征向量。

10、模擬火腿算法(Simulating Anneal,SA)

? ? ? ?模擬退火算法來源于固體退火原理, 其實也是一 種貪心算法, 但是它的搜索過程引入了隨機因素。模擬退火算法以一定的概率來接受一個比當前解要差的解, 因此有可能會跳出這個局部的最優(yōu)解, 達到全局的最優(yōu)解。

總結

以上是生活随笔為你收集整理的数据挖掘中特征选择算法的基本综述的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。