日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

特征选择与特征权重区别

發布時間:2025/4/14 编程问答 24 豆豆
生活随笔 收集整理的這篇文章主要介紹了 特征选择与特征权重区别 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
在文本分類的過程中,特征(也可以簡單的理解為“詞”)從人類能夠理解的形式轉換為計算機能夠理解的形式時,實際上經過了兩步驟的量化——特征選擇階段的重要程度量化和將具體文本轉化為向量時的特征權重量化。初次接觸文本分類的人很容易混淆這兩個步驟使用的方法和各自的目的,因而我經常聽到讀者有類似“如何使用TFIDF做特征選擇”或者“卡方檢驗量化權重后每篇文章都一樣”等等困惑。

想想通過指紋來識別一個人的身份,只看一個人的指紋,當然說不出他姓甚名誰,識別的過程實際上是比對的過程,要與已有的指紋庫比較,找出相同的,或者說相似到一定程度的那一個。

首要的問題是,人的指紋太復雜,包含太多的位置和幾何形狀,要完全重現一個人的指紋,存儲和計算都是大麻煩。因此第一步總是一個特征選擇的問題,我們把全人類的指紋都統計一下,看看哪幾個位置能夠最好的區分不同的人。顯然不同的位置效果很不一樣,在有的位置上,我的指紋是是什么形狀,其他人也大都是這個形狀,這個位置就不具有區分度,或者說不具有表征性,或者說,對分類問題來說,它的重要程度低。這樣的位置我們就傾向于在識別的時候根本不看它,不考慮它。

那怎么看誰重要誰不重要呢?這就依賴于具體的選擇方法如何來量化重要程度,對卡方檢驗和信息增益這類方法來說,量化以后的得分越大的特征就越重要(也就是說,有可能有些方法,是得分越小的越重要)。

比如說你看10個位置,他們的重要程度分別是:

?? 1?2?? 3?? 4?? 5?6?? 7?8?9 ?10

(20,5,10,20,30,15,4,3,7,?3)

顯然第1,第3,4,5,6個位置比其他位置更重要,而相對的,第1個位置又比第3個位置更重要。

識別時,我們只在那些重要的位置上采樣。當今的指紋識別系統,大都只用到人指紋的5個位置(驚訝么?只要5個位置的信息就可以區分60億人),這5個位置就是經過特征選擇過程而得以保留的系統特征集合。假設這個就是剛才的例子,那么該集合應該是:

(第1個位置,第3個位置,第4個位置,第5個位置,第6個位置)

當然,具體的第3個位置是指紋中的哪個位置你自己總得清楚。

確定了這5個位置之后,就可以把一個人的指紋映射到這個只有5個維度的空間中,我們就把他在5個位置上的幾何形狀分別轉換成一個具體的值,這就是特征權重的計算。依據什么來轉換,就是你選擇的特征權重量化方法,在文本分類中,最常用的就是TFIDF。

我想一定是“權重“這個詞誤導了所有人,讓大家以為TFIDF計算出的值代表的是特征的重要程度,其實完全不是。例如我們有一位男同學,他的指紋向量是:

(10,3,4,20,5)

你注意到他第1個位置的得分(10)比第2個位置的得分(3)高,那么能說第1個位置比第2個位置重要么?如果再有一位女同學,她的指紋向量是:

(10,20,4,20,5)

看看,第1個位置得分(10)又比第4個位置(20)低了,那這兩個位置到底哪個更重要呢?答案是第1個位置更重要,但這不是在特征權重計算這一步體現出來的,而是在我們特征選擇的時候就確定了,第1個位置比第3個位置更重要。

因此要記住,通過TFIDF計算一個特征的權重時,該權重體現出的根本不是特征的重要程度!

那它代表什么?再看看兩位同學的指紋,放到一起:

(10,?3,4,20,5)

(10,20,4,20,5)

在第4個位置上女同學的權重高于男同學,這不代表該女同學在指紋的這個位置上更“優秀“(畢竟,指紋還有什么優秀不優秀的分別么,笑),也不代表她的這個位置比男同學的這個位置更重要,3和20這兩個得分,僅僅代表他們的”不同“。

在文本分類中也是如此,比如我們的系統特征集合只有兩個詞:

(經濟,發展)

這兩個詞是使用卡方檢驗(特征選擇)選出來的,有一篇文章的向量形式是

(2,5)

另一篇

(3,4)

這兩個向量形式就是用TFIDF算出來的,很容易看出兩篇文章不是同一篇,為什么?因為他們的特征權重根本不一樣,所以說權重代表的是差別,而不是優劣。想想你說“經濟這個詞在第二篇文章中得分高,因此它在第二篇文章中比在第一篇文章中更重要“,這句話代表什么意義呢?你自己都不知道吧(笑)。

所以,當再說起使用TFIDF來計算特征權重時,最好把“權重“這個字眼忘掉,我們就把它說成計算得分好了(甚至”得分“也不太好,因為人總會不自覺的認為,得分高的就更重要),或者就僅僅說成是量化。

如此,你就再也不會拿TFIDF去做特征選擇了。

小Tips:為什么有的論文里確實使用了TFIDF作特征選擇呢?

嚴格說來并不是不可以,而且嚴格說來只要有一種方法能夠從一堆特征中挑出少數的一些,它就可以叫做一種特征選擇方法,就連“隨機選取一部分“都算是一種,而且效果并沒有差到驚人的地步哦!還是可以分對一大半的哦!所以有的人就用TFIDF的得分來把特征排排序,取得分最大的幾個進入系統特征集合,效果也還行(畢竟,連隨機選取效果也都還行。


總結

以上是生活随笔為你收集整理的特征选择与特征权重区别的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。

主站蜘蛛池模板: 国产靠逼视频 | 天天干天天操天天干 | 久久综合资源 | 91日批| 欧美精品四区 | 人人舔 | 中文一二区 | 天堂一区二区三区四区 | 亚洲天堂91 | 黑人巨大猛烈捣出白浆 | 久艹视频在线 | 日日操网站 | 久久一级片 | 久久久久久久一区二区三区 | 青娱乐国产在线 | 成年人视频在线播放 | 亚洲无人区码一码二码三码 | 亚洲+小说+欧美+激情+另类 | 国产香蕉97碰碰碰视频在线观看 | 日韩精品视频播放 | 午夜精品影院 | 免费视频黄色 | 又白又嫩毛又多15p 超碰在线一区 | 欧美一区二区三区久久久 | 理论片第一页 | 不卡av电影在线 | 国产口爆吞精一区二区 | 久久精品国产免费看久久精品 | 特大黑人娇小亚洲女mp4 | 91麻豆影院 | 可以免费看的毛片 | 欧美精品在线一区 | 五月激情站| 精品久久人人妻人人做人人 | 成年人午夜 | 不卡在线一区二区 | 成人在线午夜 | 91新视频| 特级西西人体 | 91视频黄色| 中文字幕一区二区三区四区五区 | 成人伊人 | av毛片在线播放 | 一区二区国产在线 | 成人三级黄色 | 国精品一区 | 一色综合| 91精品国产91久久久久久黑人 | 欧美三级欧美成人高清 | 你懂的在线视频网站 | 男生和女生一起差差差很痛的视频 | 制服诱惑一区二区 | 亚洲高清在线观看视频 | 狠狠狠狠狠狠狠干 | 中文字幕精品一二三四五六七八 | 亚洲高潮 | 国产精品一级二级三级 | 999www| 涩涩999| 亚洲日本色图 | 视频在线观看一区 | 艳妇av| 国产一级性生活 | 超碰日本 | 91视频播放| 国产一级免费观看 | 蜜桃视频一区二区三区 | 女人和拘做爰正片视频 | 免费人成视频在线 | 理论片一级 | 亚洲人 女学生 打屁股 得到 | 亚洲4区| 久久精品日韩无码 | wwwxxx黄色| 456亚洲影视 | 纯爱无遮挡h肉动漫在线播放 | 亚洲视频精品在线 | 日本黄色大片网站 | 欧美福利网址 | 亚洲精品一区 | 亚州激情 | 少妇又色又紧又大爽又刺激 | 日韩新片王网 | 中文字幕一区二区人妻电影 | 粗了大了 整进去好爽视频 日本女优中文字幕 | 狠狠操天天干 | 日韩免费黄色 | 四季av综合网站 | 好色视频tv | av免费资源 | 男女羞羞动态图 | 久久久久久黄色 | 驯服少爷漫画免费观看下拉式漫画 | 欧美三级视频在线播放 | 欧美自拍偷拍第一页 | 午夜羞羞影院 | 中文字幕1 | a∨鲁丝一区鲁丝二区鲁丝三区 | 热热av |