数据挖掘中的概念描述
一、概念描述基本知識(shí)
1.1 兩種類(lèi)型的數(shù)據(jù)挖掘
從數(shù)據(jù)分析角度出發(fā),數(shù)據(jù)挖掘可分為兩種類(lèi)型:
- 描述型數(shù)據(jù)挖掘:以簡(jiǎn)潔概要方式描述數(shù)據(jù)
- 預(yù)測(cè)型數(shù)據(jù)挖掘:預(yù)測(cè)性數(shù)據(jù)挖掘則是通過(guò)對(duì)所提供數(shù)據(jù)集應(yīng)用特定方法分析所獲得的一個(gè)或一組數(shù)據(jù)模型,并將該模型用于預(yù)測(cè)未來(lái)新數(shù)據(jù)的有關(guān)性質(zhì)。
1.2 概念描述
描述型數(shù)據(jù)挖掘又稱(chēng)為概念描述,概念描述是數(shù)據(jù)挖掘的一個(gè)重要部分。描述型數(shù)據(jù)挖掘最簡(jiǎn)單的類(lèi)型就是概念描述。概念描述描述的是數(shù)據(jù)的特征和比較描述:
- 特征描述:給定數(shù)據(jù)集的簡(jiǎn)潔匯總
- 比較描述:多用于兩個(gè)或多個(gè)數(shù)據(jù)集
數(shù)據(jù)泛化也是一種概念描述,這類(lèi)似于數(shù)據(jù)倉(cāng)庫(kù)中的OLAP,但兩者之間也是有區(qū)別的:
- 復(fù)雜的數(shù)據(jù)類(lèi)型和聚集:概念描述可以處理更加復(fù)雜的數(shù)據(jù)類(lèi)型屬性和他們的聚集
- 用戶(hù)控制和自動(dòng)處理:OLAP多是用戶(hù)的控制和操作,而數(shù)據(jù)挖掘中的概念描述更努力成為自動(dòng)化的過(guò)程,具備自動(dòng)知識(shí)發(fā)現(xiàn)的能力,要遠(yuǎn)遠(yuǎn)復(fù)雜的多
二、特征描述
數(shù)據(jù)泛化也是一種特征描述。數(shù)據(jù)泛化的概念:它是一個(gè)過(guò)程,它將龐大、任務(wù)相關(guān)的數(shù)據(jù)集從較低的概念層次抽象到較高的概念層次。具體泛化方法有兩類(lèi):
數(shù)據(jù)泛化是非常有用的,舉個(gè)例子:一個(gè)銷(xiāo)售系統(tǒng)中的數(shù)據(jù)庫(kù)中商品項(xiàng)目可能由諸如itemid,name,brand,price,category,place-made等低層次的屬性構(gòu)成,但銷(xiāo)售和市場(chǎng)經(jīng)理都希望得到在圣誕節(jié)期間大量商品基本信息的匯總描述來(lái)獲得一些信息。
2.1 面向?qū)傩缘臍w納
面向?qū)傩詺w納的基本思想是:首先使用關(guān)系數(shù)據(jù)庫(kù)查詢(xún)收集任務(wù)相關(guān)數(shù)據(jù),然后通過(guò)觀察任務(wù)相關(guān)數(shù)據(jù)中每個(gè)屬性的不同值的個(gè)數(shù)進(jìn)行泛化。泛化可以通過(guò)屬性刪除,或者通過(guò)屬性泛化進(jìn)行。
2.1.1 收集任務(wù)相關(guān)數(shù)據(jù)
通過(guò)數(shù)據(jù)挖掘查詢(xún)或者關(guān)系查詢(xún)獲取相關(guān)數(shù)據(jù),假設(shè)我們有如下關(guān)系查詢(xún)語(yǔ)句:
use Big_university_DB select name,gender,major,birth_place,birth_date,residence,phone,gpa from student where status in {"M.Sc","M.A","M.B.A","Ph.D"}把詞語(yǔ)在關(guān)系數(shù)據(jù)庫(kù)中執(zhí)行,返回如下表所示數(shù)據(jù)。該表一般被稱(chēng)作初始工作表,是要進(jìn)行歸納的數(shù)據(jù)。
| Jim | M | CS | Vancouver,BC,Canada | 76-12-8 | 3511,Main St,Richmand | 687-4598 | 3.67 |
| Scott | M | CS | Montreal,Que,Canada | 75-7-28 | 345,IstSt,Vancouver | 253-9106 | 3.70 |
| Lee | F | Physics | Seattle,WA,USA | 70-8-25 | 231,Austin,Burnaby | 420-5232 | 3.83 |
數(shù)據(jù)已經(jīng)準(zhǔn)備好,下面就開(kāi)始進(jìn)行屬性歸納,面向?qū)傩詺w納的基本操作是數(shù)據(jù)泛化,它有兩種方法:屬性刪除
2.1.2 屬性刪除
顧名思義,屬性刪除就是刪除我們不需要的數(shù)據(jù)。我們基于如下規(guī)則盤(pán)點(diǎn)是否采用屬性刪除方法:如果初始工作表中某個(gè)屬性有大量不同的值,(1)但是在此屬性上沒(méi)有泛化操作符;或者(2)它的較高層概念可以用其它屬性表示,該屬性應(yīng)當(dāng)從工作關(guān)系表中刪除。
舉個(gè)例子,對(duì)于情況1,因?yàn)樗鼪](méi)有泛化操作符,就意味著它不能被泛化,保留它則與產(chǎn)生簡(jiǎn)潔的描述規(guī)則相矛盾,比如初始工作表中的姓名字段。對(duì)于情況2,比如屬性street可以被較高的屬性city表示,所以刪除city屬性。
2.1.3 屬性泛化
屬性泛化基于如下規(guī)則:如果初始工作表中某個(gè)屬性有大量不同的值,并且該屬性上存在泛化操作符,則應(yīng)當(dāng)選擇該泛化操作符,并將它用于該屬性。
2.1.4 屬性泛化控制
屬性刪除和屬性泛化兩個(gè)規(guī)則都表明,如果某個(gè)屬性存在大量的不同取值,就應(yīng)當(dāng)進(jìn)一步泛化,那多大才算是大?這個(gè)控制過(guò)程我們就稱(chēng)作屬性泛化控制。有一些方法可以控制泛化的過(guò)程,下面介紹兩種常用的方法:
2.1.5 面向?qū)傩詺w納實(shí)例
現(xiàn)在,我們就對(duì)上面的初始工作表中的每個(gè)屬性進(jìn)行泛化,泛化過(guò)程如下:
所泛化過(guò)程將產(chǎn)生相等元組的組。例如,初始工作表中前兩個(gè)元組被泛化成相同的元組(即第一個(gè)元組),這些相同的元組被合并成一個(gè),同時(shí)累計(jì)它們的計(jì)數(shù)值,這一過(guò)程最終得到如下泛化關(guān)系表:
| M | Science | Canada | 20 | Richmon | verygood | 1 |
| M | Science | Canada | 20 | Vancouve | verygood | 2 |
| F | engineer | USA | 25 | Burnaby | excellent | 2 |
2.2 數(shù)據(jù)泛化的導(dǎo)出表示
- 二維表
- 3d交叉表
- 條形圖、餅形圖
- 數(shù)據(jù)方
三、解析特征:屬性相關(guān)性分析
有時(shí)候我們很難確定哪些屬性應(yīng)當(dāng)納入類(lèi)特征或類(lèi)比較中,我們可以借助某些屬性相關(guān)分析方法來(lái)識(shí)別不相關(guān)或者弱相關(guān)屬性。
3.1 為什么要進(jìn)行屬性分析
我們已經(jīng)在上面介紹過(guò),數(shù)據(jù)倉(cāng)庫(kù)和OLAP工具有兩個(gè)局限性:處理復(fù)雜對(duì)象和泛化過(guò)程難以自動(dòng)化。
對(duì)用戶(hù)來(lái)說(shuō),確定哪些維應(yīng)當(dāng)納入到類(lèi)特征分析中并不是一件很容易的事,數(shù)據(jù)關(guān)系通常有很多屬性(多的有成百上千個(gè)),對(duì)于有效的數(shù)據(jù)挖掘,應(yīng)當(dāng)選擇哪些屬性或維,用戶(hù)所知甚少。另一方面,用戶(hù)也可能包含了太多的分析屬性。
所以我們應(yīng)當(dāng)引進(jìn)一些方法進(jìn)行屬性相關(guān)性分析,以過(guò)濾統(tǒng)計(jì)不相關(guān)或弱相關(guān)屬性,保留對(duì)手頭挖掘任務(wù)最相關(guān)的屬性。包含屬性/維相關(guān)性分析的類(lèi)特征成為解析特征,包含這種分析的類(lèi)比較成為解析比較。
3.2 屬性相關(guān)分析的方法
關(guān)于屬性相關(guān)分析,在機(jī)器學(xué)習(xí)、統(tǒng)計(jì)、模糊和粗糙集理論等方面都有很多研究。屬性相關(guān)分析基本思想是計(jì)算某種度量,用于量化屬性與給定類(lèi)或概念的相關(guān)性。這種度量包括信息增益、Gini索引、不確定性和相關(guān)系數(shù)。
總結(jié)
以上是生活随笔為你收集整理的数据挖掘中的概念描述的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: git clone的源码在vim打开时是
- 下一篇: 使用Xcode 7 beta免费真机调试