日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

数据挖掘中的概念描述

發(fā)布時(shí)間:2024/4/13 编程问答 37 豆豆
生活随笔 收集整理的這篇文章主要介紹了 数据挖掘中的概念描述 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.
數(shù)據(jù)挖掘一般可分為描述型數(shù)據(jù)挖掘和預(yù)測(cè)型數(shù)據(jù)挖掘,概念描述講的就是描述型數(shù)據(jù)挖掘。

一、概念描述基本知識(shí)

1.1 兩種類(lèi)型的數(shù)據(jù)挖掘

從數(shù)據(jù)分析角度出發(fā),數(shù)據(jù)挖掘可分為兩種類(lèi)型:

  • 描述型數(shù)據(jù)挖掘:以簡(jiǎn)潔概要方式描述數(shù)據(jù)
  • 預(yù)測(cè)型數(shù)據(jù)挖掘:預(yù)測(cè)性數(shù)據(jù)挖掘則是通過(guò)對(duì)所提供數(shù)據(jù)集應(yīng)用特定方法分析所獲得的一個(gè)或一組數(shù)據(jù)模型,并將該模型用于預(yù)測(cè)未來(lái)新數(shù)據(jù)的有關(guān)性質(zhì)。

1.2 概念描述

描述型數(shù)據(jù)挖掘又稱(chēng)為概念描述,概念描述是數(shù)據(jù)挖掘的一個(gè)重要部分。描述型數(shù)據(jù)挖掘最簡(jiǎn)單的類(lèi)型就是概念描述。概念描述描述的是數(shù)據(jù)的特征和比較描述:

  • 特征描述:給定數(shù)據(jù)集的簡(jiǎn)潔匯總
  • 比較描述:多用于兩個(gè)或多個(gè)數(shù)據(jù)集

數(shù)據(jù)泛化也是一種概念描述,這類(lèi)似于數(shù)據(jù)倉(cāng)庫(kù)中的OLAP,但兩者之間也是有區(qū)別的:

  • 復(fù)雜的數(shù)據(jù)類(lèi)型和聚集:概念描述可以處理更加復(fù)雜的數(shù)據(jù)類(lèi)型屬性和他們的聚集
  • 用戶(hù)控制和自動(dòng)處理:OLAP多是用戶(hù)的控制和操作,而數(shù)據(jù)挖掘中的概念描述更努力成為自動(dòng)化的過(guò)程,具備自動(dòng)知識(shí)發(fā)現(xiàn)的能力,要遠(yuǎn)遠(yuǎn)復(fù)雜的多

二、特征描述

數(shù)據(jù)泛化也是一種特征描述。數(shù)據(jù)泛化的概念:它是一個(gè)過(guò)程,它將龐大、任務(wù)相關(guān)的數(shù)據(jù)集從較低的概念層次抽象到較高的概念層次。具體泛化方法有兩類(lèi):

  • 數(shù)據(jù)立方:類(lèi)似OLAP
  • 面向?qū)傩缘臍w納
  • 數(shù)據(jù)泛化是非常有用的,舉個(gè)例子:一個(gè)銷(xiāo)售系統(tǒng)中的數(shù)據(jù)庫(kù)中商品項(xiàng)目可能由諸如itemid,name,brand,price,category,place-made等低層次的屬性構(gòu)成,但銷(xiāo)售和市場(chǎng)經(jīng)理都希望得到在圣誕節(jié)期間大量商品基本信息的匯總描述來(lái)獲得一些信息。

    2.1 面向?qū)傩缘臍w納

    面向?qū)傩詺w納的基本思想是:首先使用關(guān)系數(shù)據(jù)庫(kù)查詢(xún)收集任務(wù)相關(guān)數(shù)據(jù),然后通過(guò)觀察任務(wù)相關(guān)數(shù)據(jù)中每個(gè)屬性的不同值的個(gè)數(shù)進(jìn)行泛化。泛化可以通過(guò)屬性刪除,或者通過(guò)屬性泛化進(jìn)行。

    2.1.1 收集任務(wù)相關(guān)數(shù)據(jù)

    通過(guò)數(shù)據(jù)挖掘查詢(xún)或者關(guān)系查詢(xún)獲取相關(guān)數(shù)據(jù),假設(shè)我們有如下關(guān)系查詢(xún)語(yǔ)句:

    use Big_university_DB select name,gender,major,birth_place,birth_date,residence,phone,gpa from student where status in {"M.Sc","M.A","M.B.A","Ph.D"}

    把詞語(yǔ)在關(guān)系數(shù)據(jù)庫(kù)中執(zhí)行,返回如下表所示數(shù)據(jù)。該表一般被稱(chēng)作初始工作表,是要進(jìn)行歸納的數(shù)據(jù)。

    namegendermajorbirth_placebirth_dateredidencephonegpa
    JimMCSVancouver,BC,Canada76-12-83511,Main St,Richmand687-45983.67
    ScottMCSMontreal,Que,Canada75-7-28345,IstSt,Vancouver253-91063.70
    LeeFPhysicsSeattle,WA,USA70-8-25231,Austin,Burnaby420-52323.83

    數(shù)據(jù)已經(jīng)準(zhǔn)備好,下面就開(kāi)始進(jìn)行屬性歸納,面向?qū)傩詺w納的基本操作是數(shù)據(jù)泛化,它有兩種方法:屬性刪除

    2.1.2 屬性刪除

    顧名思義,屬性刪除就是刪除我們不需要的數(shù)據(jù)。我們基于如下規(guī)則盤(pán)點(diǎn)是否采用屬性刪除方法:如果初始工作表中某個(gè)屬性有大量不同的值,(1)但是在此屬性上沒(méi)有泛化操作符;或者(2)它的較高層概念可以用其它屬性表示,該屬性應(yīng)當(dāng)從工作關(guān)系表中刪除。

    舉個(gè)例子,對(duì)于情況1,因?yàn)樗鼪](méi)有泛化操作符,就意味著它不能被泛化,保留它則與產(chǎn)生簡(jiǎn)潔的描述規(guī)則相矛盾,比如初始工作表中的姓名字段。對(duì)于情況2,比如屬性street可以被較高的屬性city表示,所以刪除city屬性。

    2.1.3 屬性泛化

    屬性泛化基于如下規(guī)則:如果初始工作表中某個(gè)屬性有大量不同的值,并且該屬性上存在泛化操作符,則應(yīng)當(dāng)選擇該泛化操作符,并將它用于該屬性。

    2.1.4 屬性泛化控制

    屬性刪除和屬性泛化兩個(gè)規(guī)則都表明,如果某個(gè)屬性存在大量的不同取值,就應(yīng)當(dāng)進(jìn)一步泛化,那多大才算是大?這個(gè)控制過(guò)程我們就稱(chēng)作屬性泛化控制。有一些方法可以控制泛化的過(guò)程,下面介紹兩種常用的方法:

  • 屬性泛化閾值控制,對(duì)所有屬性設(shè)置一個(gè)泛化閾值,或?qū)γ總€(gè)屬性設(shè)置一個(gè)泛化閾值,如果屬性不同值個(gè)數(shù)大于這個(gè)閾值,就應(yīng)當(dāng)進(jìn)一步進(jìn)行屬性刪除或泛化。
  • 泛化關(guān)系閾值控制,如果泛化關(guān)系中不同元組的個(gè)數(shù)超過(guò)該閾值,則應(yīng)當(dāng)進(jìn)一步泛化。
  • 2.1.5 面向?qū)傩詺w納實(shí)例

    現(xiàn)在,我們就對(duì)上面的初始工作表中的每個(gè)屬性進(jìn)行泛化,泛化過(guò)程如下:

  • name:由于name存在大量不同的值,并且沒(méi)有泛化操作符,刪除之。
  • gender:只有兩個(gè)不同值,保留,無(wú)需泛化。
  • major:假設(shè)major數(shù)量有20,屬性泛化閾值為5,并且已定義了一個(gè)向上攀升的概念分層{arts,engineering,business},則對(duì)major進(jìn)行泛化。
  • birth_place:有大量不同取值,應(yīng)當(dāng)泛化。可以將birth_place屬性刪除,泛化到birth_country。
  • birth_date:泛化到age。
  • resident:可以泛化到resident_country,像是的概念層次的number,street可以刪除。
  • phone:從泛化中刪除。
  • gpa:存在概念分層,可以泛化到{excellent,very good,…}
    所泛化過(guò)程將產(chǎn)生相等元組的組。例如,初始工作表中前兩個(gè)元組被泛化成相同的元組(即第一個(gè)元組),這些相同的元組被合并成一個(gè),同時(shí)累計(jì)它們的計(jì)數(shù)值,這一過(guò)程最終得到如下泛化關(guān)系表:
  • gendermajorbirth_countryage_rangeredidence_citygpacount
    MScienceCanada20Richmonverygood1
    MScienceCanada20Vancouveverygood2
    FengineerUSA25Burnabyexcellent2

    2.2 數(shù)據(jù)泛化的導(dǎo)出表示

    • 二維表
    • 3d交叉表
    • 條形圖、餅形圖
    • 數(shù)據(jù)方

    三、解析特征:屬性相關(guān)性分析

    有時(shí)候我們很難確定哪些屬性應(yīng)當(dāng)納入類(lèi)特征或類(lèi)比較中,我們可以借助某些屬性相關(guān)分析方法來(lái)識(shí)別不相關(guān)或者弱相關(guān)屬性。

    3.1 為什么要進(jìn)行屬性分析

    我們已經(jīng)在上面介紹過(guò),數(shù)據(jù)倉(cāng)庫(kù)和OLAP工具有兩個(gè)局限性:處理復(fù)雜對(duì)象和泛化過(guò)程難以自動(dòng)化。

    對(duì)用戶(hù)來(lái)說(shuō),確定哪些維應(yīng)當(dāng)納入到類(lèi)特征分析中并不是一件很容易的事,數(shù)據(jù)關(guān)系通常有很多屬性(多的有成百上千個(gè)),對(duì)于有效的數(shù)據(jù)挖掘,應(yīng)當(dāng)選擇哪些屬性或維,用戶(hù)所知甚少。另一方面,用戶(hù)也可能包含了太多的分析屬性。

    所以我們應(yīng)當(dāng)引進(jìn)一些方法進(jìn)行屬性相關(guān)性分析,以過(guò)濾統(tǒng)計(jì)不相關(guān)或弱相關(guān)屬性,保留對(duì)手頭挖掘任務(wù)最相關(guān)的屬性。包含屬性/維相關(guān)性分析的類(lèi)特征成為解析特征,包含這種分析的類(lèi)比較成為解析比較

    3.2 屬性相關(guān)分析的方法

    關(guān)于屬性相關(guān)分析,在機(jī)器學(xué)習(xí)、統(tǒng)計(jì)、模糊和粗糙集理論等方面都有很多研究。屬性相關(guān)分析基本思想是計(jì)算某種度量,用于量化屬性與給定類(lèi)或概念的相關(guān)性。這種度量包括信息增益、Gini索引、不確定性相關(guān)系數(shù)

    總結(jié)

    以上是生活随笔為你收集整理的数据挖掘中的概念描述的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

    如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。