数据挖掘基本任务
數(shù)據(jù)挖掘基本任務(wù)
數(shù)據(jù)挖掘主要做什么?換而言之,數(shù)據(jù)挖掘主要解決什么問題呢?這些問題,可以歸結(jié)為數(shù)據(jù)挖掘的基本任務(wù)。
數(shù)據(jù)挖掘的基本任務(wù)包括分類與預(yù)測(cè)、聚類分析、關(guān)聯(lián)規(guī)則、奇異值檢測(cè)和智能推薦等。通過完成這些任務(wù),發(fā)現(xiàn)數(shù)據(jù)的價(jià)值,指導(dǎo)商業(yè)抉擇,帶來商業(yè)新價(jià)值。
關(guān)于這些基本任務(wù),簡(jiǎn)單描述如下。實(shí)際上對(duì)每個(gè)基本任務(wù),可以看做是數(shù)據(jù)挖掘所能解決問題的一種類型。對(duì)于每個(gè)任務(wù),可以從其定義、方法、評(píng)價(jià)和應(yīng)用四個(gè)方面來認(rèn)識(shí)。
分類與預(yù)測(cè),一種基于類標(biāo)號(hào)的學(xué)習(xí)方式,這種類標(biāo)號(hào)若是離散的,屬于分類問題;若是連續(xù)的,屬于預(yù)測(cè)問題,或者稱為回歸問題。從廣義上來說,不管是分類,還是回歸,都可以看做是一種預(yù)測(cè),差異就是預(yù)測(cè)的結(jié)果是離散的還是連續(xù)的。
聚類分析,就是“物以類聚,人以群分”在原始數(shù)據(jù)集中的運(yùn)用,其目的是把原始數(shù)據(jù)聚成幾類,從而使得類內(nèi)相似度高,類間差異性大。
關(guān)聯(lián)規(guī)則,數(shù)據(jù)挖掘可以用來發(fā)現(xiàn)規(guī)則,關(guān)聯(lián)規(guī)則屬于一種非常重要的規(guī)則,即通過數(shù)據(jù)挖掘方法,發(fā)現(xiàn)事務(wù)數(shù)據(jù)背后所隱含的某一種或者多種關(guān)聯(lián),從而利用這些關(guān)聯(lián)來指導(dǎo)商業(yè)決策和行為。
奇異值檢測(cè),根據(jù)一定準(zhǔn)則識(shí)別或者檢測(cè)出數(shù)據(jù)集中的異常值,所謂異常值就是和數(shù)據(jù)集中的絕大多數(shù)據(jù)表現(xiàn)不一致。
智能推薦,這是數(shù)據(jù)挖掘一個(gè)很活躍的研究和應(yīng)用領(lǐng)域,在各大電商網(wǎng)站中都會(huì)有各種形式推薦,比方說同類用戶所購(gòu)買的產(chǎn)品,與你所購(gòu)買產(chǎn)品相關(guān)聯(lián)的產(chǎn)品等。
對(duì)于每一種基本任務(wù),除了了解它們具體可以做什么,重要的是要學(xué)習(xí)每一個(gè)任務(wù)有哪些行之有效的方法。舉個(gè)例子來說,分類與預(yù)測(cè),常用的方法有決策樹、神經(jīng)網(wǎng)絡(luò)、最近鄰、樸素貝葉斯、支持向量機(jī)、隨機(jī)森林等,因而對(duì)于這些典型的方法具體原理是什么,怎么使用,各自有著什么樣的特點(diǎn),都應(yīng)該深入地理解,接下來就是針對(duì)特定數(shù)據(jù)挖掘問題,思考其屬于哪一種類型的任務(wù),然后根據(jù)任務(wù)的具體特點(diǎn),選擇合適的方法來處理,并且對(duì)基于各種方法所建立的數(shù)據(jù)挖掘模型,要進(jìn)行客觀地評(píng)估,已選擇最佳模型。
對(duì)于每一個(gè)基本任務(wù)具體有哪些方法,我會(huì)在后續(xù)進(jìn)行總結(jié)。在這里,僅是說說數(shù)據(jù)挖掘主要解決什么問題,至于對(duì)于這些問題具體怎么來解決,針對(duì)每一種類型,會(huì)在后續(xù)的文章中逐一說來。
轉(zhuǎn)載于:https://www.cnblogs.com/amengduo/p/9587093.html
總結(jié)
- 上一篇: 一辆沃尔沃要多少钱
- 下一篇: 第4次作业类测试代码+043+杨晨宇