日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

学习总结之数据挖掘三大类六分项

發(fā)布時(shí)間:2023/12/4 编程问答 28 豆豆
生活随笔 收集整理的這篇文章主要介紹了 学习总结之数据挖掘三大类六分项 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

Data Mining可分為三大類六分項(xiàng)來說明:

ClassificationClustering屬于分類區(qū)隔類;

RegressionTime-series屬于推算預(yù)測(cè)類;

AssociationSequence則屬于序列規(guī)則類。

?

Classification是根據(jù)一些變量的數(shù)值做計(jì)算,再依照結(jié)果作分類。(計(jì)算的結(jié)果最后會(huì)被分類為幾個(gè)少數(shù)的離散數(shù)值,例如將一組數(shù)據(jù)分為?"可能會(huì)響應(yīng)"?或是?"可能不會(huì)響應(yīng)"?兩類)。Classification常被用來處理如前所述之郵寄對(duì)象篩選的問題。我們會(huì)用一些根據(jù)歷史經(jīng)驗(yàn)已經(jīng)分類好的數(shù)據(jù)來研究它們的特征,然后再根據(jù)這些特征對(duì)其他未經(jīng)分類或是新的數(shù)據(jù)做預(yù)測(cè)。這些我們用來尋找特征的已分類數(shù)據(jù)可能是來自我們的現(xiàn)有的客戶數(shù)據(jù),或是將一個(gè)完整數(shù)據(jù)庫做部份取樣,再經(jīng)由實(shí)際的運(yùn)作來測(cè)試;譬如利用一個(gè)大型郵寄對(duì)象數(shù)據(jù)庫的部份取樣來建立一個(gè)Classification Model,再利用這個(gè)Model來對(duì)數(shù)據(jù)庫的其它數(shù)據(jù)或是新的數(shù)據(jù)作分類預(yù)測(cè)。

?

Clustering用在將數(shù)據(jù)分群,其目的在于將群間的差異找出來,同時(shí)也將群內(nèi)成員的相似性找出來。ClusteringClassification不同的是,在分析前并不知道會(huì)以何種方式或根據(jù)來分類。所以必須要配合專業(yè)領(lǐng)域知識(shí)來解讀這些分群的意義。?  

?

Regression是使用一系列的現(xiàn)有數(shù)值來預(yù)測(cè)一個(gè)連續(xù)數(shù)值的可能值。若將范圍擴(kuò)大亦可利用Logistic Regression來預(yù)測(cè)類別變量,特別在廣泛運(yùn)用現(xiàn)代分析技術(shù)如類神經(jīng)網(wǎng)絡(luò)或決策樹理論等分析工具,推估預(yù)測(cè)的模式已不在止于傳統(tǒng)線性的局限,在預(yù)測(cè)的功能上大大增加了選擇工具的彈性與應(yīng)用范圍的廣度。

?

Time-Series ForecastingRegression功能類似,只是它是用現(xiàn)有的數(shù)值來預(yù)測(cè)未來的數(shù)值。兩者最大差異在于Time-Series所分析的數(shù)值都與時(shí)間有關(guān)。Time-Series Forecasting的工具可以處理有關(guān)時(shí)間的一些特性,譬如時(shí)間的周期性、階層性、季節(jié)性以及其它的一些特別因素(如過去與未來的關(guān)連性)。

?

Association是要找出在某一事件或是數(shù)據(jù)中會(huì)同時(shí)出現(xiàn)的東西。舉例而言,如果A是某一事件的一種選擇,則B也出現(xiàn)在該事件中的機(jī)率有多少。(例如:如果顧客買了火腿和柳橙汁,那么這個(gè)顧客同時(shí)也會(huì)買牛奶的機(jī)率是85%。)

?

Sequence DiscoveryAssociation關(guān)系很密切,所不同的是Sequence Discovery中事件的相關(guān)是以時(shí)間因素來作區(qū)隔(例如:如果A股票在某一天上漲12%,而且當(dāng)天股市加權(quán)指數(shù)下降,則B股票在兩天之內(nèi)上漲的機(jī)率是?68%)。

?

Data Mining在各領(lǐng)域的應(yīng)用非常廣泛,只要該產(chǎn)業(yè)擁有具分析價(jià)值與需求的數(shù)據(jù)倉儲(chǔ)或數(shù)據(jù)庫,皆可利用Mining工具進(jìn)行有目的的挖掘分析。一般較常見的應(yīng)用案例多發(fā)生在零售業(yè)、直效行銷界、制造業(yè)、財(cái)務(wù)金融保險(xiǎn)、通訊業(yè)以及醫(yī)療服務(wù)等。

于銷售數(shù)據(jù)中發(fā)掘顧客的消費(fèi)習(xí)性,并可藉由交易紀(jì)錄找出顧客偏好的產(chǎn)品組合,其它包括找出流失顧客的特征與推出新產(chǎn)品的時(shí)機(jī)點(diǎn)等等都是零售業(yè)常見的實(shí)例;直效行銷強(qiáng)調(diào)的分眾概念與數(shù)據(jù)庫行銷方式在導(dǎo)入Data Mining的技術(shù)后,使直效行銷的發(fā)展性更為強(qiáng)大,例如利用Data Mining分析顧客群之消費(fèi)行為與交易紀(jì)錄,結(jié)合基本數(shù)據(jù),并依其對(duì)品牌價(jià)值等級(jí)的高低來區(qū)隔顧客,進(jìn)而達(dá)到差異化行銷的目的;制造業(yè)對(duì)Data Mining的需求多運(yùn)用在品質(zhì)控管方面,由制造過程中找出影響產(chǎn)品品質(zhì)最重要的因素,以期提高作業(yè)流程的效率。

近來電話公司、信用卡公司、保險(xiǎn)公司以及股票交易商對(duì)于詐欺行為的偵測(cè)(Fraud Detection)都很有興趣,這些行業(yè)每年因?yàn)樵p欺行為而造成的損失都非常可觀,Data Mining可以從一些信用不良的客戶數(shù)據(jù)中找出相似特征并預(yù)測(cè)可能的詐欺交易,達(dá)到減少損失的目的。財(cái)務(wù)金融業(yè)可以利用Data Mining來分析市場(chǎng)動(dòng)向,并預(yù)測(cè)個(gè)別公司的營運(yùn)以及股價(jià)走向。Data Mining的另一個(gè)獨(dú)特的用法是在醫(yī)療業(yè),用來預(yù)測(cè)手術(shù)、用藥、診斷、或是流程控制的效率。

?

一般而言,Data Mining的理論技術(shù)可分為傳統(tǒng)技術(shù)與改良技術(shù)兩支。傳統(tǒng)技術(shù)以統(tǒng)計(jì)分析為代表,統(tǒng)計(jì)學(xué)內(nèi)所含序列統(tǒng)計(jì)、概率論、回歸分析、類別數(shù)據(jù)分析等都屬于傳統(tǒng)數(shù)據(jù)挖掘技術(shù),尤其Data Mining?對(duì)象多為變量繁多且樣本數(shù)龐大的數(shù)據(jù),是以高等統(tǒng)計(jì)學(xué)里所含括之多變量分析中用來精簡(jiǎn)變量的因素分析(Factor Analysis用來分類的判別分析(Discriminant Analysis,以及用來區(qū)隔群體的分群分析(Cluster Analysis等,在Data Mining過程中特別常用。

?

在改良技術(shù)方面,應(yīng)用較普遍的有決策樹理論(Decision Trees)、類神經(jīng)網(wǎng)絡(luò)(Neural Network)以及規(guī)則歸納法(Rules Induction等。決策樹是一種用樹枝狀展現(xiàn)數(shù)據(jù)受各變量的影響情形之預(yù)測(cè)模型,根據(jù)對(duì)目標(biāo)變量產(chǎn)生之效應(yīng)的不同而建構(gòu)分類的規(guī)則,一般多運(yùn)用在對(duì)客戶數(shù)據(jù)的分析上,例如針對(duì)有回函與未回含的郵寄對(duì)象找出影響其分類結(jié)果的變量組合,常用分類方法為CARTClassification and Regression Trees)及CHAIDChi-Square Automatic Interaction Detector)兩種?類神經(jīng)網(wǎng)絡(luò)是一種仿真人腦思考結(jié)構(gòu)的數(shù)據(jù)分析模式,由輸入之變量與數(shù)值中自我學(xué)習(xí)并根據(jù)學(xué)習(xí)經(jīng)驗(yàn)所得之知識(shí)不斷調(diào)整參數(shù)以期建構(gòu)數(shù)據(jù)的型樣(patterns)類神經(jīng)網(wǎng)絡(luò)為非線性的設(shè)計(jì),與傳統(tǒng)回歸分析相比,好處是在進(jìn)行分析時(shí)無須限定模式,特別當(dāng)數(shù)據(jù)變量間存有交互效應(yīng)時(shí)可自動(dòng)偵測(cè)出;缺點(diǎn)則在于其分析過程為一黑盒子,故常無法以可讀之模型格式展現(xiàn),每階段的加權(quán)與轉(zhuǎn)換亦不明確,是故類神經(jīng)網(wǎng)絡(luò)多利用于數(shù)據(jù)屬于高度非線性且?guī)в邢喈?dāng)程度的變量交感效應(yīng)時(shí)?  

?

規(guī)則歸納法是知識(shí)發(fā)掘的領(lǐng)域中最常用的格式,這是一種由一連串的「如果…/則…(If / Then)」之邏輯規(guī)則對(duì)數(shù)據(jù)進(jìn)行細(xì)分的技術(shù),在實(shí)際運(yùn)用時(shí)如何界定規(guī)則為有效是最大的問題,通常需先將數(shù)據(jù)中發(fā)生數(shù)太少的項(xiàng)目先剔除,以避免產(chǎn)生無意義的邏輯規(guī)則。

總結(jié)

以上是生活随笔為你收集整理的学习总结之数据挖掘三大类六分项的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。

主站蜘蛛池模板: 美女黄页网站 | 超级乱淫视频 | 色吧在线观看 | 日本一级黄色 | 九九综合九九 | 中文字幕一区视频 | 国产一区二区免费电影 | 青青草在线播放 | 久操伊人 | 日韩视频 中文字幕 | 一区二区视频在线看 | 黄色国产毛片 | 人妖av在线 | 中文字幕乱码一区二区 | 黄色免费视频观看 | 男插女视频在线观看 | 草草屁屁影院 | www男人天堂| 国产原创一区 | 一区二区三区在线观看视频 | 青青草视频偷拍 | 国产精品午夜电影 | 国产系列在线 | 亚洲欧美日韩天堂 | 特黄aaaaaa私密按摩 | 农村寡妇一区二区三区 | 狂野欧美性猛交免费视频 | 在线播放无码后入内射少妇 | 日韩欧洲亚洲 | 波多野结衣丝袜 | 成年人视频在线免费观看 | 亚洲成人不卡 | 熟妇人妻一区二区三区四区 | 他揉捏她两乳不停呻吟动态图 | 女性裸体下面张开 | 欧美日韩电影一区 | 91日日| 国产精品久久久久久久天堂 | 潘金莲一级淫片aaaaaaa | 天天干天天舔 | 91一区二区三区四区 | 日韩视频免费 | 一本色道久久综合亚洲精品按摩 | av一区二区在线观看 | 麻豆成人免费 | av网子 | 丰满少妇影院 | 国产香蕉一区二区三区 | 欧美一区亚洲一区 | 99精品视频免费看 | 亚洲国产精品视频一区 | 色婷婷婷婷色 | 毛片看看| wwwwww色| 精品国产成人亚洲午夜福利 | 风韵少妇性饥渴推油按摩视频 | 成年人观看视频 | 一区二区欧美日韩 | 中文字幕在线日本 | 色姑娘久 | 中文字幕在线播放一区 | 69xxx国产 | 久射网| 黄色精品视频 | 国产成人亚洲欧洲在线 | 国产三级国产精品国产专区50 | 中文字幕在线观看av | 久久毛片 | 欧美激情999 | 国产主播av | 草草视频网站 | 日本黄色成人 | 最新啪啪网站 | 中文字幕无码日韩专区免费 | av天堂一区| 欧美www | 红桃成人在线 | 欧美风情第一页 | 综合久久色 | 欧美视频网址 | 久久中文精品 | 一本色道久久综合亚洲 | 最近中文字幕在线 | 欲求不满在线小早川怜子 | 黄色一级影片 | 黄色激情视频网站 | 青青草毛片 | xxxx在线播放 | 国产视频一区在线 | 黄瓜视频污在线观看 | 天天艹天天操 | 日韩高清av在线 | 日本欧美韩国国产精品 | 丝袜五月天| 麻豆tube| 免费欧美一级视频 | 欧美特级黄色录像 | 在线免费观看av片 | 中文av一区二区三区 |