日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

SAS数据挖掘方法论 ─ SEMMA

發布時間:2024/1/17 编程问答 36 豆豆
生活随笔 收集整理的這篇文章主要介紹了 SAS数据挖掘方法论 ─ SEMMA 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
Sample? ─數據取樣

Explore ─數據特征探索、分析和予處理

Modify? ─問題明確化、數據調整和技術選擇

Model?? ─模型的研發、知識的發現

Assess? ─模型和知識的綜合解釋和評價?

?

Sample──數據取樣

??? 當進行數據挖掘時,首先要從企業大量數據中取出一個與你要探索問題相關的樣板數據子集,而不是動用全部企業數據。這就象在對開采出來礦石首先要進行選礦一樣。通過數據樣本的精選,不僅能減少數據處理量,節省系統資源,而且能通過數據的篩選,使你想要它反映的規律性更加凸現出來。

通過數據取樣,要把好數據的質量關。在任何時候都不要忽視數據的質量,即使你是從一個數據倉庫中進行數據取樣,也不要忘記檢查其質量如何。因為通過數據挖掘是要探索企業運作的規律性的,原始數據有誤,還談什么從中探索規律性。若你真的從中還探索出來了什么“規律性”,再依此去指導工作,則很可能是在進行誤導。若你是從正在運行著的系統中進行數據取樣,則更要注意數據的完整性和有效性。再次提醒你在任何時候都不要忽視數據的質量,慎之又慎!

從巨大的企業數據母體中取出哪些數據作為樣本數據呢?這要依你所要達到的目標來區分采用不同的辦法:如果你是要進行過程的觀察、控制,這時你可進行隨機取樣,然后根據樣本數據對企業或其中某個過程的狀況作出估計。SAS不僅支持這一取樣過程,而且可對所取出的樣本數據進行各種例行的檢驗。若你想通過數據挖掘得出企業或其某個過程的全面規律性時,必須獲得在足夠廣泛范圍變化的數據,以使其有代表性。你還應當從實驗設計的要求來考察所取樣數據的代表性。唯此,才能通過此后的分析研究得出反映本質規律性的結果。利用它支持你進行決策才是真正有效的,并能使企業進一步獲得技術、經濟效益。

?

Explore──數據特征探索、分析和予處理

前面所敘述的數據取樣,多少是帶著人們對如何達到數據挖掘目的的先驗的認識進行操作的。當我們拿到了一個樣本數據集后,它是否達到我們原來設想的要求;其中有沒有什么明顯的規律和趨勢;有沒有出現你所從未設想過的數據狀態;因素之間有什么相關性;它們可區分成怎樣一些類別……這都是要首先探索的內容。

進行數據特征的探索、分析,最好是能進行可視化的操作。SAS有:SAS/INSIGHT和SAS/SPECTRAVIEW兩個產品給你提供了可視化數據操作的最強有力的工具、方法和圖形。它們不僅能做各種不同類型統計分析顯示,而且可做多維、動態、甚至旋轉的顯示。

這里的數據探索,就是我們通常所進行的深入調查的過程。你最終要達到的目的可能是要搞清多因素相互影響的,十分復雜的關系。但是,這種復雜的關系不可能一下子建立起來。一開始,可以先觀察眾多因素之間的相關性;再按其相關的程度,以了解它們之間相互作用的情況。這些探索、分析,并沒有一成不變操作規律性;相反,是要有耐心的反復的試探,仔細的觀察。在此過程中,你原來的專業技術知識是非常有用的,它會幫助你進行有效的觀察。但是,你也要注意,不要讓你的專業知識束縛了你對數據特征觀察的敏銳性。可能實際存在著你的先驗知識認為不存在的關系。假如你的數據是真實可靠的話,那末你絕對不要輕易地否定數據呈現給你的新關系。很可能這里就是發現的新知識!有了它,也許會導引你在此后的分析中,得出比你原有的認識更加符合實際的規律性知識。假如在你的操作中出現了這種情況,應當說,你的數據挖掘已挖到了有效的礦脈。

在這里要提醒你的是要有耐心,做幾種分析,就發現重大成果是不大可能的。所幸的是SAS向你提供了強有力的工具,它可跟隨你的思維,可視化、快速的作出反應。免除了數學的復雜運算過程和編制結果展現程序的煩惱和對你思維的干擾。這就使你數據分析過程集聚于你業務領域的問題,并使你的思維保持了一個集中的較高級的活動狀態,從而加速了你的思維過程,提高了你的思維能力。

?

Modify──問題明確化、數據調整和技術選擇

通過上述兩個步驟的操作,你對數據的狀態和趨勢可能有了進一步的了解。對你原來要解決的問題可能會有了進一步的明確;這時要盡可能對問題解決的要求能進一步的量化。問題越明確,越能進一步量化,問題就向它的解決更前進了一步。這是十分重要的。因為原來的問題很可能是諸如質量不好、生產率低等模糊的問題,沒有問題的進一步明確,你簡直就無法進行有效的數據挖掘操作。

在問題進一步明確化的基礎上,你就可以按照問題的具體要求來審視你的數據集了,看它是否適應你的問題的需要。Gartner group在評論當前一些數據挖掘產品時特別強調指出:在數據挖掘的各個階段中,數據挖掘的產品都要使所使用的數據和所將建立模型處于十分易于調整、修改和變動的狀態,這才能保證數據挖掘有效的進行。

針對問題的需要可能要對數據進行增刪;也可能按照你對整個數據挖掘過程的新認識,要組合或者生成一些新的變量,以體現對狀態的有效的描述。SAS對數據強有力的存取、管理和操作的能力保證了對數據的調整、修改和變動的可能性。若使用了SAS的數據倉庫產品技術時就更進一步保證了有效、方便的進行這些操作。

在問題進一步明確;數據結構和內容進一步調整的基礎上,下一步數據挖掘應采用的技術手段就更加清晰、明確了。

?

Model──模型的研發、知識的發現

這一步是數據挖掘工作的核心環節。雖然數據挖掘模型化工作涉及了非常廣闊的技術領域,但對SAS研究所來說并不是一件新鮮事。自從SAS問世以來,就一直是統計模型市場領域的領頭羊,而且年年提供新產品,并以這些產品體現業界技術的最新發展。

按照SAS提出的SEMMA方法論走到這一步時,你對應采用的技術已有了較明確的方向;你的數據結構和內容也有了充分的適應性。SAS在這時也向你提供了充分的可選擇的技術手段:回歸分析方法等廣泛的數理統計方法;關聯分析方法;分類及聚類分析方法;人工神經元網絡;決策樹……等。

在你的數據挖掘中使用哪一種方法,用SAS軟件包中什么方法來實現,這主要取決于你的數據集的特征和你要實現的目標。實際上這種選擇也不一定是唯一的。好在SAS軟件運行效率十分高,你不妨多試幾種方法,從實踐中選出最適合于你的方法。

?

Assess──模型和知識的綜合解釋和評價

從上述過程中將會得出一系列的分析結果、模式或模型。同一個數據源可以利用多種數據分析方法和模型進行分析,ASSESS 的目的之一就是從這些模型中自動找出一個最好的模型出來,另外就是要對模型進行針對業務的解釋和應用。

若能從模型中得出一個直接的結論當然很好。但更多的時候會得出對目標問題多側面的描述。這時就要能很好的綜合它們的影響規律性提供合理的決策支持信息。所謂合理,實際上往往是要你在所付出的代價和達到預期目標的可靠性的平衡上作出選擇。假如在你的數據挖掘過程中,就預見到最后要進行這樣的選擇的話,那末你最好把這些平衡的指標盡可能的量化,以利你綜合抉擇。

你提供的決策支持信息適用性如何,這顯然是十分重要的問題。除了在數據處理過程中SAS軟件提供給你的許多檢驗參數外,評價的辦法之一是直接使用你原來建立模型的樣板數據來進行檢驗。假如這一關就通不過的話,那末你的決策支持信息的價值就不太大了。一般來說,在這一步應得到較好的評價。這說明你確實從這批數據樣本中挖掘出了符合實際的規律性。

另一種辦法是另外找一批數據,已知這些數據是反映客觀實際的規律性的。這次的檢驗效果可能會比前一種差。差多少是要注意的。若是差到你所不能容忍程度,那就要考慮第一次構建的樣本數據是否具有充分的代表性;或是模型本身不夠完善。這時候可能要對前面的工作進行反思了。若這一步也得到了肯定的結果時,那你的數據挖掘應得到很好的評價了。

總結

以上是生活随笔為你收集整理的SAS数据挖掘方法论 ─ SEMMA的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。