“多变量分析”——数据挖掘、数据分析
對應分析對數據的格式要求:
- 對應分析數據的典型格式是列聯表或交叉頻數表。
- 常表示不同背景的消費者對若干產品或產品的屬性的選擇頻率。
- 背景變量或屬性變量可以并列使用或單獨使用。
- 兩個變量間——簡單對應分析。
- 多個變量間——多元對應分析。
現在,我們還是來看看如何操作多重對應分析并如何解讀對應圖;
我們假定有個汽車數據集,包括:來源國(1-美國、2-歐洲、3-日本),尺寸(1-大型、2-中型、3-小型),類型 (1-家庭、2-運動、3-工作),擁有(1-自有、2-租賃)性別(1-男、2-女),收入來源(1-1份工資來源、2-2份工資來源),婚姻狀況(1-已婚、2-已婚有孩子、3-單身、4-單身有孩子);
從數據集看,我們有7個定類變量,如果組合成簡單的交叉表是困難的事情,此時采用多重對應分析是恰當的分析方法。
下面我還是采用SPSS18.0,現在叫PASW Statistics 18.0來操作!注意:不同版本在多重對應分析方法有一些不同,但大家基本上可以看出了,高版本只能是更好,但選擇會復雜和不同!
在進行多重對應分析之前,研究者應該能夠記住各個變量大致有多少類別,個別變量如果變量取值太偏或異常值出現,都會影響對應分析的結果和對應圖分析!
在SPSS分析菜單下選擇降維(Data Redaction-數據消減)后選擇最優尺度算法,該選項下,根據數據集和數據測量尺度不同有三種不同的高級定類分析算法,主要包括:多重對應分析、分類(非線性)主成分分析、非線性典型相關分析;
注意:隨著版本的增高,研究人員在統計分析時就要各位主要變量的測量尺度,并且最好在進行數據清理和分析前,明確定義好測量尺度;當然也要做好Lable工作!
接下來,我們就可以選擇變量和條件了!
大家可以把要分析的變量都放到分析變量內,補充變量的含義是如果有哪個變量你并不想作為對應分析的變量,而只是作為附屬變量表現在對應圖上可以加入!這一點其實在簡單對應分析也有這種定義。(我們將在專門的簡單對應分析方法中再講!)
然后我們要選擇“變量”選項,大家可以選擇類別圖:每一個變量的分類圖,重點是選擇聯合類別圖,我們把7個變量全部放入,執行!(其它選項大家可以測試,我還有一些沒有搞清楚)
下面我們看結果:
從圖中我們可以看出:美國車都比較大,家庭型,主要購買者是已婚帶孩子的;日本和歐洲車主要是小型、運動的和已婚沒有孩子的人購買;特別注意:單身和單身帶孩子的往往是租賃汽車,收入單一來源,但這個地區沒有車滿足這個市場,或許是市場空白;
具體的解讀大家可以根據自己的研究設計和假設去尋找答案!
主要統計指標可以看:
上圖主要給我們了對應圖維度的解釋比率,最下面的圖大家會看嗎?
提示:夾角是銳角意味著相關,所以:定類變量的相關性是不是可以解釋啦!
總結:(同樣適合簡單對應分析)
對應分析的優點:
- 定性變量劃分的類別越多,這種方法的優勢越明顯。
- 揭示行變量類別間與列變量類別間的聯系。
- 將類別聯系直觀地表現在二維圖形中(對應圖)。
- 可以將名義變量或次序變量轉變為間距變量。
對應分析的缺點:
- 不能用于相關關系的假設檢驗。
- 維度要由研究者決定。
- 有時候對應圖解釋比較困難。
- 對極端值比較敏感。
????這里主要介紹大家了解對應分析的基本方法,如何幫助探索數據,分析列聯表和卡方的獨立性檢驗,如何解釋對應圖,當然大家也可以看到如何用SPSS操作對應分析和對數據格式的要求!
????對應分析是一種數據分析技術,它能夠幫助我們研究由定性變量構成的交互匯總表來揭示變量間的聯系。交互表的信息以圖形的方式展示。主要適用于有多個類別的定類變量,可以揭示同一個變量的各個類別之間的差異,以及不同變量各個類別之間的對應關系。適用于兩個或多個定類變量。
主要應用領域:
- 概念發展 ??(Concept Development)
- 新產品開發??(New Product Development)
- 市場細分?????(Market Segmentation)
- 競爭分析?????(Competitive Analysis)
- 廣告研究?????(Advertisement Research)
主要回答以下問題:
- 誰是我的用戶?
- 還有誰是我的用戶?
- 誰是我競爭對手的用戶?
- 相對于我的競爭對手的產品,我的產品的定位如何?
- 與競爭對手有何差異?
- 我還應該開發哪些新產品?
- 對于我的新產品,我應該將目標指向哪些消費者?
- ?對應分析數據的典型格式是列聯表或交叉頻數表。 常表示不同背景的消費者對若干產品或產品的屬性的選擇頻率。背景變量或屬性變量可以并列使用或單獨使用。
?????????兩個變量間——簡單對應分析。
?????????多個變量間——多元對應分析。
上面的交互分析表,主要收集了48961人的自殺方式以及自殺者的性別和年齡數據!POISON(毒藥)GAS(煤氣)HANG(上吊)DROWN(溺水)GUN(開槍)JUMP(跳樓)(我們就不翻譯成中文了,讀者可以把六個方式想象成品牌或別的什么)
當然,我們拿到的最初原始數據可能是SPSS數據格式記錄表,
其中,性別取值1-male 2-female,年齡取值1-5,分別表示不同年齡段。
要回答的問題是:
1-不同性別的人在選擇自殺方式上有什么差別?
2-不同年齡的人在選擇自殺方式上有什么差別?
3-不同性別年齡的人在選擇自殺方式上有什么差別?
我們首先,把性別字段乘上10加上年齡字段生成新字段sexage,取值是11-15,21-25,然后分別用M/F和年齡組中值代表Sexage字段的變量值標,這樣我們就可以進行簡單對應分析了!
現在問大家,如果你看到上面的6×10的矩陣-列聯表,你能看出什么差異?
現在我們采用SPSS軟件進行對應分析!
(我現在用的是SPSS17.0多語言版本,前兩天聽博易智訊的人說,現在SPSS已經有18.0版本了,不過從對應分析方法角度我還是希望用11.5版本,因為可以自己拆分重新組合修改圖形,現在的版本是圖片了,不能隨心所欲的修改,不爽!)
分別定義好行列變量以及它們的取值范圍!
對應分析中,6×10的列聯表(交互表)可以得到行列維度最小值減1的維度,我們看到第一維度Dim1解釋了列聯表的60.4%,第二維度Dim2解釋了列聯表的33.0%,說明在兩個維度上已經能夠說明數據的93.4%,這是比較理想的,當然我們也可以看卡方檢驗等!
下面我們主要解釋如何解讀對應圖(小蚊子的博客中也有非常相似的解釋,我非常欣賞他的博客)
首先對SPSS分析得到的對應圖進行修飾和編輯,在零點增加兩條中線!
解讀方法:
1-總體觀察:
我們從圖上左右可以看出,左邊全部是M*,男性,右邊F*全部是女性,說明男女有顯著差異;同時看橫軸中線上方都是年齡大的,下面都是年齡小的,說明年齡有差異;這樣就一目了然看出和回答了前兩個問題;
2-觀察鄰近區域
我們從圖上可以看出,老的男性比較喜歡HANG,GAS和GUN是年輕男性的偏好;老的女性比較喜歡DAWN,年輕的女性比較偏好POISON;
3-向量分析——偏好排序
我們可以從中心向任意點連線-向量,例如從中心向GUN做向量,然后讓所有的人往這條向量及延長線上作垂線,垂點越靠近向量正向的表示越偏好這種方法。
記住:是垂點到GUN正向排名,從圖中我們可以看出,希望GUN方法的人依次是M15、M30、M45、M60、M80、F15等等;依次類推,我們還可以從中心向任意一種方法作垂線,都可以排出每種方法選擇人群的偏好次序;當然,你也可以從中心往所有的人作向量,得到每一類人在選擇六種方法上的偏好排名!
你是否可以看出,F15年輕的女性對六個“品牌”的偏好嗎?
4-向量的夾角——余弦定理
接著,我們可以從向量夾角的角度看不同方法或不同人之間的相似情況,從余弦定理的角度看相似性!
從圖上我們可以看出,當我們從中心向任意兩個點(相同類別)做向量的時候,夾角是銳角的話表示兩個方法具有相似性,銳角越小越相似;也就是說,GUN和GAS是相似品牌,當如也是競爭品牌,也具有替代性,如果這次開槍沒有自殺成功,下次他一定選擇毒氣啦;我們也看出F15和F30的人比較相似,但F15與M80就有非常大的差異了,因為如果作向量他們是鈍角,幾乎是平角了!
5-從距離中的位置看:越靠近中心,越沒有特征,越遠離中心,說明特征越明顯
從這張對應圖中我們看到,有些點遠離中心,有些點靠近中心,這說明什么呢?從幾何空間的角度,如果我對每一人都一樣的好,在規范圖上我就應該站在大家的重心,也就是中心;這說明越靠近中心的點,越沒有差異,(記住:沒有差異并不代表不重要,只是沒有差異,因為統計的技術是研究差異的技術,差異越大往往重要性就大!),越遠離中心特征越明顯,也就是說,如果聽到一個M80的人自殺了,估計你就會想到是不是HANG啦!
從品牌角度思考,說明越遠離中的的品牌,消費者很容易識別,說明品牌特征(特色、特點)明顯,越靠近中心的品牌,消費者不易識別,也說明你的品牌定位沒有顯著可識別的特征,沒有差異認知!
6-坐標軸定義和象限分析
我們還沒有定義坐標軸呢?從第一點的分析,其實我們很快就可以定義坐標軸的含義了!(當然有時候對應圖的座位是非常難定義的)
因此,落在第四象限的是年輕的女性所喜歡的品牌!
7-產品定位:理想點與反理想點模型
我們可以在圖上以POISON為定位點,以POISON為圓心,以它的利益為半徑畫圓,那么我們可以得出這樣的結論:越先圈進來的人就是最喜歡這個品牌的消費群,越先圈進來的品牌越可能是競爭品牌;當然,你也可以以某類人作為圓心,同意解讀;如果POISON是市場不存在的,在調查中可以設定為理想點,這樣我們就可以得到理想點模型,同理也可以得到反理想點模型分析!
8-市場細分和定位
最后,研究人員可以根據前面的分析和自身市場狀況,進行市場細分,找到目標消費群,然后定位進行分析!最終選擇不同的目標市場制定有針對性的營銷策略和市場投放!
我們也可以嘗試采用多元對應分析,但不如簡單對應分析有意義!
簡單對應分析的優點:
定性變量劃分的類別越多,這種方法的優勢越明顯,揭示行變量類別間與列變量類別間的聯系,將類別聯系直觀地表現在二維圖形中(對應圖),可以將名義變量或次序變量轉變為間距變量。
簡單對應分析的缺點:不能用于相關關系的假設檢驗,維度要由研究者決定,有時候對應圖解釋比較困難,對極端值比較敏感。 結合分析(Conjoint Analysis)是一種應用廣泛,非常流行和有效的市場研究技術。近些年來,結合分析廣泛地應用在消費品、工業產品和商業服務等相關領域的市場研究中,在我國越來越受到市場研究公司和企業的重視,尤其是在汽車行業的市場研究領域,結合分析在汽車的新產品開發、市場占有率分析、競爭分析、市場細分和價格策略等方面都發揮了積極而有效的作用。結合分析也叫聯合分析技術!
?
結合分析適用于測量消費者的心理判斷,如理解(Perceptions)和偏好(Preferences)。在結合分析中,產品/服務被描述為“輪廓”(Profiles),每一個輪廓是由能夠描述產品/服務重要特征的屬性(Attributes)以及賦予每一個屬性的不同水平的組合構成的。結合分析的一個重要的基本假定是:消費者是根據構成產品/服務的多個屬性來進行理解和作偏好判斷;也就是說,消費者對產品/服務的偏好每次并不是基于一個因素而是基于幾個因素的結合來判斷的,消費者對某一輪廓的偏好可以分解成構成該輪廓的多個屬性的偏好得分(Preference Scores)。在結合分析中用效用值(utilities)來描述。
結合分析是一種多元統計分析方法。其因變量是消費者對某一輪廓的整體偏好評價。某一輪廓的整體也稱為全輪廓(full profiles),是由全部屬性的各個水平組合構成的。自變量是組成各輪廓的不同屬性(因子)水平。因此,結合分析是在已知消費者對全輪廓的評價結果(overall evaluations)的基礎上,經過分解的方法(decompositional approach)去估計其偏好結構的一種分析法。
在結合分析中,輪廓是由研究人員事先按照某種因子結構(factorial structure)采用部分因子正交實驗加以設計的。結合分析有三個主要目的:(1)確定消費者賦予某個預測變量(水平)的貢獻和效用(utilities)以及屬性的相對重要性(2)尋找消費者可接受的某種產品的最佳市場組合,這種組合最初可能并沒有被消費者所評價(3)模擬市場,估計市場占有率和市場占有率變化。為了達到這些研究目的,首先要估計不同屬性水平的效用,進一步計算出屬性的相對重要性(Attributes relative importance)和輪廓效用(profile utilities),以便定量化地測量消費者的偏好,然后基于消費者的偏好采用最大效用模型或者Bradley-Terry-Luce(BTL)模型和logit模型估計市場占有率。
??????全輪廓方法:每一個屬性同時展現給消費者
?
?
- 樣本量:一般消費者研究 ??100到400之間
- 調查方法:派調查員面訪 face-to-face
- 因子設計:屬性和水平數目不太多??(<20個最多不超過30個)
- 部分因子設計: 正交排列法 orthoplan
- 估計主效應 ( main effect )
- 產品/服務的概念(輪廓)事先設計和確定。
- 調查可以采用紙張或計算機輔助訪問。
????????其中:?????NC: 最小組合輪廓數
??????????????????NL: 所有屬性水平數的和
??????????????????NA: 所有屬性數的和
?????例如:六個屬性,每個屬性有4個水平,可能組合數=4×4×4×4×4×4=4096(種),
???????????最小組合數=(4+4+4+4+4+4)- 6+1=19(種)
?????推薦組合輪廓數:最小輪廓數的 1.5 到 2 倍
下面我們通過一個案例:賽歐轎車上市前的市場分析,闡述了結合分析在汽車市場的應用,以及采用一般最小二乘法(OLS)回歸估計主效應的全輪廓結合分析法的基本概念、原理、步驟和方法。
(備注:研究的時候產品配置已知,但還沒有下線投放市場)
根據研究目的和前期的定性研究,最終確定了產品的屬性和水平:
在確認了屬性水平后,我們通過SPSS來進行正交實驗設計。
我們可以依次定義每一個屬性和水平,SPSS軟件最多提供每個屬性有9個水平的可能性,所以如果水平數太多就要考慮其它方法,或者進行相應的變換,當然,如果屬性的水平數越多代表了你越重視它,將來的分析相當重要性就會高!
????正交實驗設計方法,在SPSS是比較簡單的,人為的控制不多,我們只能寄希望SPSS的正交實驗設計給我們一個號的結果,但沒有評估設計效應的指標。如果你希望下次得到同樣的正交設計集,必須設定一樣的隨機種子!
????在這點上說,如果對于復雜的正交實驗設計,我還是比較偏向用SAS軟件來進行,不僅得到的結果比較好,還有設計效應等各種指標評估,所以,實際市場研究中,大部分情況都是SAS來完成的!其實我用SAS,有時候更簡單的,就幾個命令:%mktrun和%mktex等;
????設計好后,大家記住,先不用運行,先要“粘貼”下來,也就是把語法粘貼下來,因為Conjoint Analysis分析方法在SPSS中沒有窗體命令,必須用語法執行!
????當然,在細節上還有“Holdout”卡片的問題,(檢驗問題,但是對于商業研究我基本上都不用了,為了保證更好的建模卡片,為了減輕被訪者負擔,反正做都做了!——這里我沒有學術思想啦)
正交實驗設計生成了16張卡片,同時也是隨機卡片集,并產生兩個系統變量,不要改變變量名稱,其中:STATUS_值標 1-Design 2-Holdout 3-Simulation
記住:我們并不關心這16張卡片如何,我們只是關系這16張卡片的對432種組合產品的代表性,原則上即使有不理想或不現實的卡片出現,也不要沒理由的刪除!在SPSS系統分析中,最好考察屬性水平設定的問題,而不要隨意改變!
下面我們就要考慮收集被訪者評價信息了,當然也包括卡片的展示方式!
收集到被訪者信息后,我們就可以分析了!
我這里采用了最一般的離散變量方法,實際上屬性變量可以有多種模型(離散、線性、理想點、反理想點等)
結合分析既可以分析群體、總體也可以分析每個人的偏好選擇!
大家可以根據公式自己計算個體和群體的效用值、屬性相對重要性等,但是記住:所以群體的效用值、相對重要性來自于個體的平均!
????從分析的角度,有時候模擬市場,模擬市場份額是最重要的分析,但是如果研究者不是最終決策者,就必須設計市場組合份額的模擬器,我一般采用Excel來設計,這需要大家懂得結合分析原理,并能夠設計Excel應用!
????在文章的最上面,我是采用Excel設計的電腦配置的市場研究模擬器,希望對你有所啟發!
????近年來,結合分析成為市場研究的重要利器,但是它也有著局限性,所以開發了不同的改進方法和軟件工具,代表性的就是Sawtooth公司的產品,另外也可以考慮更復雜的CBC技術,離散選擇模型!(下次再專題講)
????最后,要說明的是結合分析只是得到了消費者的偏好,喜歡一個人,并不一定會跟她結婚的!
多元回歸分析(Multiple Regression Analysis)是多變量分析的基礎,也是理解監督類分析方法的入口!實際上大部分學習統計分析和市場研究的人的都會用回歸分析,操作也是比較簡單的,但能夠知道多元回歸分析的適用條件或是如何將回歸應用于實踐,可能還要真正領會回歸分析的基本思想和一些實際應用手法! 下面我們就來談談多元回歸分析,這張圖是利用多元線性回歸制作的策略分析圖,你可以理解X軸是重要性,Y軸是表現;
首先,多元回歸分析應該強調是多元線性回歸分析!強調線性是因為大部分人用回歸都是線性回歸,線性的就是直線的,直線的就是簡單的,簡單的就是因果成比例的;理論上講,非線性的關系我們都可以通過函數變化線性化,就比如:Y=a+bLnX,我們可以令 t=LnX,方程就變成了 Y=a+bt,也就線性化了。
一般我們采用的變化要根據數據分布特征來進行,下表是常用的變化方法:
當然,變化的主要目的是線性化,同時期望數據分布是近似正態分布!
第二,線性回歸思想包含在其它多變量分析中,例如:判別分析的自變量實際上是回歸,尤其是Fisher線性回歸方程;Logistics回歸的自變量也是回歸,只不過是計算線性回歸方程的得分進行了概率轉換;甚至因子分析和主成分分析最終的因子得分或主成分得分也是回歸算出來的;當然,還有很多分析最終也是回歸思想!
第三:什么是“回歸”,回歸就是向平均靠攏。
第四:如果你用線性回歸方式去解釋過去,你只能朝著一個趨勢繼續,但未來對過去的偏離有無數種可能性;
第五:線性回歸方程納入的自變量越多,越應該能夠反應現實,但解釋起來就越困難;
第六:統計學家往往追求的是簡約的模型和更高的解釋度,往往關注模型R平方,共線性和回歸診斷問題;
第七:市場研究人員往往注重模型的解釋合理性,是否與預設的直覺一直,是否支持了我的市場假設等;
下面我們從市場研究人員的角度看看如何利用多元線性回歸:
多元線性回歸分析的主要目的是:解釋和預測
假設我們收集了100個企業客戶經理對我產品的總體滿意度和分項指標的滿意度評價,我期望知道,什么分項指標對我總體滿意度有重要影響,它的改進更能夠提升總體滿意度;如果建立預測模型,我期望知道了分項指標的評價就能夠預測總體滿意度數值;
在SPSS中選擇回歸分析后,把X10作為因變量,X1到X7作為自變量
一般選擇自變量進入方程的方法,可以先采用逐步回歸,讓計算機程序幫助確定變量的重要性,這在統計層面非常好,但是如果針對我現在的研究我需要采用Enter全部進入,如果某個指標不顯著,就不在方程中了我如何與客戶說呢?(假設他不懂統計,并且我需要完成上面的策略圖);
選擇相應的統計參數和輸出結果,注意:多變量分析都需要考慮缺省值問題,逐步回歸中我們可以得到R平方的變化對我們理解方程有幫助!(Enter方法不需要)
R平方是我們最需要關注的,該值說明了方程的擬合好壞,R平方=0.80非常不錯了,說明:1)總體滿意度的80%的變差都可以由7個分項指標解釋,或者說,7個分項指標可以解釋總體滿意度80%的變差!2)R平方如果太大,大家不要高興太早,社會科學很少有那么完美的預測或解釋,一定存在了共線性!
方程分析表的顯著性表明了回歸具有解釋力!
線性回歸方程給出可預測的計算系數,但是,社會科學很少進行預測,重要的是解釋;
這里要注意的是如果自變量的測量尺度是統一的話,我們可以直接比較系數的大小,但是如果自變量的測量尺度不統一的話,我們必須看標準化回歸系數,標準化回歸系數去掉的量綱,且反應了重要性!我們就是需要重要性測量!
當然,這個時候,研究人員應該關注每個指標的回歸系數是否真的等于零,要進行假設檢驗!
我這里就直接應用了,我們可以把7個自變量指標的均值作為表現,7個自變量的標準化相關系數作為重要性,完成散點圖!重要的指標,表現差當然是我們急需改進的了,這就是前面策略圖了。
我這是典型的市場研究思維方式,不太關注統計意義,而且我將所有的坐標軸和坐標數值都讓你看不到,我只是表現了測量,或許對市場洞察足夠了;但記住統計學家不能這樣!如果你是關注統計思想的人,應該要理解下面這張回歸解釋圖!
????聚類分析:顧名思義是一種分類的多元統計分析方法。按照個體或樣品(individuals, objects or subjects)的特征將它們分類,使同一類別內的個體具有盡可能高的同質性(homogeneity),而類別之間則應具有盡可能高的異質性(heterogeneity)。
????我們也可以對變量進行聚類—分類,但是更常見的還是對個體分類(樣本聚類——細分)。為了得到比較合理的分類,首先要采用適當的指標來定量地描述研究對象(樣本或變量,常用的是樣本)之間的聯系的緊密程度。常用的指標為“距離”和“相似系數”,假定研究對象均用所謂的“點”來表示。
????在聚類分析中,一般的規則是將“距離”較小的點或“相似系數”較大的點歸為同一類,將“距離”較大的點或“相似系數”較小的點歸為不同的類!(一般的相似系數就是相關系數了)
????基本概念:
????需要一組表示個體性質或特征的變量,稱之為聚類變量。根據個體或樣本之間聯系的緊密程度進行分類。一般來說分類變量的組合都是由研究者規定的,不是像其它多元分析方法那樣估計推導出來的。
????聚類分析前所有個體或樣本所屬的類別是未知的,類別個數一般也是未知的,分析的依據就是原始數據,沒有任何事先的有關類別的信息可參考。所以:嚴格說來聚類分析并不是純粹的統計技術,它不像其它多元分析法那樣,需要從樣本去推斷總體。聚類分析一般都涉及不到有關統計量的分布,也不需要進行顯著性檢驗。聚類分析更像是一種建立假設的方法,而對假設的檢驗還需要借助其它統計方法。
????聚類方法:
- 聚類分析簡單、直觀。
- 聚類分析主要應用于探索性的研究,其分析的結果可以提供多個可能的解,選擇最終的解需要研究者的主觀判斷和后續的分析;
- 不管實際數據中是否真正存在不同的類別,利用聚類分析都能得到分成若干類別的解;
- 聚類分析的解完全依賴于研究者所選擇的聚類變量,增加或刪除一些變量對最終的解都可能產生實質性的影響。
- 研究者在使用聚類分析時應特別注意可能影響結果的各個因素。
- 異常值和特殊的變量對聚類有較大影響
當分類變量的測量尺度不一致時,需要事先做標準化處理。
- 自動發現和告訴你應該分成多少個類——屬于非監督類分析方法
- 期望能很清楚的找到大致相等的類或細分市場是不現實的;
- 樣本聚類,變量之間的關系需要研究者決定;
- 不會自動給出一個最佳聚類結果;
?????根據聚類變量得到的描述兩個個體間(或變量間)的對應程度或聯系緊密程度的度量。
?????可以用兩種方式來測量:
- 采用描述個體對(變量對)之間的接近程度的指標,例如“距離”,“距離”越小的個體(變量)越具有相似性。
- 采用表示相似程度的指標,例如“相關系數”,“相關系數”越大的個體(變量)越具有相似性。
注意:上面主要在譜系聚類方法中采用,但譜系聚類主要用在變量聚類上,如果對樣本聚類樣本不能太多了,否則你要等很長時間,還不一定有用!
????
總體推薦:
- 聚類變量的測量尺度不同,需要事先對變量標準化;
- 聚類變量中如果有些變量非常相關,意味著這個變量的權重會更大
- 歐式距離的平方是最常用的距離測量方法;
- 聚類算法要比距離測量方法對聚類結果影響更大;
- 標準化方法影響聚類模式:
- 變量標準化傾向產生基于數量的聚類;
- 樣本標準化傾向產生基于模式的聚類;
- 一般聚類個數在4-6類,不易太多,或太少;
- 數據挖掘軟件中的聚類更理想
????當然我現在聚類都用數據挖掘技術了,其實聚類分析采用數據挖掘技術更合理,畢竟是發現知識,我們事先不知道是否存在顯著差異的細分市場,而且往往在統計分析聚類中,需要研究者主觀給出聚類變量,得到的結果也可能是研究者或客戶能想到的,往往客戶最希望得到事先不知道的,直覺不能感知到的,數據挖掘就體現了這一點。當然采用數據挖掘軟件得到的聚類結果,也更直觀,最重要的是采用SPSS聚類的結果要呈現出來,是個體力活,用Clementine得到的結果就非常容易看出來和理解了!
????關于市場細分中的聚類分析,主要是采用兩階段聚類或快速聚類,一般要先進行因子分析,聚類分析,類的識別,聚成幾類,類的穩定性測試,選擇目標類,定位,描述細分市場,市場營銷組合等!
上一篇博客提到聚類分析方法和基本概念,但是可能沒有回答一些人的疑問?比如到底應該分成多少類,類的穩定性以及如何評估聚類的結果。其實,要想解決這個問題,首先是要與分析目的有關,不簡單是一個統計分析問題,或者說聚類問題,而應該是研究者的判斷或者說研究者的洞察力,當然,我們還是要有一套方法去指導。
??????但大家記住:聚類分析不是統計方法,是一種數據處理技術,也就是說在SPSS里面,有時候你的數據排序改變,聚類的結果都會改變;
??????還要記住:如果市場上不存在明顯的細分市場,只要聚類總是能夠按照聚類要求分成類的,這時候你就要注意了,如果采用不同的聚類方法,總是能夠聚成大致相等(樣本)的類,先不要高興,可能就是不存在有差異細分市場;這就像一個球或圓,按照要求總能分割成大致相等的塊一樣;
????還要記住:如果市場存在著明顯的細分市場,也就是差遠很大的類,無論什么細節技術或聚類技術都應該得到類似的結果;難點主要是細分不明顯的時候,需要依賴方法了,嘗試不同的聚類方法!
?????
????我記得曾經做過一個市場細分項目,因為我沒有能夠得到滿意的細分市場,或者說無法解釋清楚細分市場的獨特性,客戶提出一個問題:你嘗試了各種聚類結果嗎?當時還沒有數據挖掘技術,不過因為這個要求,我把聚類過程和可能的情況有了新的認識,與大家分享:
????上面的樣本,實際上存在不同的類,但粗看可能看不出來,但是如果我們采用聚類分析,就可以得到如下可能結果:
比較明顯的可以看出,上面的樣本在兩個維度上存在著五個不同類別。
現在我們來看看聚類分析的基本思路和思考:
1)市場細分:是采用聚類分析的主要目的,主要分成監督類和非監督類,我們現在討論的是非監督類方法,就是事先不知道是否存在細分市場,也就是事后細分;
- 這就需要我們采用市場研究的方法收集目標市場消費者的分類變量和關鍵性描述信息。
- 在收集和分析所有相關信息之前,市場細分并不確定。
- 采用多元統計分析技術識別細分市場,并將消費者按一定的算法規則劃分為不同的市場。
- 經驗、直覺、統計結果和常識判斷,所有這些都可以用來決定市場細分的個數。
- 如果細分后存在著幾個非常小的市場,需要修正分類標準,或者將原始資料中的異常值剔除掉。
- 如果市場被劃分得太細的話,將導致對一些小的、相似性的市場采用許多不同的市場營銷策略。
- 根據量表的信度和效度得到的因子應該有意義和進行因子命名,否則后面的聚類都是根據因子名稱來理解的;
- 原始變量需要進行標準化,但是因子分析后得到的因子已經是標準化變量了;
- 一種思路直接用因子進行聚類分析,因子是正交的,得到的是“清晰”的聚類結果;但是記住:有時候更適合聚類的因子分析是采用斜交因子!所以,我們如果目標是聚類的話,要考慮斜交方法;
- 一種思路是放棄因子,而采用原始變量,但這時候要考慮選擇每個因子負荷前幾個的變量,最好數量相當,否則某些變量越相關,意味著權重越大;
從上面我們可以看出:基于量的聚類A和B,C和D是一類,但基于模式則A和C,B和D是一路;
記住:所以在聚類變量的標準化要考慮這一點!
5)聚類數量:一般從3-7個不斷嘗試,如果你用SPSS軟件,建議事項保證樣本是排序的;
6)類的評估:一般我們可以采用類均值的F檢驗,看不同類在F統計量上的差異,也就是每個類在聚類變量上的顯著差異:
上面的3個類,進行方差分析,得到F統計量,我們可以看到,F值越大說明分成3類的主要差異在什么變量上;
7)測試不同的聚類結果:同上想法,我們可以嘗試在4類后的情況發生什么變化,然后把3類和4類結果進行交互分析,看看3類變成4類到底在哪里發生變化,主要影響變量是什么因素影響:
8)最后,針對可能的穩定聚類,測試每個變量(最初的量表)在各個類的F統計量,看看最初的原始變量(不是因子)的影響特性;
9)把最后確定的聚類結果寫入原始數據集,進行類命名;
10)采用判別分析,判別類和聚類變量的可視化,畫判別圖,進一步識別類的特征
11) 采用對應分析和多元對應分析,識別類的屬性和關鍵類(細分)表述變量,比如:性別、年齡、職業、收入、消費特性等
12)采用CHAID分類決策樹,自動偵測進一步識別類的特性;
記住:
- 為了得到比較好的結果,我們一般現在都采用Two-step聚類,這樣可以把定類變量納入聚類
- 如果希望得到穩定的聚類結果,可以在聚類分析的時候提供類中心——一般來自分類均值
- 聚類結果得到的細分市場一定是研究者能表述并有營銷手段達到目標市場的
- 細分不光為自己找到細分市場,也為競爭對手細分了市場
請大家記住一句話:選擇什么樣的多變量統計分析方法,主要是根據變量的測量尺度決定的,更明確的說是根據因變量的測量尺度和類型決定的!這就要求研究者能夠在從事項目前明確:研究設計和假設,確認因變量,以及如何測量,測量尺度達到什么等級等要素。
我們看到除了SPSS軟件,還有就是SAS軟件,當然懂得SAS的人不多,但特殊情況下SAS更有效,比如,在進行實驗設計,非標準的正交實驗設計,Conjoint Analysis等市場研究核心技術方面,SAS更靈活些!
????4. 當然,除了我們看到的SPSS和SAS軟件以外,要真正在市場研究中利用好各種分析和模型技術,還需要掌握各種專業軟件工具。例如:
- AMOS/Lisrel軟件:主要用于顧客滿意度研究,品牌驅動研究等;
- ACA/CBC/VCA軟件:主要用于結合分析(聯合分析)conjoint analysis以及離散選擇模型等,產品開發等都經常用這些軟件;
- Ucinet/Netdraw軟件:是社會網絡分析工具,主要用于關系研究,開放題和半開放題、相似性和差異性矩陣等都可以用;
- Clementine/Miner軟件:主要是數據挖掘技術;
- Xcelsius軟件:動態報表和分析報告軟件,非常炫的Dashbaord儀表盤工具;
- 其它工具:Yed、Visio、SmartDraw、Mindmanager、Swiff Chart、AnswerTree、DecisionTime&Whatif等等!
我們還是回到市場研究的多變量分析技術吧!
這里的多變量分析技術主要是指統計分析和數據挖掘技術:
- 描述性統計分析技術
- 頻數分析:主要用于數據清洗,調查結果的Q&A,各種統計量、基本報告數據源等
- 數據探查:探索性分析主要從統計的角度查看統計量來評估數據分布,主要用于異常值偵測、正態分布檢驗、數據分段、分位點測算等
- 交叉表分析:交互分析是市場研究的主要工作,大部分市場研究分析到此為止。主要用于分析報告和分析數據源,各種圖表等,寶潔公司要求的很多分析就是完成各種交叉表,制作各種報表,當然其中也有卡方檢驗和T檢驗,尋找差異;一般我們采用列百分比進行圖表分析,記住:如果交叉表單元格數據比較小需要合并或者不要用百分數來說,直接說值就可以了。
- T檢驗:假設檢驗方法,主要用來比較兩個總體均值的差異是否顯著;
- 方差分析:超過兩個總體的均值檢驗,也經常用于實驗設計后的檢驗問題;
- 相關分析:線性相關性,只有變量呈現相關我們才能進行影響關系的研究,但記住相關主要是線性相關,不相關并不代表沒有關系;
- 多變量分析技術
- 回歸分析技術:是監督類分析方法,最重要的認識多變量分析的基礎方法,只有掌握了回歸我們才能進入多變量分析,其它很多方法都是變種。主要用在影響研究、滿意度研究等,當然市場研究基本上是解釋性回歸分析,也就是不注重預測而關注解釋自變量對因變量的影響。主要把握R平方、逐步回歸、標準化回歸系數(當作權重或重要性)等;回歸也是預處理技術,缺省值處理等
- 主成分分析和因子分析:是非監督類分析方法的代表,是主要認識多變量分析的基礎方法,只有掌握了因子分析我們才能進入多因素相互關系的研究;主要用在消費者行為態度等研究、價值觀態度語句的分析、市場細分之前的因子聚類等,問卷的信度和效度檢驗等,因子分析也可算是數據的預處理技術。主成分分析與因子分析是兩種方法,要能夠區分。主成分分析可以消減變量,權重等,主成分還可以用作構建綜合排名!
- 判別分析技術:判別分析是最好的構建Biplot二元判別圖的好方法,主要用于分類和判別圖,也是圖示化技術的一種;
- 對應分析技術:市場研究非常有用的研究技術,主要分析定類變量,構建二元圖,也是圖示化技術的一種;
- Logistics回歸技術:分類技術,主要針對因變量是0-1情況下的判別,該技術是我們認識非線性關系的重要基礎,很多情況下,我們需要作出是與否的判斷,基礎模型就是它了,像客戶離網分析、客戶價值分析、客戶信用等都用這個模型;
- 聚類分析技術:主要用在市場細分方面,但聚類分析本質上不是統計分析,是數據處理技術,從事市場細分的人要好好把握,特別是注重聚類分析的細節,可以進行變量和樣本的聚類;記住:樣本聚類有可能數據排列不同聚類結果不同,要進行聚類后的穩定性測試,一般也要采用方差最大旋轉,有時候斜交更適合聚類細分;當然,聚類后的細分市場識別是頭痛問題,用到上面的幾種技術,也很繁瑣!我現在進行市場細分基本上都用數據挖掘軟件工具了!現在比較好用的是Two-Step兩階段聚類;
- MDS多維尺度分析技術:這個技術目前不太用了,但它是認識多變量分析技術,尤其是測量與分析技術好的視角。比如,相似性和差異性測量、語異差異法等,洞察潛在消費者心理和潛在分類維度等。
- 其它:GLM通用線性模型、Logit回歸、Probit分析、可靠性分析等
- 市場研究分析技術
- 結合分析(聯合分析)Conjoint Analysis技術:如果一家市場研究公司沒有掌握該技術,就不能稱為一流的市場研究!可見該技術的地位,應用領域非常廣泛,新產品開發、產品重新定位、市場細分、利潤分析、偏好分析等,我就是掌握了這個技術后,才發現統計與市場這么緊密聯系,學好數學和統計有這么大的用武之地!
- 離散選擇模型(Choice base analysis):也叫Discrete Choice Analysis分析技術,現在市場研究采用這種方法越來越大,屬于結合分析的一種,但更復雜也更反映現實選擇行為;主要應用在價格研究中!研究消費者微觀選擇行為的人得了諾貝爾經濟學獎呢!SPSS軟件沒有這個分析方法,只能用SAS軟件,或者選擇Sawtooth公司的產品。
- 結構方程式模型(SEM):其實SEM本質上是實證研究,證實性分析,特別適合寫學術論文和研究性項目,在市場研究主要用在顧客滿意度上,也可以用在品牌驅動力研究等方面;主要軟件是AMOS;
- 多維偏好分析(Multidimensional Preference Analysis):主要用于構建偏好圖,進行產品定位,消費者偏好結構,屬于圖示化技術的一種;SPSS沒有專門稱呼的模塊,可以采用因子分析或主成分分析的轉換來完成,但在SAS中就比較方便了;
- 決策樹技術:屬于監督類建模技術,主要用于分類和細分,因為決策樹比較好理解,所以可以非常自動和智能化的得到無法感知到的結果;掌握了決策樹后,我就不愿意用交互分析了!主要有CHAID、C&RT、QUEST等,當然還有C5.0規則等!
- 其它:PSM價格彈性測量、品牌資產指數等等;
- 數據挖掘和建模技術(數據挖掘技術將來再詳細描述)
- 分類建模技術:
- 預測建模技術:
- 細分建模技術:
- 關聯建模技術:
- 序列建模技術:
主要的英文描述:
多變量分析方法的分類圖譜!(主要部分)
從圖中,大家可以看到,假設你不知道研究目的的意義,但看到數據后,你可以嘗試沿著分類圖譜去找尋你該選擇的分析方法!
當然,選擇什么樣的多變量分析技術,前提還是你的研究設計和假設,也就是說我們設計了什么樣的問卷或者說什么樣的測量變量及尺度,應該在數據收集回來之前就應該明確的,特別是選擇了針對性的研究模型也就意味著分析技術的明確,如果你在調查之前還不知道用什么分析方法,應該不是一個合格的研究人員!
多變量分析技術的選擇主要看變量測量等級,特別是因變量!
因子分析(Factor Analysis)是一種非常有用的多變量分析技術。我想說,你要想學好多變量分析技術,一是:理解多元回歸分析,二是:理解因子分析;這是多變量分析技術的兩個出發點。為什么這么說呢?多元回歸分析是掌握有因變量影響關系的重點,無論什么分析,只要研究的變量有Y,也就是因變量,一般都是回歸思想,無非就是Y的測量尺度不同,選擇不同的變形方法。而因子分析則是研究沒有因變量和自變量之分的一組變量X1 X2 X3 ... Xn之間的關系。
????在市場研究中,我們經常要測量消費者的消費行為、態度、信仰和價值觀,當然最重要的是測量消費者的消費行為和態度!我們往往采用一組態度量表進行測量,用1-5打分或1-9打分,經常提到的李克特量表。?
????上面的數據是我們為了測量消費者的生活方式或者價值觀什么的,選擇了24個語句,讓消費者進行評估,同意還是不同意,像我還是不像,贊成還是不贊成等等,用1-9打分;
????因子分析有探索性因子分析和證實性因子分析之分,這里我們主要討論探索性因子分析!證實性因子分析主要采用SEM結構方程式來解決。
從探索性因子分析角度看:
- 一種非常實用的多元統計分析方法;
- 一種探索性變量分析技術;
- 分析多變量相互依賴關系的方法;
- 數據和變量的消減技術;
- 其它細分技術的預處理過程;
????首先,24個可測量的觀測變量之間的存在相互依賴關系,并且我們確信某些觀測變量指示了潛在的結構-因子,也就是存在潛在的因子;而潛在的因子是不可觀測的,例如:真實的滿意度水平,購買的傾向性、收獲、態度、經濟地位、忠誠度、促銷、廣告效果、品牌形象等,所以,我們必須從多個角度或維度去測量,比如多維度測量購買產品的動機、消費習慣、生活態度和方式等;
????這樣,一組量表,有太多的變量,我們希望能夠消減變量,用一個新的、更小的由原始變量集組合成的新變量集作進一步分析。這就是因子分析的本質,所以在SPSS軟件中,因子分析方法歸類在消減變量菜單下。新的變量集能夠更好的說明問題,利于簡化和解釋問題。
????當然,因子分析也往往是預處理技術,例如,在市場研究中我們要進行市場細分研究,往往采用一組量表測量消費者,首先,通過因子分析得到消減變量后的正交的因子(概念),然后利用因子進行聚類分析,而不再用原來的測量變量了!我想這是市場研究中因子分析的主要應用!??
????其實,你可以想象,例如在多元回歸分析中,如果多個自變量存在相關性,如果可以用因子分析,得到幾個不相關的變量(因子),再進行回歸,就解決了自變量共線性問題。(理論上是這樣的,但市場研究很少這么操作!)
下面是要理解的因子分析的基本概念:
- 一種簡化數據的技術。
- 探索性因子分析和證實性因子分析
- 因子分析就是要找到具有本質意義的少量因子。
- 用一定的結構/模型,去表達或解釋大量可觀測的變量。
- 用相對少量的幾個因子解釋原來許多相互關聯的變量之間的關系。
- 描述的變量是可觀測的——顯在變量。
- 相關性較高,聯系比較緊密的變量放在一類。
- 每一類變量隱含一個因子——潛在變量。
- 不同類的變量之間相關性較弱。
- 各個因子之間不相關。
????在進行因子分析前,大家務必明確你的數據集中24個變量是否存在缺失值問題!默認情況下系統采用Lisewase,也即是只要24個變量有一個缺失,該記錄刪除,也就是說如果你的樣本存在大量缺失,可能造成因子分析的樣本量大量收縮!
我們將24個變量選擇后,選擇描述對話框,可以選擇KMO和Bartlett的球形度檢驗!這個指標主要從統計角度給出24個變量是否存在內在結構,也就是潛在因子結構,說白了,就是不適合因子分析!極端可能就是所有24個變量都測量的是一個維度的因子概念,另一個極端就是24個變量全部是正交不相關的,根本不存在因子,不適合因子分析!
接下來我們要選擇抽取因子的方法:在方法上,我們如果不是非常理解或有特殊要求,就選擇主成份方法;這也是為什么在SPSS軟件中沒有獨立的主成份分析,其實是包容在因子分析中了!記住一點:如果24個變量存在因子結構,用什么方法得當的結果基本相同!況且,市場研究采用量表24個變量的測量尺度都是一致的!如果你沒有特殊要求,默然選擇抽取特征值大于1的因子!選擇碎石圖——也是表達因子選擇的圖示方式!因為是研究結構,所以從相關矩陣出發,實際上就是標準化后的方差矩陣,沒有了量綱!
接下來,我們選擇因子旋轉方法!
????因子旋轉是因子分析的核心技巧,也是我們期望得到的結果。旋轉的概念就是坐標變換,不過旋轉有正交和斜交旋轉差別罷了!從解釋因子結構的角度正交旋轉是最容易解釋的,得到的因子也是不相關的;斜交則得到的因子具有相關性,但更符合或能捕捉數據的維度!所以,有一種說法,如果是接下來要進行市場細分,最好采用斜交更好!當然,我們最常用的,一般采用最大方差旋轉!
最后,有一個選擇要完成,就是選項對話框!
我們要選擇按大小排序,并且將因子負荷小于0.4的都不顯示,這樣我們看的更清楚!
為什么選擇0.4呢?這主要依賴樣本量和絕對誤差的考慮!
從樣本量角度看因子負荷,大部分市場研究樣本量都在200以上!
記住:如果你不能精細考慮,就選0.4吧!
下面我們就可以執行了!我們看看結果:
????從結果可以看出,Bartlett球檢驗是顯著的,說明存在因子結構,另外KMO=0.764,較適宜因子分析!,一般KMO=0.8就是Excellent了!
接下來看因子方差解釋,總的方差解釋是63.448%,總共存在7個公因子,說明如果將來不用24個變量,而改用這7個因子可以說明原來24個變量的63.4%的變差。(如果你確認了這樣的結果,可以選擇把7個因子得分保存為變量了)
如果我們只是看非旋轉的話,就是主成份分析部分了,我們來看旋轉后的結果:
?????我們可以看到因子排列非常恰當和明顯,這都是因為我們在選項中選擇了排序和壓縮了小于0.4的負荷值!
你可以看到F1_6變量在3和4因子上都有負荷,這就產生了雙負荷!如果存在大量的雙負荷,我們就要考慮是否要斜交旋轉了!
最后,我們要完成因子命名!如果不能給出好的因子命名,我們放棄24個變量用7個因子變量都不知道意義,如何分析呢!當然如何命名因子是個藝術活了!我一般的思考方式是:1)先看意義,哪些變量負荷在一個因子上,是否能解釋這些因子;2)如果可以,選擇因子名稱;3)如果不能給出恰當名字,就選擇負荷變量的簡稱綜合在一起,先代表著;4)隨著后續的分析,因子慢慢確定;
到這里因子分析就完成了!
但因子分析往往是預處理技術,如果要用來細分市場,該如何進一步操作呢?是選因子還是選前兩個負荷最大的變量,我將在聚類分析中講解!
注:僅供學習,所有資源來自互聯網。
總結
以上是生活随笔為你收集整理的“多变量分析”——数据挖掘、数据分析的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: DOM节点层次之Node类型
- 下一篇: 广东省智慧高速公路建设指南