【数学建模】-多元线性回归分析
文章目錄
- 回歸的思想
- 回歸分析:研究X和Y之間相關(guān)性的分析。
- 相關(guān)性
- 因變量Y
- 自變量X
- 回歸分析的使命
- 回歸分析的分類
- 數(shù)據(jù)的分類
- 一元線性回歸
- 對(duì)于線性的理解
- 回歸系數(shù)的解釋
- 內(nèi)生性的探究
- 內(nèi)生性的蒙特卡羅模擬
- 核心解釋變量和控制變量
- 回歸系數(shù)的解釋
- 什么時(shí)候取對(duì)數(shù)?
- 四類模型回歸系數(shù)的解釋
- 特殊的自變量:虛擬變量X
- 多分類的虛擬變量設(shè)置
- 含有交互項(xiàng)的自變量
- 回歸實(shí)例
- 數(shù)據(jù)的描述性統(tǒng)計(jì)
- 定量數(shù)據(jù)
- 定性數(shù)據(jù)
- Excel中數(shù)據(jù)透視表
- 11個(gè)指標(biāo)的總體情況介紹
- Stata回歸的語(yǔ)句
- 擬合優(yōu)度 R^2^較低怎么辦
- 標(biāo)準(zhǔn)化回歸系數(shù)
學(xué)習(xí)來(lái)源:清風(fēng)老師
回歸分析的任務(wù)就是,通過(guò)研究 自變量X和因變量Y的相關(guān)關(guān)系,嘗試去解釋Y的形成機(jī)制,進(jìn)而達(dá)到通過(guò)X去 預(yù)測(cè)Y的目的。
常見(jiàn)的回歸分析有五類: 線性回歸、0‐1回歸、定序回歸、計(jì)數(shù)回歸和生存回歸,其劃分的依據(jù)是因變量Y的類型。
回歸的思想
回歸分析:研究X和Y之間相關(guān)性的分析。
相關(guān)性
相關(guān)性 ≠ 因果性
在絕大多數(shù)情況下,我們沒(méi)有能力去探究嚴(yán)格的因果關(guān)系,所以只好退而求其次,改成通過(guò)回歸分析,研究相關(guān)關(guān)系
因變量Y
- 經(jīng)濟(jì)學(xué)家研究經(jīng)濟(jì)增長(zhǎng)的決定因素,那么Y可以選取GDP增長(zhǎng)率(連續(xù)數(shù)值型變量)。
- P2P公司要研究借款人是否能按時(shí)還款,那么Y可以設(shè)計(jì)成一個(gè)二值變量,Y=0時(shí)代表可以還款,Y=1時(shí)代表不能還款(0‐1型變量)。
- 消費(fèi)者調(diào)查得到的數(shù)據(jù)(1表示非常不喜歡,2表示有點(diǎn)不喜歡,3表示一般般,4表示有點(diǎn)喜歡,5表示非常喜歡)(定序變量)。
- 管理學(xué)中RFM模型:F代表一定時(shí)間內(nèi),客戶到訪的次數(shù),次數(shù)其實(shí)就是一個(gè)非負(fù)的整數(shù)。(計(jì)數(shù)變量)
- 研究產(chǎn)品壽命、企業(yè)壽命甚至是人的壽命(這種數(shù)據(jù)往往不能精確的觀測(cè),例如現(xiàn)在要研究吸煙對(duì)于壽命的影響,如果選取的樣本中老王60歲,
現(xiàn)在還活的非常好,我們不可能等到他去世了再做研究,那怎么辦呢?直接記他的壽命為60+,那這種數(shù)據(jù)就是截?cái)嗟臄?shù)據(jù))(生存變量)
自變量X
回歸分析的任務(wù)就是,通過(guò)研究X和Y的相關(guān)關(guān)系,嘗試去解釋Y的形成機(jī)制,進(jìn)而達(dá)到通過(guò)X去預(yù)測(cè)Y的目的。
回歸分析的使命
使命1:回歸分析要去識(shí)別并判斷:哪些X變量是同Y真的相關(guān),哪些不是。統(tǒng)計(jì)學(xué)中有一個(gè)非常重要的領(lǐng)域,叫做“變量選擇”。(逐步回歸法)
使命2:去除了那些同Y不相關(guān)的X變量,那么剩下的,就都是重要的、有用的X變量了。接下來(lái)回歸分析要回答的問(wèn)題是:這些有用的X變量同Y的相關(guān)關(guān)系是正的呢,還是負(fù)的?
使命3:在確定了重要的X變量的前提下,我們還想賦予不同X不同的權(quán)重,也就是不同的回歸系數(shù),進(jìn)而我們可以知道不同變量之間的相對(duì)重要性。
第一、識(shí)別重要變量;
第二、判斷相關(guān)性的方向;
第三、要估計(jì)權(quán)重(回歸系數(shù))。
回歸分析的分類
數(shù)據(jù)的分類
橫截面數(shù)據(jù):在某一時(shí)點(diǎn)收集的不同對(duì)象的數(shù)據(jù)。
例如:
(1)我們自己發(fā)放問(wèn)卷得到的數(shù)據(jù)
(2)全國(guó)各省份2018年GDP的數(shù)據(jù)
(3)大一新生今年體測(cè)的得到的數(shù)據(jù)
時(shí)間序列數(shù)據(jù):對(duì)同一對(duì)象在不同時(shí)間連續(xù)觀察所取得的數(shù)據(jù)
例如:
(1)從出生到現(xiàn)在,你的體重的數(shù)據(jù)(每年生日稱一次)。
(2)中國(guó)歷年來(lái)GDP的數(shù)據(jù)。
(3)在某地方每隔一小時(shí)測(cè)得的溫度數(shù)據(jù)。
面板數(shù)據(jù):橫截面數(shù)據(jù)與時(shí)間序列數(shù)據(jù)綜合起來(lái)的一種數(shù)據(jù)資源。
例如:
2008‐2018年,我國(guó)各省份GDP的數(shù)據(jù)。
數(shù)據(jù)的收集
一元線性回歸
對(duì)于線性的理解
回歸系數(shù)的解釋
內(nèi)生性的探究
包含了所有與y相關(guān),但未添加到回歸模型中的變量
如果這些變量和我們已經(jīng)添加的自變量相關(guān),則存在內(nèi)生性
內(nèi)生性的蒙特卡羅模擬
%% 蒙特卡洛模擬:內(nèi)生性會(huì)造成回歸系數(shù)的巨大誤差 times = 300; % 蒙特卡洛的次數(shù) R = zeros(times,1); % 用來(lái)儲(chǔ)存擾動(dòng)項(xiàng)u和x1的相關(guān)系數(shù) K = zeros(times,1); % 用來(lái)儲(chǔ)存遺漏了x2之后,只用y對(duì)x1回歸得到的回歸系數(shù) for i = 1: timesn = 30; % 樣本數(shù)據(jù)量為nx1 = -10+rand(n,1)*20; % x1在-10和10上均勻分布,大小為30*1u1 = normrnd(0,5,n,1) - rand(n,1); % 隨機(jī)生成一組隨機(jī)數(shù)x2 = 0.3*x1 + u1; % x2與x1的相關(guān)性不確定, 因?yàn)槲覀冊(cè)O(shè)定了x2要加上u1這個(gè)隨機(jī)數(shù)% 這里的系數(shù)0.3我隨便給的,沒(méi)特殊的意義,你也可以改成其他的測(cè)試。u = normrnd(0,1,n,1); % 擾動(dòng)項(xiàng)u服從標(biāo)準(zhǔn)正態(tài)分布y = 0.5 + 2 * x1 + 5 * x2 + u ; % 構(gòu)造yk = (n*sum(x1.*y)-sum(x1)*sum(y))/(n*sum(x1.*x1)-sum(x1)*sum(x1)); % y = k*x1+b 回歸估計(jì)出來(lái)的kK(i) = k;u = 5 * x2 + u; % 因?yàn)槲覀兓貧w中忽略了5*x2,所以擾動(dòng)項(xiàng)要加上5*x2r = corrcoef(x1,u); % 2*2的相關(guān)系數(shù)矩陣R(i) = r(2,1); end plot(R,K,'*') xlabel("x_1和u'的相關(guān)系數(shù)") ylabel("k的估計(jì)值")核心解釋變量和控制變量
無(wú)內(nèi)生性(no endogeneity)要求所有解釋變量均與擾動(dòng)項(xiàng)不相關(guān)。
這個(gè)假定通常太強(qiáng),因?yàn)榻忉屪兞恳话愫芏?#xff08;比如,5‐15個(gè)解釋變量),且需要保證它們?nèi)客馍?br /> 是否可能弱化此條件?答案是肯定的,如果你的解釋變量可以區(qū)分為核心解釋變量與控制變量?jī)深悺?br /> 核心解釋變量:我們最感興趣的變量,因此我們特別希望得到對(duì)其系數(shù)的
一致估計(jì)(當(dāng)樣本容量無(wú)限增大時(shí),收斂于待估計(jì)參數(shù)的真值 )。
控制變量:我們可能對(duì)于這些變量本身并無(wú)太大興趣;而之所以把它們也
放入回歸方程,主要是為了 “控制住” 那些對(duì)被解釋變量有影響的遺漏因素。
在實(shí)際應(yīng)用中,我們只要保證核心解釋變量與𝝁不相關(guān)即可。
回歸系數(shù)的解釋
什么時(shí)候取對(duì)數(shù)?
目前,對(duì)于什么時(shí)候取對(duì)數(shù)還沒(méi)有固定的規(guī)則,但是有一些經(jīng)驗(yàn)法則:
(1)與市場(chǎng)價(jià)值相關(guān)的,例如,價(jià)格、銷售額、工資等都可以取對(duì)數(shù);
(2)以年度量的變量,如受教育年限、工作經(jīng)歷等通常不取對(duì)數(shù);
(3)比例變量,如失業(yè)率、參與率等,兩者均可;
(4)變量取值必須是非負(fù)數(shù),如果包含0,則可以對(duì)y取對(duì)數(shù)ln(1+y)
取對(duì)數(shù)的好處:(1)減弱數(shù)據(jù)的異方差性(2)如果變量本身不符合正態(tài)分布,取
了對(duì)數(shù)后可能漸近服從正態(tài)分布(3)模型形式的需要,讓模型具有經(jīng)濟(jì)學(xué)意義。
四類模型回歸系數(shù)的解釋
特殊的自變量:虛擬變量X
多分類的虛擬變量設(shè)置
含有交互項(xiàng)的自變量
回歸實(shí)例
現(xiàn)有某電商平臺(tái)846條關(guān)于嬰幼兒奶粉的銷售信息,每條信息由11個(gè)指標(biāo)組成。其中,評(píng)價(jià)量可以從一個(gè)側(cè)面反映顧客對(duì)產(chǎn)品的關(guān)注度。
請(qǐng)對(duì)所給數(shù)據(jù)進(jìn)行以下方面的分析,要求最終的分析將不僅僅有益于商家,更有益于寶媽們?yōu)閷氊愡x擇適合自己的奶粉。
數(shù)據(jù)的描述性統(tǒng)計(jì)
定量數(shù)據(jù)
定性數(shù)據(jù)
Excel中數(shù)據(jù)透視表
11個(gè)指標(biāo)的總體情況介紹
Stata回歸的語(yǔ)句
擬合優(yōu)度 R2較低怎么辦
(1)回歸分為解釋型回歸和預(yù)測(cè)型回歸。
預(yù)測(cè)型回歸一般才會(huì)更看重𝑅2 。
解釋型回歸更多的關(guān)注模型整體顯著性以及自變量的統(tǒng)計(jì)顯著性和經(jīng)濟(jì)意義顯著性即可。
(2)可以對(duì)模型進(jìn)行調(diào)整,例如對(duì)數(shù)據(jù)取對(duì)數(shù)或者平方后再進(jìn)行回歸。
(3)數(shù)據(jù)中可能有存在異常值或者數(shù)據(jù)的分布極度不均勻。
標(biāo)準(zhǔn)化回歸系數(shù)
總結(jié)
以上是生活随笔為你收集整理的【数学建模】-多元线性回归分析的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 新笔记本磁盘分区
- 下一篇: 张老师面试题讲解——交通信号灯