日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

数学建模学习笔记(八)——分类模型

發布時間:2025/3/15 编程问答 24 豆豆
生活随笔 收集整理的這篇文章主要介紹了 数学建模学习笔记(八)——分类模型 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

文章目錄

    • 一、分類模型綜述
    • 二、邏輯回歸
    • 三、兩點分布(伯努利分布)
    • 四、連接函數的取法
    • 五、Logistic回歸模型
    • 六、在SPSS中進行二元Logistic回歸
    • 七、預測結果較差的解決
    • 八、Fisher線性判別分析
    • 九、多分類問題
    • 十、總結

一、分類模型綜述

通過樣本數據中的分類依據以及具體的分類類別,預測后續給出的對象屬于哪一類,這就是分類模型。

本文將采用邏輯回歸和Fisher線性判別分析這兩種分類算法來進行對象分類。

二、邏輯回歸

類型模型Y的特點例子
線性回歸OLS、GLS(最小二乘)連續數值變量GDP、收入等
0 - 1回歸logistic回歸二值變量(0 - 1)是否喜歡、是否到達等
定序回歸prohibit定序回歸定序變量等級評定,喜愛程度等
計數回歸泊松回歸(泊松分布)計數變量每分鐘車流量,次數等
生存回歸Cox等比例風險回歸生存變量企業、產品的壽命等

邏輯回歸的因變量即為二值變量類型,可以將 yyy 看作屬于某一類的概率—— y?0.05y \geqslant 0.05y?0.05,則屬于這一類;反之,y?0.05y \leqslant 0.05y?0.05,則不屬于這一類。

三、兩點分布(伯努利分布)

事件10
概率ppp1?p1 - p1?p

在給定 x\mathbf{x}x 的情況下,考慮 yyy 的兩點分布概率

{P(y=1∣x)=F(x,β)P(y=0∣x)=1?F(x,β)\left\{ \begin{aligned} &P(y = 1|\mathbf{x}) = F(\mathbf{x}, \mathbf{\beta}) \\ &P(y = 0|\mathbf{x}) = 1 - F(\mathbf{x}, \mathbf{\beta}) \end{aligned} \right.{?P(y=1x)=F(x,β)P(y=0x)=1?F(x,β)? 注:一般 F(x,β)=F(xi′β)F(\mathbf{x}, \mathbf{\beta}) = F(\mathbf{x_i'\beta})F(x,β)=F(xi?β)

F(x,β)F(\mathbf{x}, \beta)F(x,β) 稱為連接函數,它將解釋變量 xxx 和被解釋變量 yyy 連接起來。
我們只需要保證 F(x,β)F(\mathbf{x}, \beta)F(x,β) 是值域在 [0,1][0, 1][0,1] 上的函數,就能保證 0?y^?10 \leqslant \hat{y} \leqslant 10?y^??1

根據兩點分布求概率的公式:E(y∣x)=1×P(y=1∣x)+0×P(y=0∣x)=P(y=1∣x)E(y|\mathbf{x}) = 1 \times P(y = 1|\mathbf{x}) + 0 \times P(y = 0|\mathbf{x}) = P(y = 1|\mathbf{x})E(yx)=1×P(y=1x)+0×P(y=0x)=P(y=1x),因此可以將 y^\hat{y}y^? 理解為 y=1y = 1y=1 發生的概率。

四、連接函數的取法

  • F(x,β)F(\mathbf{x}, \beta)F(x,β) 可以取為標準正態分布的累積密度函數(cdfcdfcdf):F(x,β)=Φ(xi′β)=∫?∞xi′β12πe?t22dtF(\mathbf{x}, \beta) = \Phi(\mathbf{x_i}'\beta) = \int^{\mathbf{x_i}'\beta}_{-\infty}\frac{1}{\sqrt{2\pi}}e^{-\frac{t^2}{2}}dtF(x,β)=Φ(xi?β)=?xi?β?2π?1?e?2t2?dt(probit回歸)
  • F(x,β)F(\mathbf{x}, \beta)F(x,β) 可以取為 SigmoidSigmoidSigmoid 函數F(x,β)=S(xi′β)=exp(xi′β)1+exp(xi′β)F(\mathbf{x}, \beta) = S(\mathbf{x_i}'\beta) = \frac{exp(\mathbf{x_i}'\beta)}{1 + exp(\mathbf{x_i}'\beta)}F(x,β)=S(xi?β)=1+exp(xi?β)exp(xi?β)?(logistic回歸)
    可以看出,前者計算積分會比較困難,因此我們可以選擇使用更為方便的logistic模型。
  • 五、Logistic回歸模型

    在給定 x\mathbf{x}x 的情況下,考慮 yyy 的兩點分布概率{P(y=1∣x)=F(x,β)P(y=0∣x)=1?F(x,β)\left\{ \begin{aligned} &P(y = 1|\mathbf{x}) = F(\mathbf{x}, \beta) \\ &P(y = 0|\mathbf{x}) = 1 - F(\mathbf{x}, \beta) \end{aligned} \right.{?P(y=1x)=F(x,β)P(y=0x)=1?F(x,β)?因為 E(y∣x)=1×P(y=1∣x)+0×P(y=0∣x)=P(y=1∣x)E(y|\mathbf{x}) = 1 \times P(y = 1|\mathbf{x}) + 0 \times P(y = 0|\mathbf{x}) = P(y = 1|\mathbf{x})E(yx)=1×P(y=1x)+0×P(y=0x)=P(y=1x),因此可以將 y^\hat{y}y^? 理解為 y=1y = 1y=1 發生的概率。
    yi^=P(yi=1∣x)=S(xi′β)=exp(xi′β)1+exp(xi′β)=eβ0^+β1^x1i+β2^x2i+?+βk^xki1+eβ0^+β1^x1i+β2^x2i+?+βk^xki\hat{y_i} = P(y_i = 1|\mathbf{x}) = S(\mathbf{x_i}'\beta) = \frac{exp(\mathbf{x_i}'\beta)}{1 + exp(\mathbf{x_i}'\beta)} \\= \frac{e^{\hat{\beta_0} + \hat{\beta_1}x_{1i} + \hat{\beta_2}x_{2i} + \cdots + \hat{\beta_k}x_{ki}}}{1 + e^{\hat{\beta_0} + \hat{\beta_1}x_{1i} + \hat{\beta_2}x_{2i} + \cdots + \hat{\beta_k}x_{ki}}}yi?^?=P(yi?=1x)=S(xi?β)=1+exp(xi?β)exp(xi?β)?=1+eβ0?^?+β1?^?x1i?+β2?^?x2i?+?+βk?^?xki?eβ0?^?+β1?^?x1i?+β2?^?x2i?+?+βk?^?xki?? 如果 yi^?0.5\hat{y_i} \geqslant 0.5yi?^??0.5,則認為其預測的 y=1y = 1y=1;否則則認為其預測的 y=0y = 0y=0

    六、在SPSS中進行二元Logistic回歸

    回歸結果:

    回歸結果表示19個蘋果樣本,預測為蘋果的有14個,正確率為73.7%;同理,預測為橙子的結果有15個,預測的正確率為78.9%。

    通過這樣的回歸我們便可以知道 β0,β1,?,βk\beta_0, \beta_1, \cdots, \beta_kβ0?,β1?,?,βk? 的值(表格第三列)。

    將后續數據帶入方程后,若 yi^?0.5\hat{y_i} \geqslant 0.5yi?^??0.5,則說明其預測的結果是蘋果,否則則為橙子。

    同時,我們還可以在表格中看到這兩列:

    這里可以查看具體預測的值和具體的預測結果。

    七、預測結果較差的解決

    若對預測結果不滿意,可以在logistic回歸模型中加入平方項、交互項等

    如果加入了平方項,那么預測的結果:

    完全符合,這種現象叫做過擬合現象。其對于樣本數據預測得非常好,但是對于樣本外的數據得預測效果可能會差很多。

    那么我們該如何確定合適得預測模型呢?
    可以將數據分為訓練組測試組(一般是八二開),讓訓練組取估計模型,然后用測試組得數據來進行測試。可以多進行幾次,求得每個模型的平均準確率,取準確率最高的那個模型。(交叉驗證)

    八、Fisher線性判別分析

  • 主要思想
    給定訓練集樣例,設法將樣例投影到一維的直線上,使得同類樣例的投影點盡可能接近和密集,異類投影點盡可能遠離。
  • 在SPSS中進行Fisher線性判別分析
    結果為:

    這個表格表示線性系數。

    還可以從表格后面多出的列中得到具體的預測結果。
  • 九、多分類問題

  • 多分類問題
    在二分類的問題上,類別不再是只有兩個類別,現在有多個類別。
  • 使用Logistic回歸解決多分類問題
    在SPSS中進行logistic回歸分析,可以得出結果:

    可以得出預測分類結果。
  • 使用Fisher判別分析解決多分類問題
    同樣可以使用Fisher判別分析來求解多分類問題。在定義范圍的時候將范圍擴大即可。

    從結果表格中同樣可以得出預測分類結果。
  • 十、總結

    解決分類模型,主要步驟可以總結為一下幾點:

  • 確定類別以及分類數據;
  • Logistic回歸 or Fisher判別分析?
  • 若是Logistic回歸,預測結果怎么樣?是否需要訓練出合適的模型?
  • 根據模型在SPSS中調用對應的命令得出結果;
  • 對結果進行解釋。
  • 總結

    以上是生活随笔為你收集整理的数学建模学习笔记(八)——分类模型的全部內容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。