當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

数学建模——数据分析方法

發布時間：2024/8/1 编程问答 33 豆豆

生活随笔收集整理的這篇文章主要介紹了数学建模——数据分析方法小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

一、常見數據分析軟件

Excel（office三件套之一）、R語言、Eviews、origin(圖形分析工具)、SPSS（統計分析與數據挖掘）
MATLAB（墻裂推薦）、python（墻裂推薦）、SAS

二、統計性描述

均值(mean)：

xˉ=1n∑i=1nxi\bar{x}=\frac{1}{n} \sum_{i=1}^{n} x_{i}

方差(var)、均方差(std):

S2=1n?1∑i=1n(xi?xˉ)2,S=1n?1∑i=1n(xi?xˉ)2\quad S^{2}=\frac{1}{n-1} \sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{2}, S=\sqrt{\frac{1}{n-1} \sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{2}}

(與傳統的方差不同，這里除以的是n-1)

偏度（df.skewness）:標準化三階中心矩陣，反映對稱性，當其值大于0時，此時數據位于均值右側的比位于左側的多

sk=1n∑i=1n(xi?xˉ)3s3s_{k}=\frac{\frac{1}{n} \sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{3}}{s^{3}}

峰度（df.kurt）：標準化四階中心矩陣，當其值大于3時，表示分布有沉重的尾巴，說明樣本有較多遠離均值的數據

G2=1n∑i=1n(xi?xˉ)4(1n∑i=1n(x1?xˉ)2)2?3G_{2}=\frac{\frac{1}{n} \sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{4}}{\left(\frac{1}{n} \sum_{i=1}^{n}\left(x_{1}-\bar{x}\right)^{2}\right)^{2}}-3

分位數（df.quantile( p )）：若概率0<p<1,隨機變量X或他的概率分布的分位數Za是指滿足條件p(X < Za)=α的實數

三、數據的預處理

缺漏數據的處理

刪掉這條數據：df.dropna(axis=0,how="any",inplace=False)
用均值填充:

means = df[列].mean()df[列].fillna(means)

用中位數來填補

medians = df[列].median()df[列].fillna(medians)

用眾數來填補

modes = df[列].mode()df[列].fillna(modes)

數據的標準化：
最大最小值標準化和均值標準化

xi′=xi?xmin?xmax??xmin?xi′=xi?xsx_{i}^{\prime}=\frac{x_{i}-x_{\min }}{x_{\max }-x_{\min }} \quad x_{i}^{\prime}=\frac{x_{i}-x}{s}

# 最大最小值標準化def max_min_std(data):m_max = data.max(axis=0)m_min = data.min(axis=0)data = (data - m_min)/(m_max-m_min)return data#均值標準化def mean_std(data):m_mean = data.mean(axis=0)m_std = data.std(axis=0)data = (data - m_mean)/m_stdreturn data

四、相關性分析

如何判斷各因素之間是否相關？
1. pearson相關系數(df.corr(method = ))：

r=∑i=1n(xi?xˉ)(yi?yˉ)∑i=1n(xi?xˉ)2∑i=1n(yi?yˉ)2r=\frac{\sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)\left(y_{i}-\bar{y}\right)}{\sqrt{\sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{2} \sum_{i=1}^{n}\left(y_{i}-\bar{y}\right)^{2}}}

2. spearman,kendall相關系數

相關程度有多大？
1. 當R>0時，正相關，R<0時，負相關
2. R的絕對值越接近1，表示兩個變量越接近線性關系
3. R的絕對值越接近0，表示兩個變量越沒有相關系
4. R的絕對值大于0.8時，視為高度相關
5. R的絕對值介于0.5~0.8時，視為中度相關
6. R的絕對值小于0.3時，視為不相關

五、回歸分析

多元線性回歸模型：

y=β0+β1x1+β2x2+…+βpxp+εy=\beta_{0}+\beta_{1} x_{1}+\beta_{2} x_{2}+\ldots+\beta_{p} x_{p}+\varepsilon

其中的

βi\beta_{i}

是回歸系數

from sklearn.linear_model import LinearRegression linear = LinearRegression() model = linear.fix(x,y) print("截距：") print(linear.intercept_) print("回歸系數：") print(linear.coef_)

總結

以上是生活随笔為你收集整理的数学建模——数据分析方法的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：华南理工计算机电路基础试题,华南理工计算
下一篇：数字电路笔试题目