日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

数学建模——数据分析方法

發布時間:2024/8/1 编程问答 33 豆豆
生活随笔 收集整理的這篇文章主要介紹了 数学建模——数据分析方法 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

一、常見數據分析軟件

Excel(office三件套之一)、R語言、Eviews、origin(圖形分析工具)、SPSS(統計分析與數據挖掘)
MATLAB(墻裂推薦)、python(墻裂推薦)、SAS

二、統計性描述

  • 均值(mean)xˉ=1n∑i=1nxi\bar{x}=\frac{1}{n} \sum_{i=1}^{n} x_{i}xˉ=n1?i=1n?xi?
  • 方差(var)、均方差(std): S2=1n?1∑i=1n(xi?xˉ)2,S=1n?1∑i=1n(xi?xˉ)2\quad S^{2}=\frac{1}{n-1} \sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{2}, S=\sqrt{\frac{1}{n-1} \sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{2}}S2=n?11?i=1n?(xi??xˉ)2,S=n?11?i=1n?(xi??xˉ)2?
    (與傳統的方差不同,這里除以的是n-1)
  • 偏度(df.skewness):標準化三階中心矩陣,反映對稱性,當其值大于0時,此時數據位于均值右側的比位于左側的多
    sk=1n∑i=1n(xi?xˉ)3s3s_{k}=\frac{\frac{1}{n} \sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{3}}{s^{3}}sk?=s3n1?i=1n?(xi??xˉ)3?
  • 峰度(df.kurt):標準化四階中心矩陣,當其值大于3時,表示分布有沉重的尾巴,說明樣本有較多遠離均值的數據G2=1n∑i=1n(xi?xˉ)4(1n∑i=1n(x1?xˉ)2)2?3G_{2}=\frac{\frac{1}{n} \sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{4}}{\left(\frac{1}{n} \sum_{i=1}^{n}\left(x_{1}-\bar{x}\right)^{2}\right)^{2}}-3G2?=(n1?i=1n?(x1??xˉ)2)2n1?i=1n?(xi??xˉ)4??3
  • 分位數(df.quantile( p )):若概率0<p<1,隨機變量X或他的概率分布的分位數Za是指滿足條件p(X < Za)=α的實數
  • 三、數據的預處理

  • 缺漏數據的處理
    • 刪掉這條數據:df.dropna(axis=0,how="any",inplace=False)
    • 用均值填充:
    means = df[].mean()df[].fillna(means)
    • 用中位數來填補
    medians = df[].median()df[].fillna(medians)
    • 用眾數來填補
    modes = df[].mode()df[].fillna(modes)
  • 數據的標準化:
    最大最小值標準化和均值標準化
    xi′=xi?xmin?xmax??xmin?xi′=xi?xsx_{i}^{\prime}=\frac{x_{i}-x_{\min }}{x_{\max }-x_{\min }} \quad x_{i}^{\prime}=\frac{x_{i}-x}{s}xi?=xmax??xmin?xi??xmin??xi?=sxi??x? # 最大最小值標準化def max_min_std(data):m_max = data.max(axis=0)m_min = data.min(axis=0)data = (data - m_min)/(m_max-m_min)return data#均值標準化def mean_std(data):m_mean = data.mean(axis=0)m_std = data.std(axis=0)data = (data - m_mean)/m_stdreturn data
  • 四、相關性分析

  • 如何判斷各因素之間是否相關?
    1. pearson相關系數(df.corr(method = ))
    r=∑i=1n(xi?xˉ)(yi?yˉ)∑i=1n(xi?xˉ)2∑i=1n(yi?yˉ)2r=\frac{\sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)\left(y_{i}-\bar{y}\right)}{\sqrt{\sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{2} \sum_{i=1}^{n}\left(y_{i}-\bar{y}\right)^{2}}}r=i=1n?(xi??xˉ)2i=1n?(yi??yˉ?)2?i=1n?(xi??xˉ)(yi??yˉ?)?
    2. spearman,kendall相關系數
  • 相關程度有多大?
    1. 當R>0時,正相關,R<0時,負相關
    2. R的絕對值越接近1,表示兩個變量越接近線性關系
    3. R的絕對值越接近0,表示兩個變量越沒有相關系
    4. R的絕對值大于0.8時,視為高度相關
    5. R的絕對值介于0.5~0.8時,視為中度相關
    6. R的絕對值小于0.3時,視為不相關
  • 五、回歸分析

  • 多元線性回歸模型:
    y=β0+β1x1+β2x2+…+βpxp+εy=\beta_{0}+\beta_{1} x_{1}+\beta_{2} x_{2}+\ldots+\beta_{p} x_{p}+\varepsilony=β0?+β1?x1?+β2?x2?++βp?xp?+ε
    其中的βi\beta_{i}βi?是回歸系數
  • from sklearn.linear_model import LinearRegression linear = LinearRegression() model = linear.fix(x,y) print("截距:") print(linear.intercept_) print("回歸系數:") print(linear.coef_)

    總結

    以上是生活随笔為你收集整理的数学建模——数据分析方法的全部內容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。