怎么统计是否内宿_第二关:描述统计分析
統(tǒng)計:在我的理解里面,是對各種數(shù)字,情況的一個匯總,就像我們每天做的表格一樣,匯集了不同種了不同數(shù)量不同來源的數(shù)據(jù),但這些數(shù)據(jù)雜亂無章怎么識別,那么就需要一個方法來描述這些數(shù)據(jù)——描述統(tǒng)計分析,就是讓數(shù)據(jù)可視化簡潔化,讓人們有需求的對數(shù)據(jù)進(jìn)行分析和解讀。
描述統(tǒng)計四個指標(biāo):
1.平均值
生活中最經(jīng)常碰到的一種指標(biāo),但出現(xiàn)異常數(shù)據(jù)的時候,容易造成分析錯誤。
2.四分位數(shù)
定義:是指在統(tǒng)計學(xué)中把所有數(shù)值由小到大排列并分成四等份,處于三個分割點位置的數(shù)值,處于25%的位置為下分位點,處于75%的位置為上分位點。
特點:可以識別異常的數(shù)據(jù)加以核實及刪改。
識別異常數(shù)據(jù)方法:
最小估計值:Q1-k(Q3-Q1)
最大估計值:Q3-k(Q3-Q1)
k=1.5 中度異常
k=3極度異常
(Q1為下分位點,Q2為上分位點)
3.標(biāo)準(zhǔn)差
標(biāo)準(zhǔn)差是對整體數(shù)據(jù)的波動大小進(jìn)行判斷。
標(biāo)準(zhǔn)差公式:
標(biāo)準(zhǔn)差在不同的應(yīng)用中有不同的額判斷方式:
例如:一個球員是否值得留在球隊,可分析其每場比賽得分的標(biāo)準(zhǔn)差,判斷是否穩(wěn)定,標(biāo)準(zhǔn)差越小越好,對于一個剛成立的公司來說,需分析其后期是否有較大的增值空間,則其正向波動越大則越好。
4.標(biāo)準(zhǔn)分
表示某個數(shù)值距離平均值有多少個標(biāo)準(zhǔn)差
公式:
【Z=(X-X_bar)/S
式中,X為原始分?jǐn)?shù),X_bar為原始分的平均數(shù),S為原始分的標(biāo)準(zhǔn)差。】
等于0,等于平均值;
大于零,大于平均值;
小于零,小于平均值。
數(shù)據(jù)集的選擇:表1購買商品數(shù)據(jù)集
表1購買商品(sample)sam_tianchi_mum_baby_trade_history.csv)
1)表1購買商品字段
用戶ID:user_id 是用戶注冊的ID號,可識別是否為同一個人產(chǎn)生的購買行為
商品編號(item_id):auction_id,用于對應(yīng)商品名稱
商品二級分類:cat_id,商品種類ID,表示商品屬于哪個類別
商品一級分類:cat1,商品種類ID,表示商品屬于哪個類別
這兩個分為一個大類,一個小類,可分析哪類產(chǎn)品銷量比較高,銷售力度大。
商品屬性:property,可分析哪種類別的產(chǎn)品購買需求量大,對于商家來說可以增加相關(guān)產(chǎn)品庫存量
購買數(shù)量:buy_mount:可分析相關(guān)產(chǎn)品銷量的多少
購買時間:day 可分析在什么時間段內(nèi)用戶購買量最多
你想從該數(shù)據(jù)集中得到哪些描述統(tǒng)計信息?
1.購買數(shù)量的平均值,四分位數(shù),標(biāo)準(zhǔn)差
2.購買時間的標(biāo)準(zhǔn)差
從該數(shù)據(jù)集中分析哪些業(yè)務(wù)問題?
1.用戶在哪些時間段內(nèi)購買需求最大,字段需求:購買時間:day,購買數(shù)量:buy_mount
2.哪種商品編號購買量, 字段需求:最多商品編號(item_id):auction_id,購買數(shù)量:buy_mount
3.該商品編號的商品哪種屬性的商品購買量最多,字段需求:商品編號(item_id):auction_id,商品屬性:property,購買數(shù)量:buy_mount
還需要學(xué)習(xí)的技能:標(biāo)準(zhǔn)差四分位數(shù)在Excel的函數(shù)公式,Python箱線使用
總結(jié)
以上是生活随笔為你收集整理的怎么统计是否内宿_第二关:描述统计分析的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 144hz minidp转dp_毕亚兹m
- 下一篇: OpenDDS通讯rtps_discov