當前位置：首頁 > 编程语言 > c/c++ >内容正文

c/c++

c++ 用类统计不及格人数_统计小课堂13

發布時間：2024/4/17 c/c++ 33 豆豆

生活随笔收集整理的這篇文章主要介紹了 c++ 用类统计不及格人数_统计小课堂13 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

Previous review：

1)回歸章節小結；

這周開始計數資料統計！

--------------------------------------

當觀察數據按照某種屬性和類別分組后，計數得到各組觀察單位數的資料成為計數資料(enumerationdata)。其實就相當于計量資料進行了分類。

而與計量資料的區別在于兩者的研究重點，計量重于不同處理下計量資料間的差異，而計數資料更偏向于統計某個分類占所有數據的比重，以比重去做研究。

就拿計算發病率來說，分子/分母計算發病率，即便分開比較了分子和分母的差異，并不能得到兩者相比之后是否存在差異。

大多時候得到的數值都是絕對數字，在進行技術資料的統計分析前通常先計算相對數。

三十、相對數：

相對數(relative number)是兩個有聯系的指標之比，根據不同的用途和性質分為相對比、構成比、率等。

30.1：相對比(relative ratio)

簡單來說就是兩個數的比值，可以是同單位，也可以是不同單位。甚至兩個數可以是絕對數字、相對數或平均數，啥啥都能比。

比較不同地區最低工資，是money/money，得出倍數；計算戶口問題，可以總人數/總房數，計算出每房有多少人，人/房為單位。

或者更簡單，每個人特別關心新學校的男女比例，就是男生/女生= x : x

30.2：構成比(constituent ratio)

表示事物或現象內各構成部分的比重，通常以100作為比例基數(結果乘以100%)，也稱為百分比。

構成比=內部某一構成部分的觀察單位數/各組成部分的觀察單位總數。

比如男生占總人數多少，就是一個構成比。

30.3：率(rate)

率是一個具有時期概念的比，需要強調在某一時期內某個現象發生的頻率或強度，是一個反映強度的指標。

某事情在某個時期內發生率為：

某時期內發生某事件的觀察單位數/該時期開始時暴露的觀察單位數。

舉個例子，2019年初調查了1000個人，有50人高血壓，2020年再去調查這些人，有80人高血壓，所以高血壓的發病率就應該是：(80-50)/(1000-80)，也就是只有第一年剩下的920人才可能新發病，所以30人應該是920人里面的一部分。而不是我們平時說2019年發病率是5%，2020年發病率是8%，這是口語中的錯誤概念。

30.4：標準化率

標準化率又稱調整率，簡稱為標化率。對于內部構成不同的率進行比較時，按選定的標準進行調整，使得內部構成統一后再計算標化率。

計算方法成為直接法與間接法。兩者計算結果比較接近，但是直接法計算比較簡便，易于理解，更為常用。

主要的過程：①選定標準組，標準組一般為有代表性、較穩定的并且數量較大的人群；②按照選定的計算方法計算標準化率，然后再進行比較。

比如為了比較兩個城市的發病率，但這兩個城市中年齡構成比不同，城市A中老年人較多，而城市B中年輕人比重更高。這樣統計出來的發病率并不能代表真實情況，所以需要選用一個更大的范圍(比如全國范圍)內年齡構成比來對這兩個城市的比重進行校準，這樣才能夠保證在同樣的水平上進行比較。

30.5：注意事項和誤區相對數使用時會有一些注意事項，以及口語化的相對數存在著很多誤區。

1、名為率但不是率的指標：真正意義上的率是應該有限定的時期。而有些頂著率的名頭，嚴謹來說應該是相對比或者構成比的指標比比皆是：患病率，人群中某病病人所占百分比，所以應該是一個構成比的問題，只關心某個時間點，此時此刻有多少病人，而不是一個時期新出現了多少病人。某個時間段的死亡率，一般是通過死亡人數/病人數而得，但是亡人和病人并不一定是同一時期患病的，在統計死亡人數的前幾天突然有疫情爆發，病人突然變多，死亡率就會相應下降，所以實則為相對比。

2、使用率時，分母不能太小：樣本量越多算出來的率越穩定，意義也比較大。比如一個工廠生產零件，就生產了2件全部成功，而另一個工廠生產了2w件，只有2件失敗，然后你就不能說第一個工廠更好因為成功率是100%。如果分母比較小還是提示一下絕對數字。

3、構成比和率是兩個不同的相對數，用途不一樣所以也不能混淆。

4、當各組的例數不相等的時候，計算不同率的平均值的時候不能直接把所有幾個率相加然后求平均，應該分子求和/分母求和，然后得出平均數。

5、用率做比較時，應該注意是否可比：如果不能直接相比，就像前面回歸的時候講到標準偏回歸系數，率也會有一個標準化率，需要進行標準化之后才能進行相互比較。

三十一、總體率的估計：

與樣本平均數一樣，樣本率P也是一種統計量，也有抽樣誤差，用率的標準誤Sp反映抽樣誤差的大小：Sp²=P(1-P)/n。

但是存在樣本率就會存在總體率，這樣就會存在“點估計”和“區間估計”兩個概念。當然點估計不太推薦，最好還是區間估計會好一點。

31.1：正態理論法估計率的置信區間

樣本含量較大的時候，nP(1-P)≥5時，P的抽樣分布接近正態，所以可以用正態分布計算置信區間的上下限，就和之前提到的計算置信區間差不多。

95%：P±1.96Sp；99%：P±2.58Sp。

31.1：精確法估計率的置信區間

但是當nP(1-P)＜5時，只能在小樣本的情形下使用精確法計算置信區間。

這里面我就不給出具體計算公式，因為有了公式你也不會算……

萬幸的是，有人專門計算出來了表格，通過查詢表格，找到“樣本量”和“實際數(就是計算率的時候分子量)”就可以找到對應的置信區間。

三十二、率的假設檢驗：

率的假設檢驗和前面我們所講的均數的假設檢驗類似，被區分3種情況：

①樣本率和總體率的比較；②兩樣本率的比較；③多個樣本率的比較。這三種情況的假設檢驗可以參考t檢驗的假設檢驗，后面就不一一列舉了。率的假設檢驗可以使用卡方(X²)檢驗和U檢驗，兩者在公式和一些參數上是等價的。32.1：樣本率和總體率的比較

設樣本量為n，陽性數為x，樣本率p=x/n，比較樣本所屬于的總體的率π和已知總體的率π₀是否相等。

當n較小的時候，樣本率接近0或1的時候，推薦使用泊松分布(之前戈賽特估計酵母細胞量的分布)做檢驗；當樣本率不接近0和1的時候，使用二項分布做檢驗；當n較大時，np≥5時，可以使用卡方或者U檢驗。

U檢驗：

計算出u值之后比較是否＜u_0.05，若成立則沒有差異。

卡方檢驗的話需要先根據π₀計算出理論陽性數nπ₀，和對應的理論非陽性數n(1-π₀)。

如果你將p=x/n帶入u檢驗的算式中會發現這兩個公式其實是一樣的，并且在0.05和0.01的顯著性水平上，卡方檢驗的統計量確實是U檢驗統計量的平方，所以兩者的檢驗是完全等價的。

32.2：樣本率和總體率的比較

兩個樣本統計量依次為n1，x1，p1，n2，x2，p2，計算公式還是p=x/n，兩樣本所屬于的總體率為π1和π2。

U檢驗：

?????? 卡方檢驗還是需要事先列表計算觀察頻數和理論頻數。第一個表格為觀察頻數，每一行/列都有合計，右下角是總例數。

對于觀察頻數中每個小格子的理論頻數計算是：使用行合計和列合計之積/總例數。

經過前面給過的卡方計算公式，可以得出一個規律：

如果使用四格表表示甲樣本和乙樣本的陽性數和非陽性數，簡算公式為：

X²=[(ad-bc)²(a+b+c+d)]/[(a+b)(b+c)(a+c)(b+d)]，也可以發現卡方值等于U值。

但考慮到卡方分布和U分布(正態分布)都是都是連續性的分布，而在正常情況下計數資料是間斷性的，直接使用卡方分布和U分布會使得結果有所偏差。所以統計學家對卡方檢驗制訂了一些校正規則：

1)n≥40時，所有格子的理論頻數≥5，不需要校正；

2)n≥40時，所有格子的理論頻數1≤T＜5時，需要進行卡方檢驗的校正，可以使用卡方檢驗的校正公式或者四格表專用的校正公式，分別如下：

3)n＜40時，或有至少有一個格子的理論頻數T＜1時，或當卡方檢驗的p值接近所確定的顯著性水平α時，需要使用Fisher確切概率法。

32.3：多個樣本率的比較

卡方檢驗和U檢驗的公式都和前面一樣，只是因為不再是四格表，所以前面提到的簡算公式就不再作數，具體的簡算公式(其實我覺得也一點都不簡算，該看不懂的還是看不懂)在后面R*C列聯表中提到，兩者的計算公式是一致的。(而且給你你也不用對吧，看了還占用腦容量，就算了)

--------------------------------------

開了一下計數資料統計的頭！簡要講了一些四聯表，這一最簡單的列聯表，之后會說到復雜的R*C列聯表。

下期預告：

R*C列聯表的統計分析。

總結

以上是生活随笔為你收集整理的c++ 用类统计不及格人数_统计小课堂13的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：哪一版可以打开pdg 安卓超星图书馆_南
下一篇： s3c2440移植MQTT