日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程语言 > c/c++ >内容正文

c/c++

c++ 用类统计不及格人数_统计小课堂13

發布時間:2024/4/17 c/c++ 33 豆豆
生活随笔 收集整理的這篇文章主要介紹了 c++ 用类统计不及格人数_统计小课堂13 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

Previous review:

1)回歸章節小結;

這周開始計數資料統計!

--------------------------------------

當觀察數據按照某種屬性和類別分組后,計數得到各組觀察單位數的資料成為計數資料(enumerationdata)。其實就相當于計量資料進行了分類。

而與計量資料的區別在于兩者的研究重點,計量重于不同處理下計量資料間的差異,而計數資料更偏向于統計某個分類占所有數據的比重,以比重去做研究。

就拿計算發病率來說,分子/分母計算發病率,即便分開比較了分子和分母的差異,并不能得到兩者相比之后是否存在差異。

大多時候得到的數值都是絕對數字,在進行技術資料的統計分析前通常先計算相對數。

三十、相對數:

相對數(relative number)是兩個有聯系的指標之比,根據不同的用途和性質分為相對比、構成比、率等。

30.1:相對比(relative ratio)

簡單來說就是兩個數的比值,可以是同單位,也可以是不同單位。甚至兩個數可以是絕對數字、相對數或平均數,啥啥都能比。

比較不同地區最低工資,是money/money,得出倍數;計算戶口問題,可以總人數/總房數,計算出每房有多少人,人/房為單位。

或者更簡單,每個人特別關心新學校的男女比例,就是男生/女生= x : x

30.2:構成比(constituent ratio)

表示事物或現象內各構成部分的比重,通常以100作為比例基數(結果乘以100%),也稱為百分比。

構成比=內部某一構成部分的觀察單位數/各組成部分的觀察單位總數。

比如男生占總人數多少,就是一個構成比。

30.3:率(rate)

率是一個具有時期概念的比,需要強調在某一時期內某個現象發生的頻率或強度,是一個反映強度的指標。

某事情在某個時期內發生率為:

某時期內發生某事件的觀察單位數/該時期開始時暴露的觀察單位數。

舉個例子,2019年初調查了1000個人,有50人高血壓,2020年再去調查這些人,有80人高血壓,所以高血壓的發病率就應該是:(80-50)/(1000-80),也就是只有第一年剩下的920人才可能新發病,所以30人應該是920人里面的一部分。而不是我們平時說2019年發病率是5%,2020年發病率是8%,這是口語中的錯誤概念。

30.4:標準化率

標準化率又稱調整率,簡稱為標化率。對于內部構成不同的率進行比較時,按選定的標準進行調整,使得內部構成統一后再計算標化率。

計算方法成為直接法與間接法。兩者計算結果比較接近,但是直接法計算比較簡便,易于理解,更為常用。

主要的過程:①選定標準組,標準組一般為有代表性、較穩定的并且數量較大的人群;②按照選定的計算方法計算標準化率,然后再進行比較。

比如為了比較兩個城市的發病率,但這兩個城市中年齡構成比不同,城市A中老年人較多,而城市B中年輕人比重更高。這樣統計出來的發病率并不能代表真實情況,所以需要選用一個更大的范圍(比如全國范圍)內年齡構成比來對這兩個城市的比重進行校準,這樣才能夠保證在同樣的水平上進行比較。

30.5:注意事項和誤區相對數使用時會有一些注意事項,以及口語化的相對數存在著很多誤區。

1、名為率但不是率的指標:真正意義上的率是應該有限定的時期。而有些頂著率的名頭,嚴謹來說應該是相對比或者構成比的指標比比皆是:患病率,人群中某病病人所占百分比,所以應該是一個構成比的問題,只關心某個時間點,此時此刻有多少病人,而不是一個時期新出現了多少病人。某個時間段的死亡率,一般是通過死亡人數/病人數而得,但是亡人和病人并不一定是同一時期患病的,在統計死亡人數的前幾天突然有疫情爆發,病人突然變多,死亡率就會相應下降,所以實則為相對比。

2、使用率時,分母不能太小:樣本量越多算出來的率越穩定,意義也比較大。比如一個工廠生產零件,就生產了2件全部成功,而另一個工廠生產了2w件,只有2件失敗,然后你就不能說第一個工廠更好因為成功率是100%。如果分母比較小還是提示一下絕對數字。

3、構成比和率是兩個不同的相對數,用途不一樣所以也不能混淆。

4、當各組的例數不相等的時候,計算不同率的平均值的時候不能直接把所有幾個率相加然后求平均,應該分子求和/分母求和,然后得出平均數。

5、用率做比較時,應該注意是否可比:如果不能直接相比,就像前面回歸的時候講到標準偏回歸系數,率也會有一個標準化率,需要進行標準化之后才能進行相互比較。

三十一、總體率的估計:

與樣本平均數一樣,樣本率P也是一種統計量,也有抽樣誤差,用率的標準誤Sp反映抽樣誤差的大小:Sp2=P(1-P)/n。

但是存在樣本率就會存在總體率,這樣就會存在“點估計”和“區間估計”兩個概念。當然點估計不太推薦,最好還是區間估計會好一點。

31.1:正態理論法估計率的置信區間

樣本含量較大的時候,nP(1-P)≥5時,P的抽樣分布接近正態,所以可以用正態分布計算置信區間的上下限,就和之前提到的計算置信區間差不多。

95%:P±1.96Sp;99%:P±2.58Sp。

31.1:精確法估計率的置信區間

但是當nP(1-P)<5時,只能在小樣本的情形下使用精確法計算置信區間。

這里面我就不給出具體計算公式,因為有了公式你也不會算……

萬幸的是,有人專門計算出來了表格,通過查詢表格,找到“樣本量”和“實際數(就是計算率的時候分子量)”就可以找到對應的置信區間。

三十二、率的假設檢驗:

率的假設檢驗和前面我們所講的均數的假設檢驗類似,被區分3種情況:

①樣本率和總體率的比較;②兩樣本率的比較;③多個樣本率的比較。這三種情況的假設檢驗可以參考t檢驗的假設檢驗,后面就不一一列舉了。率的假設檢驗可以使用卡方(X2)檢驗和U檢驗,兩者在公式和一些參數上是等價的。32.1:樣本率和總體率的比較

設樣本量為n,陽性數為x,樣本率p=x/n,比較樣本所屬于的總體的率π和已知總體的率π0是否相等。

當n較小的時候,樣本率接近0或1的時候,推薦使用泊松分布(之前戈賽特估計酵母細胞量的分布)做檢驗;當樣本率不接近0和1的時候,使用二項分布做檢驗;當n較大時,np≥5時,可以使用卡方或者U檢驗。

U檢驗:

計算出u值之后比較是否<u0.05,若成立則沒有差異。

卡方檢驗的話需要先根據π0計算出理論陽性數nπ0,和對應的理論非陽性數n(1-π0)。

如果你將p=x/n帶入u檢驗的算式中會發現這兩個公式其實是一樣的,并且在0.05和0.01的顯著性水平上,卡方檢驗的統計量確實是U檢驗統計量的平方,所以兩者的檢驗是完全等價的。

32.2:樣本率和總體率的比較

兩個樣本統計量依次為n1,x1,p1,n2,x2,p2,計算公式還是p=x/n,兩樣本所屬于的總體率為π1和π2。

U檢驗:

?????? 卡方檢驗還是需要事先列表計算觀察頻數和理論頻數。第一個表格為觀察頻數,每一行/列都有合計,右下角是總例數。

對于觀察頻數中每個小格子的理論頻數計算是:使用行合計和列合計之積/總例數。

經過前面給過的卡方計算公式,可以得出一個規律:

如果使用四格表表示甲樣本和乙樣本的陽性數和非陽性數,簡算公式為:

X2=[(ad-bc)2(a+b+c+d)]/[(a+b)(b+c)(a+c)(b+d)],也可以發現卡方值等于U值。

但考慮到卡方分布和U分布(正態分布)都是都是連續性的分布,而在正常情況下計數資料是間斷性的,直接使用卡方分布和U分布會使得結果有所偏差。所以統計學家對卡方檢驗制訂了一些校正規則:

1)n≥40時,所有格子的理論頻數≥5,不需要校正;

2)n≥40時,所有格子的理論頻數1≤T<5時,需要進行卡方檢驗的校正,可以使用卡方檢驗的校正公式或者四格表專用的校正公式,分別如下:

3)n<40時,或有至少有一個格子的理論頻數T<1時,或當卡方檢驗的p值接近所確定的顯著性水平α時,需要使用Fisher確切概率法。

32.3:多個樣本率的比較

卡方檢驗和U檢驗的公式都和前面一樣,只是因為不再是四格表,所以前面提到的簡算公式就不再作數,具體的簡算公式(其實我覺得也一點都不簡算,該看不懂的還是看不懂)在后面R*C列聯表中提到,兩者的計算公式是一致的。(而且給你你也不用對吧,看了還占用腦容量,就算了)

--------------------------------------

開了一下計數資料統計的頭!簡要講了一些四聯表,這一最簡單的列聯表,之后會說到復雜的R*C列聯表。

下期預告:

R*C列聯表的統計分析。

總結

以上是生活随笔為你收集整理的c++ 用类统计不及格人数_统计小课堂13的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。