日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

越看越爽,此后统计学习不再是路人!

發(fā)布時(shí)間:2023/12/2 编程问答 40 豆豆
生活随笔 收集整理的這篇文章主要介紹了 越看越爽,此后统计学习不再是路人! 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.
點(diǎn)擊上方“AI派”,選擇“設(shè)為星標(biāo)”最新分享,第一時(shí)間送達(dá)!

?【加薪必備】全套零基礎(chǔ)學(xué)AI資料免費(fèi)領(lǐng)!

作者:賈勝杰,碩士,退役軍人,電氣工程專業(yè),現(xiàn)成功轉(zhuǎn)行K12領(lǐng)域數(shù)據(jù)挖掘工程師,不僅在數(shù)據(jù)清理、分析和預(yù)測(cè)方向,而且在自制力和高效學(xué)習(xí)方面都有豐富經(jīng)驗(yàn)。?

編輯:王老濕

Hi,各位同學(xué),專欄關(guān)于修煉技法的部分已經(jīng)發(fā)布了 7 篇:

  • 通過(guò)這些文章,我們學(xué)習(xí)了Numpy的基本操作、數(shù)據(jù)分析的基本流程、Pandas在數(shù)據(jù)分析各個(gè)過(guò)程中的應(yīng)用以及Matplotlib&Pandas的可視化基礎(chǔ),也就是說(shuō),你們已經(jīng)算是掌握了基礎(chǔ)的數(shù)據(jù)分析技能啦!撒花!但是在統(tǒng)計(jì)學(xué)理論和預(yù)測(cè)方面仍有欠缺,那么在本階段我們就來(lái)補(bǔ)上!

    我們分兩篇文章來(lái)介紹數(shù)據(jù)分析相關(guān)的基礎(chǔ)概率論與統(tǒng)計(jì)學(xué)知識(shí):

    • 上篇:描述統(tǒng)計(jì)學(xué)、概率與貝葉斯法則、常見(jiàn)概率分布

    • 下篇:推論統(tǒng)計(jì)學(xué)、置信區(qū)間、假設(shè)檢驗(yàn)、線性回歸、邏輯回歸

    描述統(tǒng)計(jì)學(xué)基礎(chǔ)

    描述統(tǒng)計(jì)分析就是通過(guò)數(shù)字或可視化的方法,對(duì)數(shù)據(jù)集進(jìn)行整理、分析,并對(duì)數(shù)據(jù)的分布狀態(tài)、數(shù)字特征和隨機(jī)變量之間的關(guān)系進(jìn)行估計(jì)和描述。其簡(jiǎn)要可以分為集中趨勢(shì)分析、離散程度分析以及相關(guān)分析三大部分。

    數(shù)據(jù)類型

    數(shù)據(jù)類型是基礎(chǔ),尤其是之后在進(jìn)行回歸預(yù)測(cè)時(shí),針對(duì)不同的數(shù)據(jù)類型可以選擇不同的算法,所以必須掌握。

    數(shù)據(jù)類型可以分為兩大類:數(shù)值和分類;進(jìn)而分為四小類:連續(xù)、離散、定序和定類。

    數(shù)據(jù)類型

    數(shù)值:連續(xù)離散

    身高、年齡、收入書(shū)中的頁(yè)數(shù)、院子里的樹(shù)、咖啡店里的狗
    分類:定序定類

    字母成績(jī)等級(jí)、調(diào)查評(píng)級(jí)性別、婚姻狀況、早餐食品

    描述統(tǒng)計(jì)的量

    數(shù)據(jù)類型描述方面描述方式備注
    數(shù)值:集中趨勢(shì)均值


    中位數(shù)偶數(shù)個(gè)時(shí)取中間兩值均數(shù)


    眾數(shù)存在沒(méi)有或多個(gè)的可能

    離散程度極差max - min


    四分位差(IQR)75%數(shù) - 25%數(shù)


    方差每個(gè)觀察值與均值之差平方和的平均數(shù)


    標(biāo)準(zhǔn)差方差的平方根

    數(shù)據(jù)形狀左偏態(tài)均值小于中位數(shù)(普遍但不絕對(duì),下同)

    (需做直方圖)右偏態(tài)均值大于中位數(shù)


    對(duì)稱分布(通常是正態(tài)分布)均值等于中位數(shù)

    異常值一般為上下超過(guò)1.5倍四分位差處理方式見(jiàn)下面【異常值的處理】
    分類:分類計(jì)量個(gè)數(shù)或比例

    • 偏態(tài)分布示意圖

    • 其他相關(guān)概念:

    • 五數(shù)概括描述法:利用最小值、第一四分位數(shù)(25%處)、第二四分位數(shù)(中位數(shù))、第三四分位數(shù)(75%處)和最大值五個(gè)數(shù)對(duì)數(shù)值型變量的離散程度進(jìn)行描述的方法。

    • 當(dāng)我們的數(shù)據(jù)遵循正態(tài)分布時(shí),我們可以使用均值和標(biāo)準(zhǔn)差描述我們的數(shù)據(jù)集。

      但是,如果我們的數(shù)據(jù)集是偏態(tài)分布,五數(shù)概括法(和關(guān)聯(lián)的集中趨勢(shì)度量)更適用于概括數(shù)據(jù)。

    • 除直方圖外,你還可以使用箱線圖進(jìn)行統(tǒng)計(jì)描述,箱線圖其實(shí)是五數(shù)概括法的可視化。

    • 異常值的處理:

      1. 注意到它們的存在并確定對(duì)統(tǒng)計(jì)的影響,可以通過(guò)繪制直方圖或箱線圖的方法直觀觀察,也可以使用五數(shù)概括法(對(duì)應(yīng)于Pandas中的describe函數(shù))

      2. 如果是輸入錯(cuò)誤 — 刪除或改正

      3. 理解它們?yōu)楹未嬖?#xff0c;以及對(duì)我們關(guān)注數(shù)據(jù)問(wèn)題的影響。

      4. 當(dāng)有異常值時(shí),使用五數(shù)概括法的值通常能比均值和標(biāo)準(zhǔn)差等度量更好地體現(xiàn)異常值的存在。

    辛普森悖論

    我們先舉個(gè)例子?,如下所示是我編的院校錄取數(shù)據(jù)。

    專業(yè)男生申請(qǐng)男生錄取男生錄取率女生申請(qǐng)女生錄取女生錄取率
    A80040050%20015075%
    B2002010%80016020%
    合集100042042%100031031%

    從上表中我們很明顯能看出,如果只比較A專業(yè)或者B專業(yè)的話,女生的錄取率均高于男生,說(shuō)明女生更受青睞嗎?如果我們看整個(gè)院校兩專業(yè)合計(jì)的話,男生的錄取率又比女生高了,那這又說(shuō)明男生更受青睞嗎?辛普森悖論,辛普森悖論是在某個(gè)條件下的兩組變量,分別討論時(shí)都會(huì)滿足某種性質(zhì),可是一旦合并考慮,卻可能導(dǎo)致相反的結(jié)論。混雜因素,混雜因素就是一個(gè)與核心研究無(wú)關(guān)的變量,它會(huì)隨著變量的改變而改變,就比如說(shuō)在如上的例子中,不同專業(yè)的總?cè)藬?shù)就有很大差異,它會(huì)隨著專業(yè)的改變而改變,正是由于改變量的變化才導(dǎo)致了悖論的出現(xiàn)。以多種方式去觀察數(shù)據(jù)。在之后處理類似問(wèn)題時(shí)就要進(jìn)行多變量分析,查看是否存在潛在因素,這樣才能幫助我們認(rèn)清事件的本質(zhì)。

    概率

    概率與統(tǒng)計(jì)的關(guān)系

    在介紹概率之前,我們先來(lái)看下概率與統(tǒng)計(jì)之間的關(guān)系:


    (圖像來(lái)源:Udacity)

    概率是由模型(MODEL)去預(yù)測(cè)數(shù)據(jù)(DATA),而統(tǒng)計(jì)是由數(shù)據(jù)去建立模型(進(jìn)而再去做預(yù)測(cè))。

    基礎(chǔ)知識(shí)

    概率,是一種幾率、可能性,描述是事件發(fā)生的可能性度量量。隨機(jī)事件,指一個(gè)被賦予機(jī)率的事件集合,針對(duì)的是事件在樣本空間的一個(gè)子集。事件A發(fā)生的概率,用符號(hào)P(A)表示 。

    • 任何事件的發(fā)生概率在 0 和 1 之間,其中包括 0 和 1。(0表示不可能發(fā)生,1表示必然發(fā)生)

    • 獨(dú)立事件:事件A與事件B是否發(fā)生/發(fā)生的結(jié)果沒(méi)有任何關(guān)系,就可以說(shuō)事件A與B互為獨(dú)立事件。比如說(shuō),第一次擲骰子的結(jié)果與第二次的結(jié)果

    • 互斥事件:不可能在同一次實(shí)驗(yàn)中出現(xiàn)的倆事件。比如說(shuō),擲骰子實(shí)驗(yàn)中的1和6

    • 對(duì)立事件:是一種特殊的互斥事件,即試驗(yàn)中只有倆種可能A和B,那么事情的發(fā)生非A即B。可以表示為

      如擲硬幣的正面和反面。

    • 加法原理:若兩種方法均能完成此事,則此事發(fā)生的概率為P(A) + P(B)

    • 乘法原理:若兩個(gè)步驟分別不能完成此事,則此事發(fā)生的概率為P(A)·P(B)

    兩種常見(jiàn)的離散型分布

    二項(xiàng)分布

    也叫伯努利分布,指n個(gè)獨(dú)立的事件A發(fā)生的概率分布。設(shè)每次試驗(yàn)中事件A發(fā)生的概率為p,則進(jìn)行n次試驗(yàn),A發(fā)生k次的概率為:


    如檢查某產(chǎn)品,有n個(gè)產(chǎn)品合格的概率。

    泊松分布

    如果某事件以固定強(qiáng)度隨機(jī)且獨(dú)立的出現(xiàn),該事件在單位時(shí)間/單位面積內(nèi)出現(xiàn)的次數(shù)(個(gè)數(shù))就可以看作是泊松分布。它的表達(dá)式為:

    條件概率

    在現(xiàn)實(shí)中,我們處理的事情并不像骰子和硬幣那樣簡(jiǎn)單,有些時(shí)間的結(jié)果往往依賴于其他的事情,比如說(shuō)晨練的概率跟這個(gè)人是不是夜貓子有關(guān)等等。那么,這就引出了條件概率,即在事件B發(fā)生的條件下,事件A發(fā)生的概率為:

    其中,表示同時(shí)發(fā)生的概率。

    我們可以使用文氏圖來(lái)幫助我們理解事件之間的關(guān)系,如下圖中,AB同時(shí)發(fā)生的概率可以表示為兩個(gè)圓的交集,那么B已經(jīng)發(fā)生的條件下A發(fā)生的概率就是這個(gè)交集(橙色部分)占整個(gè)B圓的比例。

    之前講過(guò)獨(dú)立事件,那么用公式的方式可以表達(dá)為:P(A) = P(A|B)。根據(jù)條件概率公式可以推導(dǎo)出,當(dāng)P(AB) = P(A)P(B)時(shí),則可說(shuō)明A事件與B事件相互獨(dú)立。

    全概率公式

    也就是A發(fā)生的概率為在互斥的多個(gè)事件(B1,B2…)已發(fā)生的條件下的條件概率之和。公式可以表示為:

    貝葉斯法則

    貝葉斯法則是概率推理的黃金法則,是利用先驗(yàn)概率計(jì)算后驗(yàn)概率的方法。

    我們還是通過(guò)一個(gè)例子來(lái)闡述,假設(shè)某醫(yī)院新研究了一種檢驗(yàn)患者是否患癌的技術(shù),臨床測(cè)試數(shù)據(jù)如下:該技術(shù)具有5%的假陽(yáng)性及3%的假陰性,現(xiàn)已知某一群體的患癌率為0.005,問(wèn)該技術(shù)是否可以應(yīng)用于普查。

    我們?cè)O(shè)事件Pos={檢查結(jié)果為陽(yáng)性},事件C={檢查者患癌},那么如上的臨床數(shù)據(jù)可以寫(xiě)成:

    而我們的目的是確認(rèn)該技術(shù)是否可以用于普查,也就是檢查結(jié)果為陽(yáng)性時(shí)的患癌率(真陽(yáng)性),也就是,這個(gè)值越高,該檢查就越適合普查.

    由已知條件,可以計(jì)算出:

    ?那如果群體的患癌率比較高,約為90%,那么檢查結(jié)果為陽(yáng)性的患癌率有多少呢?這又說(shuō)明了什么?

    在這個(gè)例子中:

    癌癥發(fā)生的概率P(C)為先驗(yàn)概率,即在我們進(jìn)行檢查之前就對(duì)患癌概率的一個(gè)判斷;陽(yáng)性結(jié)果下為癌癥的概率P(C|Pos)為后驗(yàn)概率(陽(yáng)性下非癌癥、陰性癌癥、陰性非癌癥都是),這些是在檢查發(fā)生之后,我們對(duì)患癌概率這件事的重新評(píng)估。

    這就是貝葉斯法則的含義。我們先預(yù)估一個(gè)"先驗(yàn)概率",然后加入實(shí)驗(yàn)結(jié)果,由此得到更接近事實(shí)的"后驗(yàn)概率"。

    如果感覺(jué)理解困難,可以看一下白話版的貝葉斯講解:怎樣用非數(shù)學(xué)語(yǔ)言講解貝葉斯定理(Bayes's theorem)

    Python在概率中的應(yīng)用

    前面我們了解了概率的基本知識(shí),本節(jié)就是利用Python去實(shí)施,應(yīng)用的第三方包為NumPy和Pandas。

    均勻隨機(jī)取整

    使用的函數(shù)為numpy.random.randint(low, high=None, size=None, dtype='l'):

    • low:當(dāng)沒(méi)有high參數(shù)輸入時(shí),作為取值范圍的最大值+1;當(dāng)有high參數(shù)輸入時(shí),則作為取值范圍的最小值;

    • high:取值范圍的最大值+1,默認(rèn)為無(wú)輸入;

    • size:輸入數(shù)字則表示取值的數(shù)量,輸入元組則表示取值矩陣的行和列;

    • dtype:數(shù)據(jù)類型,默認(rèn)為np.int;

    • 函數(shù)的輸出為int或者是由int數(shù)據(jù)類型組成的ndarray。

    函數(shù)的具體用法如下:

    import?numpy?as?np#?未定義high參數(shù),取值范圍是是0到1(即low?-?1) >>>?np.random.randint(2,?size=10) array([1,?0,?0,?0,?1,?1,?0,?0,?1,?0]) #?定義了high參數(shù),取值范圍是2(即low)到4(即high?-?1) >>>?np.random.randint(2,5,size?=?10) array([2,?2,?3,?3,?4,?2,?3,?2,?2,?4]) #?定義一個(gè)2x4的矩陣,取值范圍是0到4 >>>?np.random.randint(5,?size=(2,?4)) array([[4,?0,?2,?1],[3,?2,?2,?0]])

    不均勻隨機(jī)取數(shù)

    使用的函數(shù)為numpy.random.choice(a, size=None, replace=True, p=None):

    • a:輸入列表時(shí),取數(shù)就從該列表中取;若輸入為數(shù)字時(shí),取值范圍為0到該數(shù)字 - 1;

    • size:輸入數(shù)字則表示取值的數(shù)量,輸入元組則表示取值矩陣的行和列;

    • replace:布爾值,默認(rèn)為T(mén)rue,若設(shè)置為False表示取數(shù)不會(huì)重復(fù);(以從袋子中取球?yàn)槔?#xff0c;True是取完放回再取,而False則是取了不放回,繼續(xù)取)

    • p:表示概率,與a的輸入值一一對(duì)應(yīng)。

    • 函數(shù)的輸出為int或者是由int數(shù)據(jù)類型組成的ndarray。

    函數(shù)的具體用法如下:

    #輸入數(shù)字時(shí)取數(shù) >>>?np.random.choice(5,?3) array([0,?3,?4]) #輸入列表時(shí)取數(shù) >>>?np.random.choice([0,1],?3) array([0,?1,?1]) #設(shè)置replace參數(shù) >>>?np.random.choice(5,?3,?replace=False) array([3,1,0]) #設(shè)置概率 >>>?np.random.choice(5,?3,?replace=False,?p=[0.1,?0,?0.3,?0.6,?0]) array([2,?3,?0])

    二項(xiàng)分布

    使用的函數(shù)為numpy.random.binomial(n, p, size=None),參數(shù)也很好解釋。

    參數(shù)中的n即為每次試驗(yàn)中取值的次數(shù),p則為試驗(yàn)中的某一種事件成功的概率,size則是試驗(yàn)的次數(shù)。

    條件概率與貝葉斯規(guī)則測(cè)試

    這里主要是一些Pandas函數(shù)的應(yīng)用,經(jīng)過(guò)上一階段的學(xué)習(xí)應(yīng)該已經(jīng)很熟練了。

    主要涉及的函數(shù)是分組和統(tǒng)計(jì)計(jì)數(shù)類的函數(shù),比如說(shuō)groupby,query,count等,如果忘記的話,自己查官方文檔或者之前的筆記,這里不再贅述。

    正態(tài)分布

    在相同條件下,我們隨機(jī)地對(duì)某一測(cè)試對(duì)象(拋硬幣20次,其中正面的次數(shù))進(jìn)行多次測(cè)試(拋很多次20次)時(shí),測(cè)得的數(shù)值在一定范圍內(nèi)波動(dòng)(從0到20),其中接近平均值的數(shù)據(jù)(10左右)占多數(shù),遠(yuǎn)離平均值的占少數(shù)。具有這種分布規(guī)律的隨機(jī)變量的分布就稱作正態(tài)分布。

    大概長(zhǎng)這樣兒:

    它的概率密度函數(shù)可以表示為:

    其中為均值,為標(biāo)準(zhǔn)差。

    • 假設(shè)檢驗(yàn)是基于正態(tài)分布的

    • 許多社會(huì)和經(jīng)濟(jì)現(xiàn)象對(duì)應(yīng)的隨機(jī)變量分布,都可以用正態(tài)分布來(lái)描述

    中心極限定理

    先回顧下推論統(tǒng)計(jì)的幾個(gè)概念:

  • 總體 —— 我們想要研究的整個(gè)群體。

  • 參數(shù) —— 描述總體的數(shù)值摘要

  • 樣本 —— 總體的子集

  • 統(tǒng)計(jì)量 —— 描述樣本的數(shù)值摘要

  • 依然舉個(gè)例子先:我們想了解國(guó)內(nèi)在校大學(xué)生關(guān)注AI派的比例,但因?yàn)榇髮W(xué)生數(shù)量龐大,我們沒(méi)辦法去一個(gè)一個(gè)的做調(diào)查,所以我們隨機(jī)的從大學(xué)生中抽出一部分群體,然后調(diào)查抽出部分的關(guān)注率,以此來(lái)估計(jì)全國(guó)大學(xué)生的關(guān)注率。

    那例中的所有在校大學(xué)生就叫做總體,總體的關(guān)注率就是參數(shù);我們隨機(jī)抽出的那部分就叫做樣本,其中包含的學(xué)生數(shù)量就叫做樣本容量,在抽出的每組樣本中我們還統(tǒng)計(jì)了關(guān)注率,這就是統(tǒng)計(jì)量

    一般的,樣本數(shù)≥30即可稱為大樣本。大樣本條件下,抽樣平均數(shù)的分布接近正態(tài)分布。

    但必要抽樣數(shù)目的確定是有相關(guān)公式計(jì)算的,這里就不給出了,感興趣的話可以去搜搜看。

    現(xiàn)在我們利用Python去模擬如上的抽樣過(guò)程,看看會(huì)發(fā)生什么。

    #假設(shè)總體數(shù)量為十萬(wàn),關(guān)注率為0.3,用1表示關(guān)注,可以模擬出總體的分布如下 >>>population?=?np.random.choice([0,1],size=100000,p=[0.7,0.3]) >>>print(f'Mean:{population.mean()},?Std:{population.std()}')Mean:0.30114,?Std:0.4587534200417475

    為了方便后面調(diào)用,這里我們寫(xiě)了一個(gè)隨機(jī)抽樣&可視化的函數(shù)如下所示:

    #抽樣&繪圖 def?sample_plot(sample_size):#隨機(jī)抽樣一萬(wàn)次,計(jì)算關(guān)注率rate_list?=?[]for?_?in?range(10000):sample?=?np.random.choice(population,sample_size)rate?=?sample.mean()rate_list.append(rate)#可視化結(jié)果sns.distplot(rate_list)print(f'Mean:{np.mean(rate_list)},?Std:{np.std(rate_list)}')

    我們先取樣本容量為5,查看其關(guān)注率的分布情況如下:

    #樣本容量為5時(shí)的結(jié)果 >>>sample_plot(5)

    (完全看不出這是個(gè)什么分布)

    將樣本容量改為20,我們?cè)賮?lái)看下結(jié)果:


    (已經(jīng)有正態(tài)分布的樣子了)
    最后我們把樣本容量改為50:

    想比上一幅圖,這幅可視化更接近正態(tài)分布。

    ?除了直方圖外,觀察下三次實(shí)驗(yàn)的均值與標(biāo)準(zhǔn)差和總體的均值與標(biāo)準(zhǔn)差,它們之間有什么關(guān)系呢?

    上面我們的這個(gè)模擬過(guò)程就是中心極限定理的含義,隨著樣本容量的逐漸增大,比例的抽樣分布越接近正態(tài)分布(但也不一定必須要很大很大才能近似于正態(tài)分布),同樣這也適用于求和,平均數(shù)等,但不適用于所有的統(tǒng)計(jì)量,比如說(shuō)最大值,方差等等。

    上述模擬過(guò)程中的抽樣方法叫做自助法(Bootstrap),是一種從給定數(shù)據(jù)集中有放回的均勻抽樣。

    中心極限定理的妙處就在于,我們可以從任意的亂七八糟的分布取任意數(shù)量的樣本值,然后計(jì)算樣本的均值(或者和),不斷得取值求均,最終做他們頻率的可視化,你會(huì)發(fā)現(xiàn)這是一個(gè)非常完美的正態(tài)分布。

    現(xiàn)實(shí)生活中有很多的隨機(jī)過(guò)程,有的分布就是亂七八糟,但是你可以通過(guò)中心極限定理,得到他們均值或者和的正態(tài)分布,這也是為什么正態(tài)分布在統(tǒng)計(jì)中如此常用的原因之一。

    如果感覺(jué)理解起來(lái)還是有點(diǎn)兒困難的話,你可以戳在線抽樣分布模擬器(http://1t.click/aAQ9),自己動(dòng)手試一試。

    大數(shù)定理

    大數(shù)定理表達(dá)的是隨著樣本容量增加,樣本平均數(shù)越來(lái)越接近總體平均數(shù),字面上的意思很好理解,但這里有一點(diǎn)要注意,我們舉例來(lái)說(shuō)明一下:

    比如說(shuō),我現(xiàn)在有100枚硬幣,放在一個(gè)盒子里,隨便搖一下盒子,打開(kāi),對(duì)正面朝上的硬幣進(jìn)行計(jì)數(shù)(當(dāng)然,我們知道期望為100 x 0.5 = 50):

    第一次實(shí)驗(yàn)的結(jié)果是55;第二次是60;第三次是70,三次實(shí)驗(yàn)的均值為((55+60+70)/3 ≈62),那你覺(jué)得,下次實(shí)驗(yàn)的結(jié)果是更有可能小于50還是大于50呢?

    你有可能這樣想,根據(jù)大數(shù)定理,隨著我們?cè)囼?yàn)次數(shù)的不斷增加,均值肯定是不斷趨向于50的,前三次的實(shí)驗(yàn)中每次都超過(guò)50,那么下次的實(shí)驗(yàn)會(huì)有更大的可能小于50,來(lái)糾正前三次實(shí)驗(yàn)的偏差。

    如果你真的這樣想,你就陷入了賭徒悖論。大數(shù)定理不關(guān)心前面發(fā)生的有限次實(shí)驗(yàn),因?yàn)楹竺孢€有無(wú)限次的實(shí)驗(yàn),而這無(wú)限次實(shí)驗(yàn)的期望值是50。這個(gè)例子可能比較隨意,但這就是大數(shù)定理的含義。

    最后

    本周主要對(duì)描述統(tǒng)計(jì)學(xué)和概率的基礎(chǔ)知識(shí)進(jìn)行了總結(jié),這部分偏理論一些,如果覺(jué)得理解起來(lái)有點(diǎn)吃力,可以去網(wǎng)上搜集一些資料或者找一些教科書(shū)去查閱,要求是:不一定要完全掌握其原理,但求理解和會(huì)用。

    如果在學(xué)習(xí)數(shù)據(jù)分析(專欄)的過(guò)程中有遇到問(wèn)題,歡迎加入我們的學(xué)習(xí)群來(lái)交流,我們作者在群里已等候多時(shí)。還沒(méi)有加入的同學(xué)可以掃描下方的微信二維碼,添加微信好友,之后統(tǒng)一邀請(qǐng)你加入交流群。添加好友時(shí)一定要備注:數(shù)據(jù)分析。?

    額外參考資料

    • 【課程】可汗學(xué)院-概率論與統(tǒng)計(jì)(http://1t.click/aAQ3)

    • 【教材】機(jī)會(huì)的數(shù)學(xué)-陳希孺(http://1t.click/aAQ4)

    • 【公式總結(jié)】條件概率及全概率公式及貝葉斯公式(http://1t.click/aAQ5)

    • 【教材】statistics for data science(http://1t.click/aAQ8)

    (完)


    ?【升職加薪必備】全套零基礎(chǔ)學(xué)AI資料免費(fèi)領(lǐng)!


    ?關(guān)注“Python與人工智能社區(qū)”




    近期專欄推薦?(點(diǎn)擊下方標(biāo)題即可跳轉(zhuǎn))


    1.?

    2.?

    3.?

    4.?

    點(diǎn)下「在看」,給文章蓋個(gè)戳吧!?

    總結(jié)

    以上是生活随笔為你收集整理的越看越爽,此后统计学习不再是路人!的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

    如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。