统计(1 - 2)
統計學基礎定義
Statistics的前部分為“state”,政府,原由是統計是300年前被首次應用在政府部門統計人口出生和死亡信息的;如今的統計學早已被應用在各個專業領域;
統計學是用以收集數據、分析數據和數據推論的一組概念、原則和方法;是將數據轉化為比數據本身更為復雜的知識,為其他學科提供一套研究對象的方法;(是不是應該叫統計哲學);
統計學的主要思想包括隨機性和規律性、概率、變量和常量:
1) 隨機性和規律性:
投一枚硬幣,我們不知道下次是正面朝上還是反面朝上,此為隨機性;而如果投各多次,我們發現正面和反面差不多,此為規律性;
隨機性中的規律性:把隨機的事件放在一起,尋找其中的規律,這是統計思想的基礎,如多次投硬幣;
規律性中的隨機性:每次觀察一組重復的實驗結果都波動不一樣,比如投100次硬幣得到的正面數;這樣,波動的差異就是數據本身隨機性帶來的,但如何判斷波動是隨機帶來的還是事物本身帶來的,波動是否超出隨機性所能解釋的程度,這后續會有數據偏差問題的研究;
2)概率是取值在0-1的數,告訴我們一個特定事件以多大的機會會發生;從數據中得到結論的基礎,比如我們可能不知道下次隨機性的波動范圍是多大,但是我們可以確定落在范圍內的概率;
3)變量是可以取多個值的特征、特質或屬性;變量的值是對其的度量;對與那些生活中可觀察的變量成為經驗變量(性別、年齡);對于用數學方法推導出來的變量稱之為理論變量(z,t,x2)
4)常量是一個固定的值,重復試驗,其值不變,如已訓練好模型的參數;
數據的收集
一位統計學家說過:世上有兩種數據,好數據和壞數據;精辟;好數據是根據合理、正確的統計原理收集到的數據;反之,壞數據是其他方法收集的;好數據的收集方法包括:
1)定義變量:仔細的考慮給變量一個無歧義、清晰的、詳盡的定義;比如統計家庭小孩個數中小孩的定義:多大年齡?繼父母算不算?寄養怎么辦?父母離婚了小孩沒人管怎么辦?。。。
2)觀測數據:總體(population)包含所有研究的個體;普查(census)基于收集整個總體數據的過程;樣本(sample)總體中被選中的個體;
怎么選擇樣本呢?想想我們做飯的時候怎么判斷咸淡吧,挖一小勺嘗一嘗,要想這一小勺代表整個鍋的味道,就要來回攪一攪,使得這一勺是隨機的;因此樣本應該選擇隨機樣本,總體的每一個個體都有已知的機會包含在樣本中;
還記得前面提到的規律性的隨機行,即便是隨機的,那每次隨機抽樣也不一樣,這里把每次抽樣的diff波動定義為抽樣誤差(sampling error),它告訴我們樣本距離總體實際值有多遠;如何計算抽樣誤差,是根據極限定理推導的,后面會詳細介紹,這里可簡單記為如果樣本大小為n,則抽樣誤差可近似為1/sqrt(n);
3)實驗數據:通過實驗組(ecperimental group)和對照組(control group)確認某些變量是否起作用;多個變量同時研究的“拉丁方設計”,由Fisher發明,沒錯,就是Fisher分類器的R.A.Fisher;
?
(R.A.Fisher英國著名統計學習、生物學家和遺傳學家,現代數理統計學和推斷統計學奠基人,數理遺傳學創始人,提出最大似然用于假設檢驗,引領統計學從“描述統計學”發展到“推斷統計學”,這一段發展過渡階段被成為Fisher時代。http://jpkc.njmu.edu.cn/course/tongjixue/file/jxzy/tjmj02.htm)
拉丁方設計:http://image.sciencenet.cn/olddata/kexue.com.cn/upload/blog/file/2009/9/2009912152943720.pdf
?
轉載于:https://www.cnblogs.com/sunjerdege/p/3391360.html
總結
- 上一篇: mysql dbutil_通过dbuti
- 下一篇: 【转】学会这13个原则写UI界面文案,用