统计学-自然语言处理
摘要:主成分分析(英語:Principal components analysis,PCA)是一種分析、簡化數據集的技術。主成分分析經常用于減少數據集的維數,同時保持數據集中的對方差貢獻最大的特征。常常應用在文本處理、人臉識別、圖片識別、自然語言處理等領域。可以做在數據預處理階段非常重要的一環,本文首先對基本概念進行介紹,然后給出PCA算法思想、流程、優缺點等等。最后通過一個綜合案例去實現應用。(本文原創,轉載必須注明出處.)
繼續閱讀
邏輯回歸模型算法研究與案例分析
(白寧超? 2018年9月11日11:37:17)
導讀:邏輯回歸(Logistic regression)即邏輯模型,屬于常見的一種分類算法。本文將從理論介紹開始,搞清楚什么是邏輯回歸、回歸系數、算法思想、工作原理及其優缺點等。進一步通過兩個實際案例深化理解邏輯回歸,以及在工程應用進行實現。(本文原創,轉載必須注明出處:?決策樹模型算法研究與案例分析)
繼續閱讀
當面對眾多選擇時,如何選才能最大化收益(或者說最小化我們的開銷)?比如,怎么選擇最優的上班的路線才能使途中花費的時間最少?假設每天上下班路線是確定的,我們便可以在賬本中記下往返路線的長度。
A/B測試便是基于數據來進行優選的常用方法,在記錄多次上班路線長度后,我們便會從數據中發現到一些模式(例如路線A比路線B花的時間更少),然后最終一致選擇某條路線。
當A/B測試遇到非簡單情況時(如分組不夠隨機時,或用戶量不夠大到可以忽略組間差異,或不希望大規模A/B測試長期影響一部分用戶的收益),該怎樣通過掌握理論知識來更好的指導實踐呢?本文嘗試通過由淺入深的介紹,希望能夠幫助大家對A/B測試有更加深入的理解。
NO.1 為什么需要A/B測試任何問題,只要它的每個選項能夠被多次進行測試,并且每個選項在被測試時都能返回固定的結果,那么它就能使用A/B測試技術來進行優化。在上述例子中,每天的上下班路線是確定的,所以我們能夠在賬本中記下往返路線的長度。
那么什么樣的路線對于用戶來說才是一個好的方案呢?是考慮路線A還是B?什么時候用戶才有充分的數據去確定哪條線路是最好的?測試線路好與不好的最優策略又是什么?圖1用形式化概括定義了問題。
圖1 形式化定義的問題
在這個場景中,參與的用戶正面臨一個選擇,根據他的決策會生成一個結果,而這個結果會對應一份給參與者的反饋。假設用戶持續地暴露于這個決策,他應該怎么制定獲得最大收益(或等效地說,最小成本)的策略?圖1中假定了用戶多次處于需要進行選擇的場景中,每一次進行決策都會達成一項結果,而這個結果會關聯相應的反饋。在上下班這個例子中,假定他每天都需要上下班,而且他每次上下班都必須進行線路的選擇,產出的結果是這次上下班中所有因素的結合體,反饋就是從這些因素中構建出來的(陳運文 達觀數據)。
這是個淺顯的例子,在互聯網產品研發時,有大量類似的場景需要做出各種正確的選擇,例如:
1著陸頁優化(Landing-page optimization)
在用戶點擊去往的頁面(著陸頁),如何獲得最大的轉化率(常用計算方法為有購買行為或深度網頁交互行為的用戶數占網站訪問總用戶數的比率)。決策要考慮到著陸頁的形式和內容(要從可能已有的3或4個備選方案中做出選擇),希望能夠從候選集合中選出最好的著陸頁,以能夠吸引來訪的用戶,并讓深度交互或者購買行為的概率最大化。
2廣告創意優化(Ad creative optimization)
在線廣告提出了許多適合機器學習技術應用的挑戰,其中之一就是如何選擇廣告的形式和內容。當我們決定將要進行廣告展示,以及確定了廣告的價格后,在這個廣告位上選擇放置什么廣告呢?我們需要對大量的決策進行測試,選出正確的廣告創意組合。
NO.2 什么是A/B測試經常遇到的問題是,我們應該怎么評估各不相同的決策,以及應該采用哪些策略來測試我們的產出? A/B測試(A/B testing)就是其中之一的方法。A/B測試近年來很受歡迎,但大部分產品經理也許會簡單地認為它只不過是一種包含兩個組的實驗,其實背后有更為復雜的數學統計理論知識。
具體細節 當進行A/B測試時,通常會采用兩個(或多個)組:A組和B組。第一個組是對照組,第二個組會改變其中一些因素。就以著陸頁優化為例,A組會展示現有的著陸頁,B組會展示一個內容或者內容作了某些修改的新著陸頁。A/B測試的目的就是嘗試了解新的布局是否在統計上顯著地改變了轉化率。特別值得注意的是,將用戶分配到對應的組需要經過深思熟慮。對于A/B測試,我們可以高效地進行隨機分組。當用戶數量較大時,各組間用戶行為可以假設是相同的(即組間沒有偏差)。但是,這里有三個非常重要的關鍵點,是大家有必要進一步理解其數學理論原理的原因:
1 問題1 怎樣驗證兩個組的用戶的行為是無偏差、完全相同的 2 問題2當兩個組的用戶行為不完全相同時(例如分組不夠隨機或者組內用戶數量較小時),該如何設計AB測試以實現期望的驗證結果
3 問題3當用戶基礎行為受其他因素影響發生整體變化了呢?例如季節、時間波動、熱度等因素影響下,怎樣更好的剔除干擾來評估結果
NO.3 AB測試的統計理論假設我們已經構建了兩組數目較大的用戶組,這些用戶組的區別僅在于他們到達的著陸頁。我們現在希望能測試兩組間的轉化率在統計上是否存在明顯差異。由于樣本量大,我們可以采用雙樣本單尾z-檢驗(two-sample, one-tailed z-test)。另外,對于較小的樣本集合,我們可以依賴于t-檢驗。
z檢驗(z-test)是在數據是正態分布和隨機抽樣的假設下運行的,目的是驗證測試集(B組)是否與該對照集(A組)有顯著不同,但是如何執行這個測試呢?
假設有來自A組和B組中的每一組的5,000個樣本。我們需要一個數學公式來說明我們的零假設(null hypothesis)——兩組群體的轉化率沒有顯著的正差異,和備擇假設(或稱對立假設,alternative hypothesis)——不同人群間的轉化率確實存在著正差異。
我們可將采樣轉化率視為一個正態分布的隨機變量,也就是說,采樣的轉化率是在正態分布下對轉化率的一個觀測。要了解這一點,請考慮從同一組中提取多個樣本進行實驗將導致略有不同的轉化率。每當對某組進行抽樣時,可獲得群體轉化率的估計,對于A組和B組都是如此。為此我們提出一個新的正態隨機變量,它是A和B組的隨機變量的組合,是差值的分布。讓我們用X來表示這個新的隨機變量,定義為:
其中,Xe表示實驗組的轉化率的隨機變量,Xn表示對照組的轉化率的隨機變量。現在我們可以寫出零假設和備擇假設。零假設可以表示為:
這表示實驗組和對照組是相同的。兩個隨機變量Xe和Xn分布在相同的群體平均值周圍,所以我們的新隨機變量X應該分布在0左右。我們的備擇假設可以表示如下:
實驗組的隨機變量的期望值大于對照組的期望值;該群體的平均值較高。
我們可以在零假設的前提下,對X的分布執行單尾z檢驗,以確定是否有證據支持備擇假設。為了達到這個目的,我們對X進行采樣,計算標準分,并測試已知的顯著性水平。
X的采樣等效于運行兩個實驗,確定它們各自的轉化率,并將對照組和實驗組的轉化率相減。按照標準分的定義,可以寫作:
其中,P_experiment是實驗組的轉化率,P_control?是對照組的轉化率,SE是轉化率差值的標準差。
為確定標準誤差,注意到轉化過程是符合二項分布的,因此訪問該網站可以被看作單次伯努利試驗(single Bernoulli trial),而積極結果(完成轉化)的可能性是未知的。
假設樣本數量足夠大,我們可以使用廣泛采用的Wald方法(參考Lawrence D. Brown, T. Tony Cai, and Anirban DasGupta, “Confidence Intervals for a Binomial Proportion and Asymptotic Expansions,” The Annals of Statistics 30, no. 1 (2002): 160–201.)將該分布近似為正態分布。為了捕獲特定轉化率的不確定性,我們可以將標準誤差(SE)寫入實驗組和對照組,其中p是轉化的可能性,n是樣本數量,具體如下:
從二項分布(np(1-p))的方差得到分子,而分母表示當采用更多的樣本時,轉化率的誤差會隨之下降。請注意正面結果的概率等同于轉化率,并且因為兩個變量的標準誤差可以通過相加來合并,得到如下結果:
通過替換,可獲得如下的z檢驗公式,這是一個符合二項分布的Wald(或正態)區間的公式:
z的值越大,反對零假設的證據就越多。為了獲得單尾測試的90%置信區間,我們的z值將需要大于1.28。這實際上這是指在零假設(A組和B組的人口平均值是相同的)的條件下,等于或大于這個轉化率差值的偶然發生的概率小于10%。
換句話說,在對照組和實驗組的轉化率來自具有相同平均值的分布的假設前提下,如果運行相同的實驗100次,只會有10次具有這樣的極端值。我們可以通過95%的置信區間,更嚴格的邊界和更多的證據來反對零假設,這時需要將z值增加到1.65。
研究影響z大小的因素會帶來很多有用的幫助。很顯然,如果在一個給定的時間點從一個實驗集和一個對照集中提取兩個轉化率,轉化率的差值越大將導致z分數越大。因此就有了更多的證據表明兩個集合分別來自不同的人群,而且這些人群帶有不同的均值。然而樣品的數量也很重要,如你所見,大量樣本將導致總體較小的標準誤差。這表明運行實驗的時間越長,轉化率的估算越準確。
NO.4 評估效果的代碼實現設想你在負責大型零售網站,設計團隊剛剛修改了著陸頁。每周有約20,000用戶,并可以量化用戶的轉化率:即購買產品的百分比。設計團隊向你保證新網站將帶來更多的客戶。但你不太確定,希望運行A / B測試來看看效果是否真的會提高。
用戶在第一次訪問網站時被隨機分配到A組或B組,并在實驗期間始終保留在該組中,實驗結束時評估兩組用戶的平均轉化率。統計結果是,新著陸頁的平均轉化率是0.002,而原先的著陸頁的平均轉化率是0.001。在著陸頁永久更改為新設計之前,你需要知道這一增長是否足夠明確。下面這段代碼幫你回答這個問題。
這段代碼獲取實驗中z的值,在上述參數條件下z值為1.827,超過了92%置信區間,但不在95%的區間內。可以說,從控制分布中抽取數據的概率小于0.08。因此在該區間內數據提升是顯著的。我們應該否定零假設,接受備擇假設,即組之間有差異,第二組具有較高的轉化率。如果我們控制了用戶組的所有其他方面,就意味著網站的新設計產生了積極的效果。
你應該能夠從代碼中看到轉化率分布的標準誤差對返回的z值有直接影響。 對給定的常數值p_experiment和p_control,兩個組的SE越高,z的數值越小,結果就越不顯著。還注意到由于SE的定義,z的數值與樣本的數量具有直接關系,對于給定的轉換概率也同樣如此。圖2展示了這種關系。
圖2
圖2 展示了A / B組的固定轉化率,以及A / B組中的用戶數量和z值之間的關系。 假設轉化率不會隨著我們收集更多數據而改變,我們需要每個組中大約3,000個用戶達到70%的置信區間。 要達到80%的置信區間時需要每組約5000個用戶,達到90%時需要 7500個用戶,達到95%時需要12000個用戶。
圖2中可見對于兩個組的給定轉化率,測試組中的用戶越多,備擇假設的證據就越充分。直觀上來看這很容易理解:當收集的數據越多,我們對結果越自信!我們也可以繪制一張類似的圖,保持用戶數量不變,改變組之間的差異。但必須注意,對正在關注的應用,不應該期望效果的大幅度變化。
?
NO.5 A/B測試方法的副作用和處理辦法對于非常小的效果變化,往往都需要創建相當大的對照組和測試組來實現AB測試,這個的代價往往是很大的。設想下在零售商場中,每天觀察到的用戶數量,往往需要很久的時間才能得出明顯的結論。在實際業務應用中,會遇到的問題是:當你運行測試時整體運行的效果是受到很大影響的,因為必須有一半的用戶處于效果不佳的實驗組,或者有一半的用戶處于效果不佳的對照組,而且你必須等待測試完成才能停止這種局面。
這是被稱為探索利用難題(explore-exploit conundrum)的一個經典問題。我們需要運行次優方法,以探索空間,并找到效果更好的解決方案,而一旦找到了更好的解決方案,我們還需要盡快利用它們來實現效果提升。能否可以更快地利用新的解決方案,而不必等待測試完全完成呢?答案是肯定的。下面簡單介紹下多臂賭博機(multi-armed bandit,MAB)的概念。
1多臂賭博機的定義
多臂賭博機(multi-armed bandit,MAB)的名字來源于著名的賭博游戲角子賭博機(one-armed bandit)。對那些從沒去過賭場的人,我們來做下解釋:角子機(又稱老虎機)是一個需要你拉杠桿(或搖臂)的賭博機器,根據機器展示的數值,你可能會得到一筆獎勵,也可能(更大幾率)得不到任何東西。和你想的一樣,這些機器的設置都對莊家有利,所以能獲的獎勵的幾率是非常非常小的。
多臂賭博機(理論上的)擴展了這種形式,想象你面對的是一堆角子賭博機,每個賭博機都被分配按照一個獨立的概率進行獎勵。作為一個玩家,你不知道在這些機器后的獲獎概率,你唯一可以找到獲獎概率的方法是進行游戲。你的任務是通過玩這些機器,最大限度地提高所獲的獎勵。那么你應該使用什么策略呢?
2多臂賭博機策略
為了更嚴格地定義問題,我們通過數學形式化來表達,假設現在有k個賭博機,可觀察到的每臺的獲獎概率等于p_k。假設一次只能拉動一個搖臂,并且賭博機只會按照它關聯的概率機型獎勵。這是一個設置了限定局數的有限次的游戲。在游戲期間任意時間點時,水平線H被定義為允許的剩余游戲的數量。
對所有機器用戶會嘗試最大化的獲獎回報。在游戲中的任一時間點,我們都可以通過使用稱為遺憾值(regret)來度量用戶的表現。遺憾值的意思是,假設用戶能在每一步選擇最優的賭博機,得到的獎勵和目前獲得的實際獎勵的差值。遺憾值的數學定義為:
其中T表示我們到目前為止進行過的步數,r_t表示在第t步獲得的獎勵,u_opt表示每一局從最優賭博機返回來的期望獎勵。遺憾值的數值越低,策略越優。但因為這個度量值會受到偶然性的影響(獎勵可能會被從最優賭博機選擇中獲得的期望獎勵更高),我們可以選擇使用遺憾值的期望值代替,定義為:
其中μ_t是在第t步從賭博機中獲得的平均獎勵(不可觀測的)。因為第二項是來自所選策略的期望獎勵,所以它將小于或等于來自最優策略(每一步都選擇最優的賭博機)的期望獎勵。
3Epsilon優先方法
Epsilon優先(Epsilon first)是MAB策略中最簡單的一種方式,它被認為和事先執行A/B測試方法具有同等意義。給定ε,執行探索空間操作的次數為(1 – ε) × N,其中N是游戲中總共的局數,剩余的次數都是執行后續探索的局數。
update_best_bandit算法會持續統計記錄每一個賭博機的獎勵收入和游戲局數。變best_bandit會在每一局結束進行更新,記錄當前具有最高獲獎概率的賭博機的編號,流程如下:
4Epsilon貪婪
Epsilon貪婪(epsilon-greedy)策略中,ε表示我們進行探索空間的概率,和進行利用已知最優搖臂的事件互斥
該方法的特點:不需要等到探索階段完成,才能開始利用有關賭博機的獎勵表現的知識。但要小心,該算法不會考慮效果數據的統計意義。因此可能發生這樣的情況:個別賭博機的獎勵峰值導致后續的所有局游戲都錯誤地選擇了這個賭博機(陳運文 達觀數據)。
5Epsilon遞減
Epsilon遞減(epsilon-decreasing)策略在實驗開始階段,會有一個很高的ε值,所以探索空間的可能性很高。ε值會隨著水平線H上升而不斷遞減,致使利用似然知識的可能性更高。
需要注意這里有幾種方法去來選擇一個最優的速率來更新ε值,具體取決于賭博機的數量,以及他們各自進行獎勵的權重。
6貝葉斯賭博機
與A / B測試類似,貝葉斯賭博機(Bayesian bandits)假設每個賭博機的獲獎概率被建模為獲獎概率的分布。當我們開始實驗時,每個賭博機都有一個通用的先驗概率(任意賭博機的獎勵比率初始都是同等的)。
在某一個賭博機上進行的局數越多,我們對它的獎勵信息就了解越多,所以基于可能的獎勵概率更新其獲獎概率分布。當需要選擇玩哪一個賭博機的時候,從獲獎概率分布中采樣,并選擇對應樣本中具有最高獎勵比率的賭博機。圖3提供了在給定時間內對三個賭博機所含信息的圖形化表示。
圖3
使用貝葉斯賭博機策略對三個賭博機的獲獎概率信息進行建模。第1、2和3個賭博機的平均獲獎率分別為0.1、0.3和0.4。 第1個賭博機具有較低的平均值而且方差也比較大,第2個賭博機具有較高的平均值和較小的方差,第3個賭博機具有更高的平均值和更小的方差。
可以看到關于賭博機的獲獎概率分布的信息被編碼為三個分布。每個分布具有遞增的平均值和遞減的方差。因此,我們不太確定獎勵期望值為0.1的真實獎勵率,最可靠的是獎勵期望值為0.4的賭博機。因為賭博機的選擇是通過對分布進行抽樣來進行的,所以分布期望值是0.1的賭博機的搖臂也可能被拉動。這個事件會發生在第2個賭博機和第3個賭博機的采樣樣本獎勵值異常小,而且第1個賭博機的采樣樣本異常大時,相應代碼如下(陳運文 達觀數據):
NO.6 總結A/B測試和貝葉斯賭博機的各自的優點和局限是:兩者有各自適用的場景,也驗證的變量數量也各不相同,具體如下表。
此外,兩個方法的收斂速度也很不一樣。在A/B測試中是指獲得統計意義,在貝葉斯賭博機中是指累積遺憾值不再增加。以本章最開始的網站優化為例,首先請注意,任何行為的改變可能是微小的(<0.01),而我們已經知道貝葉斯賭博機相比大的改變提升,需要更多的收斂時間。如果加了多種選擇,在同一個實驗中測試多種登陸頁面,將更加會影響收斂速度。假如用戶變化導致的底層分布變的比模型收斂更快呢?比如,季節趨勢,銷售或者其他因素可能會影響。
顯然,收集的數據越多,對效果的潛在變化的把握度就越高。當2個組劃分本身就存在統計差異時,通過多臂賭博機而不是A/B測試的方法可以從概率上修正我們選擇的分布。本文還重點介紹了z檢驗(z-test)的數學知識,因為其構成了A/B測試的統計理論基礎。
3 LDA-math-MCMC 和 Gibbs Sampling(2)
3.2 Markov Chain Monte Carlo
對于給定的概率分布p(x)p(x)。如何能做到這一點呢?我們主要使用如下的定理。
繼續閱讀
正態分布的前世今生 pdf 版
正態分布的前世今生 pdf 版(12pt 大字體版本)
評論歡迎發到 rickjin@新浪微博
?
(八)大道至簡,大美天成
To see a world in a grain of sand
And a heaven in a wild flower,
Hold infinity in the palm of your hand
And eternity in an hour.
Xˉ=X1+X2+?+XnnXˉ=X1+X2+?+Xnn
算術平均, 極其簡單而樸素的一個式子,被人們使用了千百年,而在其身后隱藏著一個美麗的世界,而正態分布正是掌管這個美麗世界的女神。 正態分布的發現與應用的最初歷史,就是數學家們孜孜不倦的從概率論和統計學角度對算術平均不斷深入研究的歷史。 中心極限定理在1773年棣莫弗的偶然邂逅的時候,它只是一粒普通的沙子, 兩百多年來吸引了眾多的數學家,這個渾金璞玉的定理不斷的被概率學家們精雕細琢,逐漸的發展成為現代概率論的璀璨明珠。 而在統計學的誤差分析之中,高斯窺視了造物主對算術平均的厚愛,也發現了正態分布的美麗身影。殊途同歸,那是偶然中的必然。 一沙一世界,一花一天國, 算術平均或許只是一粒沙子, 正態分布或許只是一朵花,它們卻包含了一個廣闊而美麗的世界,幾百年來以無窮的魅力吸引著科學家和數學家們。
高爾頓他對正態分布非常的推崇與贊美,1886 年他在人類學研究所的就職演講中說過一段著名的話: ”我幾乎不曾見過像誤差呈正態分布這么美妙而激發人們無窮想象的宇宙秩序。 如果古希臘人知道這條曲線,想必會給予人格化乃至神格化。它以一種寧靜無形的方式在最野性的混亂中實施嚴厲的統治。 暴民越多,無政府狀態越顯現, 它就統治得越完美。他是無理性世界中的最高法律。當我們從混沌中抽取大量的樣本,并按大小加以排列整理時, 那么總是有一個始料不及的美妙規律潛伏在其中。“
概率學家 Kac 在他的自述傳記《機遇之謎》中描述他與正態分布的淵源:“我接觸到正態分布之后馬上被他深深的吸引, 我感到難以相信,這個來自經驗直方圖和賭博游戲的規律,居然會成為我們日常生活數學的一部分。” 另一位概率學家 Loeve 說:“如果我們要抽取 Levy 的概率中心思想,那我們可以這樣說, 自從 1919 年以后,Levy 研究的主題曲就是正態分布,他一而再再而三的以他為出發點,并且堅決的又回到她...... 他是帶著隨機時鐘沿著隨機過程的樣本路徑作旅行的人。” 美國國家標準局的顧問 W.J.Youden 用如下一段排列為正態曲線形狀的文字給予正態分布極高的評價,意思是說: 誤差的正態分布規律在人類的經驗中具有“鶴立雞群”的地位, 它在物理、社會科學、、醫學、農業、工程等諸多領域都充當了研究的指南, 在實驗和觀測數據的解讀中是不可或缺的工具。
幾乎所有的人都或多或少的接觸數學,雖然各自的目的不同,對數學的感覺也不同。 工程師、科學家們使用數學是因為他簡潔而實用, 數學家們研究數學是因為它的美麗動人。像正態分布這樣,既吸引著無數的工程師、科學家, 在實踐中被如此廣泛的應用,又令眾多的數學家為之魂牽夢繞的數學存在,在數學的世界里也并不多見。 我在讀研究生的時候,經常逛北大未名BBS 的數學板,有一個叫 ukim 的著名 ID 在精華區里面留下了一個介紹數學家八卦的系列《Heroes in My Heart》,寫得非常的精彩, 這些故事在喜歡數學的人群中也流傳廣泛。 最后一個八卦是關于菲爾茲獎得主法國數學家 R.Thom的,它曾經令無數人感動, 我也借用來作為我對正態分布的八卦的結語:
在一次采訪當中,作為數學家的 Thom同兩位古人類學家討論問題。 談到遠古的人們為什么要保存火種時,一個人類學家說,因為保存 火種可以取暖御寒;另外一個人類學家說,因為保存火種可以燒出 鮮美的肉食。而 Thom 說,因為夜幕來臨之際,火光搖曳嫵媚,燦 爛多姿,是最美最美的......
(九)推薦閱讀
在終極的分析中,一切知識都是歷史
在抽象的意義下,一切科學都是數學
在理性的基礎上,所有的判斷都是統計學
-- C.R.Rao
本人并非統計學專業人士,只是憑一點興趣做一點知識的傳播,對統計學歷史知識的介紹,專業性和系統性都不是我的目的。 我更在乎的是趣味性,因為沒有趣味就不會有傳播。如果讀完這段歷史會讓你覺得正態分布更加親切,不再那么遙不可及, 那我的目的達到了。如果正態分布是一滴水,我愿大家都能看到它折射出的七彩虹。
本文所使用的大多是二手資料,有些歷史細節并沒有經過嚴格的考證,對于歷史資料一定程度上按照個人喜好做了取舍, 本文主要基于如下的資料寫成,對于歷史細節感興趣,不希望被我誤導的,推薦閱讀。
- 陳希孺, 數理統計學簡史
- 蔡聰明,誤差論與最小平方法,數學傳播
- 吳江霞,正態分布進入統計學的歷史演化
- E.T. Jaynes, Probability Theory, The Logic of Science (概率論沉思錄)
- Saul Stahl, The Evolution of the Normal Distribution
- Kiseon Kim, Why Gaussianity
- Stigler, Stephen M. The History of Statistics: The Measurement of Uncertainty before 1900.
- L.Le Cam, The Central Limit Theorem Around 1935
- Hans Fischer, A History of the Central Limit Theorem: From Classical to Modern Probability Theory
(七)正態魅影
Everyone believes in it: experimentalists believing that it is a
mathematical theorem, mathematicians believing that it is an empirical fact.
---- Henri Poincare
f(x)=12π??√σe?(x?μ)22σ2f(x)=12πσe?(x?μ)22σ2獨立,而正態分布是唯一滿足這一性質的概率分布
(六)開疆擴土,正態分布的進一步發展
2.進軍近代統計學
花開兩朵,各表一枝。上面說了圍繞正態分布在概率論中的發展,現在來看看正態分布在數理統計學中發展的故事。 這個故事的領銜主演是 Adolphe Quetelet和高爾頓(Galton)。
由于高斯的工作,正態分布在誤差分析迅速確定了自己的定位,有了這么好的工具,我們可能拍腦袋就認為,正態分布很快 就被人們用來分析其它的數據,然而事實卻出乎我們的意料,正態分布進入社會領域和自然科學領域,可是經過一番周折的。
首先我要告訴大家一個事實:誤差分析和統計學是兩個風馬牛不相及的兩個學科。 當然這個事實存在的時間是19世紀初之前。統計學的產生最初是與“編制國情報告”有關,主要服務于政府部門。 統計學面對的是統計數據,是對多個不同對象的測量;而誤差分析研究的是觀測數據, 是對同一個對象的多次測量。因此觀測數據和 統計數據在當時被認為兩種不同行為獲取得到的數據,適用于觀測數據的規律未必適用于統計數據。 19世紀的統計數據分析處于一個很落后的狀態,和概率論沒有多少結合。 而概率論的產生主要和賭博相關,發展過程中與誤差分析緊密聯系, 而與當時的統計學交集非常小。將統計學與概率論真正結合起來推動數理統計學發展的便是我們的統計學巨星Quetelet。
Quetelet這名字或許不如其它數學家那么響亮,估計很多人不熟悉,所以有必要介紹一下。 Quetelet是比利時人,數學博士畢業,年輕的時候曾追誰拉普拉斯學習過概率論。 此人學識淵博,涉獵廣泛,腦門上的桂冠包括統計學家、數學家、天文學家、社會學家、 國際統計會議之父、近代統計學之父、數理統計學派創始人。 Quetelet 的最大的貢獻就是將法國的古典概率引入統計學,用純數學的方法對社會現象進行研究。
1831年,Quetelet參與主持新建比利時統計總局的工作。他開始從事有關人口問題的統計學研究。 在這種研究中,Quetelet發現,以往被人們認為雜亂無章的、偶然性占統治地位的社會現象, 如同自然現象一樣也具有一定的規律性。 Quetelet 搜集了大量關于人體生理測量的數據,如體重、身高與胸圍等,并使用概率統計方法來 對數據進行數據分析。但是當時的統計分析方法遭到了社會學家的質疑, 社會學家們的反對意見主要在于:社會問題 與科學實驗不同,其數據一般由觀察得到,無法控制且經常不了解其異質因素,這樣數據 的同質性連帶其分析結果往往就有了問題,于是社會統計工作者就面臨一個如何判 斷數據同質性的問題。Quetelet大膽地提出:
把一批數據是否能很好地擬合正態分布,作為判斷該批數據同質的依據。
Quetelet提出了一個使用正態曲線擬合數據的方法,并廣泛的使用正態分布去擬合各種類型的數據。 由此, Quetelet為正態分布的應用拓展了廣闊的舞臺。 正態分布如同一把屠龍刀,在Quetelet 的帶領下,學者們揮舞著這把寶刀在各個領域披荊斬棘, 攻陷了人口、領土、政治、農業、工業、商業、道德等社會領域, 并進一步攻占天文學、數學、物理學、生物學、社會統計學及氣象學等自然科學領域。
正態分布的下一個推動力來自生物學家高爾頓,當正態分布與生物學聯姻時,近代統計學迎來了一次大發展。 高爾頓是生物統計學派的奠基人,他的表哥達爾文的巨著《物種起源》問世以后,觸動他用統計方法研究遺傳進化問題。 受Quetelet的啟發,他對正態分布懷有濃厚的興趣,開始使用正態分布去擬合人的身高、胸圍、以至考試成績等各類數據, 發現正態分布擬合得非常好。他因此相信正態曲線是適用于無數情況的一般法則。
然而,對高爾頓而言,這個無處不在的正態性給他帶來一些困惑。他考察了親子兩代的身高數據, 發現遵從同一的正態分布,遺傳作為一個顯著因素是如何發揮作用的?1877年, 高爾頓設計了一個 叫高爾頓釘板(quincunx, 或者Galton board)的裝置,模擬正態分布的性質用于解釋遺傳現象。
如下圖中每一點表示釘在板上的一顆釘子,它們彼此的距離均相等。 當小圓球向下降落過程中,碰到釘子后皆以 1212分布。所以正態 分布在19世紀是武則天,進入二十世紀就學了慈禧太后,垂簾聽政了。 或者,換個角度說,一個好漢三個幫,正態分布如果是孤家寡人恐怕也難以雄霸天下, 有了統計學三大分布作為開國先鋒為它開疆拓土,正態分布真正成為傲世群雄的君王。
20世紀初,統計學這三大劍客成為了現代數理統計學的奠基人。以哥塞特為先驅,費歇爾為主將, 掀起了小樣本理論的革命,事實上提升了正態分布在統計學中的地位。 在數理統計學中,除了以正態分布為基礎的小樣本理論獲得了空前的勝利,其它分布上都沒有成功的案例, 這不能不讓人對正態分布刮目相看。在隨后的發展中,相關回歸分析、多元分析、方差分析、因子分析、 布朗運動、高斯過程等等諸多統計分析方法陸續登上了歷史舞臺, 而這些和正態分布密切相關的方法,成為推動現代統計學飛速發展的一個強大動力。
<footer class="entry-meta">本條目發布于<a href="http://www.52nlp.cn/%e6%ad%a3%e6%80%81%e5%88%86%e5%b8%83%e7%9a%84%e5%89%8d%e4%b8%96%e4%bb%8a%e7%94%9f%e5%85%ad" title="20:10" rel="bookmark"><time class="entry-date" datetime="2012-10-25T20:10:46+00:00">2012年10月25號</time></a>。屬于<a href="http://www.52nlp.cn/category/%e7%bb%9f%e8%ae%a1%e5%ad%a6" rel="category tag">統計學</a>、<a href="http://www.52nlp.cn/category/nlp" rel="category tag">自然語言處理</a>分類,被貼了 <a href="http://www.52nlp.cn/tag/%e6%ad%a3%e6%80%81%e5%88%86%e5%b8%83" rel="tag">正態分布</a>、<a href="http://www.52nlp.cn/tag/%e6%ad%a3%e6%80%81%e5%88%86%e5%b8%83%e7%9a%84%e5%89%8d%e4%b8%96%e4%bb%8a%e7%94%9f" rel="tag">正態分布的前世今生</a> 標簽。<span class="by-author">作者是<span class="author vcard"><a class="url fn n" href="http://www.52nlp.cn/author/rickjin" title="查看所有由rickjin發布的文章" rel="author">rickjin</a></span>。</span> </footer><!-- .entry-meta --> </article><!-- #post --><article id="post-4770" class="post-4770 post type-post status-publish format-standard hentry category-538 tag-539 tag-543 tag-1244"><header class="entry-header"><h1 class="entry-title"><a href="http://www.52nlp.cn/%e6%ad%a3%e6%80%81%e5%88%86%e5%b8%83%e7%9a%84%e5%89%8d%e4%b8%96%e4%bb%8a%e7%94%9f%e4%ba%94" rel="bookmark">正態分布的前世今生(五)</a></h1><div class="comments-link"><a href="http://www.52nlp.cn/%e6%ad%a3%e6%80%81%e5%88%86%e5%b8%83%e7%9a%84%e5%89%8d%e4%b8%96%e4%bb%8a%e7%94%9f%e4%ba%94#comments">2條回復</a> </div><!-- .comments-link --></header><!-- .entry-header --><div class="entry-content"><div class="code-block code-block-1" style="margin: 8px auto; text-align: center; clear: both;">(六) 開疆擴土,正態分布的進一步發展
19世紀初,隨著拉普拉斯中心極限定理的建立與高斯正態誤差理論的問世,正態分布開始嶄露頭角, 逐步在近代概率論和數理統計學中大放異彩。在概率論中,由于拉普拉斯的推動,中心極限定理發展 成為現代概率論的一塊基石。而在數理統計學中,在高斯的大力提倡之下,正態分布開始逐步暢行于天下。
1. 論劍中心極限定理
先來說說正態分布在概率論中的地位,這個主要是由于中心極限定理的影響。 1776 年,拉普拉斯開始考慮一個天文學中的彗星軌道的傾角的計算問題,最終的問題涉及 獨立隨機變量求和的概率計算,也就是計算如下的概率值
Sn=X1+X2+?+XnSn=X1+X2+?+Xn
理科專業的本科生學習《概率論與數理統計》這門課程的時候, 除了學習棣莫弗-拉普拉斯中心極限定理,通常還學習如下中心極限定理的一般形式:
[Lindeberg-Levy 中心極限定理] 設X
總結
以上是生活随笔為你收集整理的统计学-自然语言处理的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 一篇文章带你熟悉 TCP/IP 协议(网
- 下一篇: pycharm插件之SonarLint