日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程语言 > python >内容正文

python

python数据挖掘 百度云,常用数据挖掘算法总结及Python实现高清完整版PDF_python数据挖掘,python数据分析常用算法...

發布時間:2023/12/1 python 29 豆豆
生活随笔 收集整理的這篇文章主要介紹了 python数据挖掘 百度云,常用数据挖掘算法总结及Python实现高清完整版PDF_python数据挖掘,python数据分析常用算法... 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

常用數據挖掘算法總結及Python實現 高清完整版PDF

第一部分數據挖掘與機器學習數學基礎

第一章機器學習的統計基礎

1.1概率論

l概率論基本概念

樣本空間

我們將隨機實驗E的一切可能基本結果組成的集合稱為E的樣本空間,記為S。樣本空間的元素,即

E的每一個可能的結果,稱為樣本點。樣本空間又叫基本事件空間。

例:拍拍貸用戶的學歷S=“研究生或以上’,本科,大專’,“高中,“中專,初中及以下},A={研

究生或以上’,“本科,“大專”}

事件

事件A是樣本空間的了集,可分為四種類型

空事件:樣木空間的空子集

原了事件:僅包含·個元素的樣本空間

混合事件:包含多個元素的樣木空間

樣本空間本身也是·個事件

集合

1.集合A的補集記做A

2.集合A和B的交集A⌒B

3.集合A和B的合集A∪B

4.如果A⌒B=,那么A和B互斥

5.如果442…An是采樣空間S的子集,如果A1∪A2∪…An=S,那么這種情

況稱作完全窮盡

概率論定義

概率用來描述一件事的不確定性。假設A是投硬幣的一個結果(比如正面朝上),如果重復投硬幣很

多次,直到A出現的機會逼近個極限p。那么可以說出現A的概率是p

對于事件A和B,聯合概率P(AB表示事件A和B同時發生的概率

number of favorable outcomes

P(A)

total number of possible outcomes

概率定律

事件的概率:PA)滿足:P(A)≥0;Ps)=1:對丁一連串的互斥事件:A)=∑/A)

條件概率

發生事件A的情況下,發生B的概率稱作條件概率P(BA)

P(B A

P(B∩A

P(A)

·獨立性

事件發生和其它事件無關。

如果P(BAP(B,我們稱B和A統計獨立,當且僅當:P(4nB)=P(4)PB)

如果A和B統計獨立,那么B與A也統計獨立

總概率

P(A)=P(A∩B)+P(A∩B)=P(AB)P(B)+P(AB)P(B)

貝葉斯理論

P(BIA=P(A B)P(B)

P(A)

P(B):B的先驗概率,非條件概率,或者邊際概率

P(AB):給定B條件下的A的條件概率,也被稱作“似然”

P(A):A的邊際概率,也作為B的后驗概率的歸·化常量

P(B|A):B的后驗概率

2隨機變量,期望,方差

隨機變量ⅹ是隨機試驗的數值型結果

相關概念:

觀測值:其中·個結果成為觀測值

數據:多個觀測值集合為數據

總體:所有的結果稱為總休

有兩種類型的隨機變量

離交量:值數目可數

對于離散型隨機變量,我們關心每個特定數值出現的概率eg.客戶的婚姻情況

連綏交量:數值在一定范圍內

對于連續性變量,某·個特定值出現的概率為0,我們只關心區間的概率

Eg各戶的投資金額

概率分布

隨機變量的分布就是它所有可能的輸出以及它們的概率集合

概率密度函數

隨機變量的概率密度函數描述該隨機變量在某個取值發生的可能性

離散變量:P(X-x)p(x)

P(<

連續變量:

累積分布函數

x處的累積分布函數是負無窮到ⅹ點的概率密度函數的累加和

期望

期望是指所有可能值的加權和。其權重對于離散值而言就是該值出現的概率,而對于連續值而言就是

共密度函數。

離散情況:

連續情況:

E(x)=∑xD(x)

E()=「xp(x)dkx

方差

用來描述該隨機變量值和平均值的郾散程度

離散情況

連續情況

陽a()=∑(x-D()p(x)

a()=∫(x-B()p(

3常用概率分布

離散分布:伯努利分布(二項分布)

口概率度數

P(X=X)

均值

E(r)

方差

Varr)=p(1-p)

連續分布

正態分布是最常用的一種連續分布。密度函數的特點是:關于均值μ對稱,并在μ處取最大值,

在正(負)無窮遠處取值為0,圖像是一條位于x軸上方的鐘形曲線。期望值μ決定了分布的位置,

標準差σ決定了分布的幅度。當μ=0,^2=1時,稱為標準正態分布,記為N(O,1)

口概率密度函數

10

=0.d2=02

=0.2=1.0

P=-2.02=05

翅望

E(r)

口方差

d l

4統計量估計和中心極限定理

從一個數據集(樣本)估計它的分布情況

◇統計直方圖:直觀地顯示了數據的分布

描述性指標:

衡量據中趨勢

期望值的估計:氵∑X

最大值/最小值:2500萬用戶的最大最小借款金額

中值:按照借款金額排序,最中間的值

眾數:出現次數最多的借款金額

衡量變化性

范圍:最大最小的借款金額之差

(x-x)

方差的佔計:

兩個重要定理

大數定律

中心極限定理

100

90

All heads

80

70

大數定律(趨勢

60

50

40

30

中心極限定理(分布)

10

All Tails

Increasing number of coin tosses

大數定理

大數定理措述的是一組獨立冋分布隨杋變量的均值的極限。在這些隨機變量個數趨于無窮時,其均值

依概率收斂于這些隨機變量的數學期望

指明樣本均值的收斂趨勢

◆中心極限定理

設隨機變量Ⅺ1,X2,n相互獨立,服從同·分布,且具有數學期望和方差

E(H)=p,la(X,)=a2>0

則隨機變量的均值=x1+漸進地服從正態分布,并且期望和方差分別為

E(k1)=A,ar(X)=a2>0

指明樣本均值的分布與樣本量的關系

1.2假設檢驗

L假設檢驗概述

·作用:檢查觀察到的樣本究競是否支持對總體的假設,幫助進行決策

概率論

假設檢驗

數據估計

數據決策

假設檢驗在數據分析中的應用

◇理解分析建模的結果

需要讀懂相關性分析,歸回等建模的結果

coef std err

t

P>tI

[95.09 Conf. Int.

Const

-.3337

⊙.650

.513

.659

3.130

2.462

1.2591

.495

2.543

.126

0.872

3.390

.⊙456

⊙.081

-0.563

⊙.630

-0.394

.303

☆ AB Test

什么是假設檢驗

假設檢驗是數理統計學中根據一定假設條件由樣木推斷總體的一科方法

對總體做假設

出樣本做檢驗

假設檢驗的要素

令原假設( Null Hypothesis)

令備擇假設( Alternative Hypothesis):即與原假設相悖的陳述

◇檢驗統計量:用采樣數據基于原假設計算岀的統計量,用來檢驗原假設和備擇假設

◆拒絕域:在該區問,拒絕原假設,而趨向于備擇假設

錯誤類型

類型I:在給定原假設是正確的情況下拒絕原假設的概率( False positive)

a=P( reject Ho| Ho truc)拒真

類型I:在給定備擇假設是正確的情況下接受原假設的概率( False negative)

β=P( accept H| Hi truc)取偽

·P- value

比觀測值更極端的情況出現的概率,衡量樣本數據相對于原假設的置信強,也稱作觀測的顯著性水平

P-val

P(Z≥

用于做拒絕決定:

如果p- value 3 a.不拒絕原假設

F-al

如果p-vlue

拒絕域

單邊檢測I

Critical Value(s)

H0:u≥3

H1:μ<3

單邊檢測Il

拒絕域

H0:≤3

H1:>3

雙邊檢測

Ho:μ=3

≠3

2如何選擇合適的檢驗

兩組檢驗類型

參數檢測:假定數據遵從某些特定的分布(例如:高斯分布),對總體參數進行佔計或檢驗

例如:z檢測,t檢測, ANOVA, chi-Square等

非參數檢測:并沒有假定數據遵從某種分布。往往直接對分布的某種特性(如對稱性,分位數人小)

做檢驗。

例如 Kolmogorov- Smirnov檢測, Wilcoxon檢測,Mann- Whitney檢測, Kruskal- Wallis檢測等

一個樣本和多個樣本

單個樣本檢驗:僅僅基于·個采樣樣本,通常基于均值、方差和分布的假設

例如,正態分布檢驗,z檢驗,t檢驗

多個樣本檢驗:目標是比較多個組別的均值方差是不是相等。

例如:∧NOMⅥA檢驗, Kruskal- Wallis檢驗(hi- square檢驗等等。

3假設檢驗

正態性檢驗

評估個數據集{x1,…,xn}服從正態分布的可

能性

Ho:ixl,., xn)-N(u, a2)

I1:{x1,,xn}服從仁意分布

2-0 plot(圖形檢驗):

用圖形的方法來比較兩個概率分布:把他們的相應百分位數畫在張圖里,圖中任意點(x2y),

x利Y坐標分別是這兩個分布的百分位數。如果這兩個分布很相似, Q-Q plot上的點會近似地位于

對角線y=x附近

Kolmogorov- Smirnov(非參數檢驗)

以樣本數據的累計頻數分布與特定理論分布比較,拿

若兩者間的差距很小,則推論該樣本取自某特定分布。只8

對連續分布適用

Z檢驗

原假設下的統計量近似為態分布。

-該正態分布方差已知,或可以從大樣本里佔計出來(近似Z檢驗)

H0:

NO,1)

H1:μ≠

Critical region

Critical region

檢驗統計量:

a/2

Acceptance

a/2

region

(r

0

拒絕H:2>Z/2orZ

T檢驗

-數據嚴格遵從正態分布

不要求方差已知,可以從數據中佔算

尤其適用于評估小樣本相對總體的差異

較Z檢驗復雜

大樣本與Z檢驗結果相似

Critical region

H1:μ≠μo

Ical region

a/2

檢驗統計量:

7≈(X-)

x2,n-1

an n-I

拒絕Ho:T>1/2orT

檢驗步驟

1)根據問題,判定感興趣的參數

2)給定原假設,F

3)給定備擇假設I

4)選擇·個置信水平α

5)選擇合適的假設檢驗

6)推導出拒絕域

7)計算需要的統計變量

8)決定拒絕或接收原假設H

4.AB Test

假設檢驗的一個重要應用;

多個方案并行測試——大多數情況是兩個方案

每個方案從有一個變量不同—必須是單變量

以某種規則優勝劣汰—規則不同可能結果完全不同。

13抽樣

l抽樣概述

2抽樣方法

3應用案例

總結

以上是生活随笔為你收集整理的python数据挖掘 百度云,常用数据挖掘算法总结及Python实现高清完整版PDF_python数据挖掘,python数据分析常用算法...的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。