當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

数据挖掘分析考试笔记

發布時間：2023/12/14 编程问答 25 豆豆

生活随笔收集整理的這篇文章主要介紹了数据挖掘分析考试笔记小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

數據挖掘分析考試筆記

文章目錄

數據挖掘分析考試筆記
- 英譯漢
- 第一章緒論
- 第二章知識發現過程與應用結構
- 第三章關聯規則挖掘
- - Apriori算法
  - close算法
  - FP-tree
- 第四章分類
- - 分類兩個步驟
  - 基于距離的類標識搜素算法
  - KNN
  - 決策樹 ID3
  - 貝葉斯分類
  - EM算法(Expectation-Maximization Algorithm)
  - 混淆矩陣
- 第五章聚類
- - 距離與相似性的度量
  - K-Means算法
  - PAM(Partitioning Around Medoid)圍繞中心點的劃分
  - 層次聚類方法
  - - AGNES算法
    - DIANA算法
  - DBSCAN
- 第六章時間序列和序列模式挖掘
- 第七章 PageRank

英譯漢

KDD, Knowledge Discovery in Database 知識發現
supervised learning 監督學習
Batesian Classification 貝葉斯分類
Agglomeration 凝聚
Division 分裂
information retrieval 信息檢索
Knowledge Engineering 知識工程
OLTP(On-Line Transaction Processing) 聯機事務處理
OLAP(On-Line Analytic Processing) 聯機分析處理
Decision Support 決策支持
Distributed Database 分布式數據庫
Lattice of Closed Itemset 閉合項目集格空間
Parallel Association Rule Mining 并行關聯規則挖掘
Quantities Association Rule Mining數量關聯規則挖掘
KNN(k-Nearest Neighbors) k最臨近
decision tree 決策樹
overfitting 過擬合
Iterative Dichotomization
Expectation-Maximization
PAM(partitioning around medoid) 圍繞中心點的劃分
DBSCAN(Density-Based Spatial Clustering of Applications with Noise) 基于密度的噪聲應用空間聚類
Partitioning method 劃分方法
Hierarchical method 層次方法
Grid-based method 基于網格的方法
STING(Statistical Information Grid-based Method) 基于網格的統計信息方法
Time Series 時間序列
AR(Auto Regressive) 自回歸
Sequential Mining 序列挖掘
Offset Translation 偏移變換
Subsequence Ordering 子序列排序
Crawler 爬蟲
Look up Page 查找頁
posterior probability 后驗概率
prior probability 先驗概率

第一章緒論

數據挖掘概念

數據挖掘是從大量的、不完全的、模糊的、有噪聲的、隨機的數據集中識別有效的、新穎的、潛在可用的信息，以及最終可理解的模式的非平凡過程。
數據挖掘與知識發現的關聯性
KDD是數據挖掘的一個特例
數據挖掘是KDD過程的一個步驟

數據挖掘是在KDD中通過特定的算法在可接受的計算效率限制內生成特定模式的一個步驟。
含義相同

第二章知識發現過程與應用結構

KDD的階段劃分、功能、任務
問題定義

和領域專家及最終用戶緊密協作，一方面了解相關領域的有關情況、熟悉背景知識、弄清用戶要求、確定挖掘目標等要求，另一方面通過對各種學習算法的對比而確定可用的學習算法
數據采集

選取相應的源數據庫，并根據要求從數據庫中提取相關的數據
數據預處理

對前一階段的數據進行再加工，確定數據的完整性和一致性
數據挖掘

運用選定的數據挖掘算法，從數據中提取出用戶所需要的知識
模式評估

將KDD系統發現的知識以用戶能理解的方式呈現，并且根據需求對知識進行評價，如果發現的知識和用戶所需要的不一致，則重復以上階段以最終獲得可用知識

第三章關聯規則挖掘

頻繁項目集：大于或等于MinSupport的項目集合的非空子集，稱為頻繁項目集

強關聯規則：事務數據庫在項目集合上滿足最小支持度和最小置信度的關聯規則成為強關聯規則

關聯規則挖掘問題可以劃分成兩個子問題：

發現關聯規則

**通過用戶給定的最小支持度，尋找所有的頻繁項目集，即滿足Support不小于MinSupport的所有項目集合

生成關聯規則

通過用戶給定的最小置信度，在每個最大頻繁項目集中，尋找Confidence不小于MinConfidence的關聯規則

Apriori算法

原理：頻繁項目集的所有非空子集都是頻繁項目集，非頻繁項目集的所有超集都是非頻繁項目集

Apriori（發現頻繁項目集）

輸入：項目集合D，最小支持度minsup_count

輸出：頻繁項目集L

$L_1$ = {lager 1-itemsets};

FOR(k = 2; $Lk?1≠ΦL_{k-1} \neq \Phi$ ; k++) DO BEGIN

? $C_k$ = apriori_gen( $L_{k-1}$ );

? FOR all trancation t $∈\in$ D DO BEGIN

? $C_t$ = subset( $C_k$ , t);

? FOR all condiation c $∈\in$ $C_t$ DO c.count++;

? END

? $L_k$ = {c $∈\in$ $C_k$ | c.count $≥\geq$ minsup_count}

L = $∪\cup$ $L_k$

apriori_gen（候選集生成）

輸入：(k-1)-頻繁項目集 $L_{k-1}$

輸出：k-候選項目集 $C_k$

FOR all itemset q $∈\in$ $L_{k-1}$ DO

? FOR all itemset p $∈\in$ $L_{k-1}$ DO

? IF q.item₁ = p.item₁, q.item₁ = p.item $?\cdots$ q.item_k-2 = p.item_k-2, q.item_k-1 < p.item_k-1

? THEN BEGIN

? c = q $∞\infty$ p

? IF has_inference_subset(c, $L_{k-1}$ )

? delete c

? ELSE IF

? add c to $C_k$

? END

Return $C_k$

has_inference_subset（判斷候選集元素）

輸入：候選集c，(k-1)-頻繁項目集 $L_{k-1}$

輸出： $L_{k-1}$ 中是否含有c的全部(k-1)-子集的布爾判斷（c是否被刪除的布爾判斷）

FOR all (k-1)-itemset of c DO BEGIN

? IF s $?\notin$ $L_{k-1}$ THEN Return TRUN

Return FALSE

close算法

原理：一個頻繁閉合項目集的閉合子集一定是頻繁的，一個非頻繁閉合項目集的閉合超集一定是非頻繁的。

計算：見colse算法PPT

FP-tree

FP-tree算法主要由兩個步驟完成：

利用事務數據庫中的數據構造FP-tree

從FP-tree中挖掘頻繁模式

只需兩次數據庫的掃描：

對所有1-項目集的頻度排序

將數據庫信息轉變成緊縮內存結構

算法例子：

TIDItemset

1	A,B,C,D
2	B,C,E
3	A,B,C,E
4	B,D,E
5	A,B,C,D

掃描一次數據庫，得到頻數排序

itemcount

B	5
C	4
A	3
D	3
E	3

根據頻數對事務數據庫重新排列

TIDItemset

1	B,C,A,D
2	B,C,E
3	B,C,A,E
4	B,D,E
5	B,C,A,D

構造FP-tree

尋找路徑生成頻繁項目集

item條件模式基條件FP-tree產生的頻繁模式

A	{(BC:3)}	BC:3	AB,AC,ABC
B	NULL	NULL	NULL
C	{(B:4)}	B:4	BC
D	{(BCA:2),(B,1)}	BCA:2	AD,BD,CD,ABD,BCD,ACD,ABCD
E	{(BD,1),(BC,2),(BCA,1)}	BC:2	BCE

最大頻繁項目集{BCE, ABCD}

第四章分類

分類兩個步驟

建立一個模型，描述預定的數據類集或概念集

使用模型進行分類。首先評估模型的預測準確率，如果準確率可以接受，那么就用他來對類標號未知的元組進行分類

基于距離的類標識搜素算法

輸入：每個類的中心 $C_1$ , $C_2$ , $C_3$ … $C_m$ ，待分類元組t

輸出：t的類別c

dist = $∞\infty$ ;

FOR i=1 to m DO

? IF dist( $C_1$ , t) < dist THEN BEGIN

? dist = dist( $C_1$ , t);

? c=i;

? END

flag t with c

KNN

思想：假定每個類包含多個訓練數據，且每個訓練數據都有一個唯一的類別標記。KNN的主要思想就是計算每個訓練數據到待分類元組的距離，取離待分類元組最近的k個訓練數據，k個訓練數據中哪一類別的訓練數據占多數，待分類元組就屬于哪個類別。

k-最臨近算法

輸入：訓練數據T
最臨近數目k
待分析的元組t
輸出：t的類別c
N = $Φ\Phi$

FOR each d $∈\in$ T DO BEGIN

? IF |N| < k THEN

? N = N $∩\cap$ ozvdkddzhkzd

? ELSE

? IF $?\exists$ u $∈\in$ N such that sim(u, t) < sim(d, t) THEN

? BEGIN

? N = N - {u};

? N = N $∩\cap$ ozvdkddzhkzd

? END

END

c = class related to such u $∈\in$ N which has the most number

優點：

簡單、易于理解、容易實現

通過對k的選擇可具備丟噪音數據的健壯性

缺點：

算法的時間復雜度高

占用大量存儲空間

對k值的依賴性

當其樣本分布不平衡時，如當其中一類樣本占主導時，新的未知實例容易被歸為主導樣本

決策樹 ID3

信息熵(information Entropy)：對隨機變量不確定度的度量，熵越大，隨機變量的不確定性就越大
$-\sum_xp(x)log_2(p(x))$

信息增益(information gain)：是針對一個一個特征來的，就是看一個特征，系統有它和沒有它時信息量各是多少，兩者的差值即這個特征給系統帶來的信息量，即信息增益
$I G (T) = E n t r o p y (S) ? E n t r o p y (S ∣ T)$
信息增益比：
$\frac{Gain(S,A)}{SplitInformation(S,A)}\\ SplitInformation(S,A) = -\sum^v_{j=1}p_jlog_2(p_j)$

預剪枝(Pre-Pruning)：在構造決策樹的同時進行剪枝；設定一個閾值，如決策樹根的長度等，構造決策樹時不能超過這個閾值。

后剪枝(Post-Pruning)：在決策樹構造之后進行剪枝；從樹的葉子節點開始剪枝，逐步向根的方法剪。剪枝的過程是對擁有同一父節點的一組節點進行檢查，如果將其合并后增加的熵小于某個閾值，則將其合并為一個節點。其中包含了所有可能的結果。

貝葉斯分類

$H:所屬類別X:某種特征P(H∣X)=P(X∣H)P(H)P(X)H:所屬類別\\ X:某種特征\\ P(H|X) = \frac{P(X|H)P(H)}{P(X)}$

P(H) 先驗概率(prior probability)：根據以往的經驗和分析得到的概率

P(H|X) 后驗概率(posterior probability)：已知結果發生的情況下，求導致結果的某種原因的可能性的大小

EM算法(Expectation-Maximization Algorithm)

概念：在概率模型中尋找參數最大似然預計或者最大后驗預計的算法。用于尋找，依賴于不可觀察的隱性變量的概率模型中，參數的最大似然預計。

基本思想：分為兩步Expection-step和Maximization-step，E-step通過已知數據和現有模型估計參數，然后用這個估計的參數計算似然函數的期望值；M-step是尋找似然函數最大化時對應的參數。由于算法會保證在每次迭代后似然函數都會增加，所以函數最終會趨于收斂

EM算法流程：

初始化分布參數

反復直到收斂

混淆矩陣

記憶：第二個字母P/N表示預測值，預測為1就為P，預測為0就為N；第一個字母T/F，表示預測的對不對，預測對了就為T，預測錯了就為F

Accuracy（準確率）
$\frac{TP+TN}{TP+TN+FP+FN}$

P:precision（精確率）
$P=TPTP+FPP=\frac{TP}{TP+FP}$
r:recall（召回率/靈敏度）
$r=TPTP+FNr=\frac{TP}{TP+FN}$

$Fβ=(1+β2)P?rβ2?P+rF_\beta=(1+\beta^2)\frac{P*r}{\beta^2*P+r}$

評估分類方法：

保持法

在保持法中，把給定的數據隨機地劃分為兩個獨立的集合：訓練集和測試集。通常，三分之一的數據為訓練集，三分之二的數據為測試集。使用訓練集得到分類器，其準確率用測試集評估

交叉驗證

把數據隨機的分為n等份，每份的大小基本相同，測試和訓練都進行n次。

如：把數據分為10等份，其中一份保留用作測試，其余九份合在一起來建立模型，然后用那一份數據來測試建立的模型，得到錯誤率。對每一份都重復此步驟，得到十個錯誤率，最后模型用所有數據生成，錯誤率取十個錯誤率的平均。

第五章聚類

聚類的概念：把數據分成不同的組，使組與組之間的差距盡可能的大，組內間的差距盡可能小

聚類分析在數據挖掘中的應用

聚類分析可以作為其他算法的預處理步驟

可以作為一個獨立的工具來獲得數據的分布情況

聚類分析可以完成孤立點挖掘

距離與相似性的度量

距離函數
明可夫斯基距離(Minkowski)
$\sqrt[r]{\sum_{i=1}^n|x_i-y_i|^r}$
當r=1時，演變為絕對值距離/曼哈頓距離
$\sum_{i=1}^n|x_i-y_i|$
當r=2時，演變為歐式距離
$\sqrt[2]{\sum_{i=1}^n|x_i-y_i|^2}$
余弦距離
$d(x,y)=∑i=1nxi?yi∑i=1nxi2?∑i=1nyi22d(x,y)=\frac{\sum_{i=1}^nx_i*y_i}{\sqrt[2]{\sum_{i=1}^nx_i^2*\sum_{i=1}^ny_i^2}}$
相似度Jaccard系數
$J(A,B)=∣A∩B∣∣A∣+∣B∣?∣A∩B∣dj=1?J(A,B)J(A,B)=\frac{|A\cap B|}{|A|+|B|-|A\cap B|}\\ \\ d_j= 1-J(A,B)$
類間距離（如何計算聚類簇之間的距離？）
最短距離法

定義兩個類中距離最近的兩個元素間的距離為類間距離
最長距離

定義兩個類中距離最遠的兩個元素元素間的距離為類間距離
中心法（均值距離）

定義兩個類中心間的距離為類間距離
類平均法（平均距離）

任意兩個元素距離的平均值作為類間距離
$DC(Ca,Cb)=∑x∈Ca∑y∈Cbd(x,y)mnm:Ca類的元素個數n:Cb類的元素個數D_C(C_a,C_b)=\frac{\sum_{x\in C_a}\sum_{y\in C_b}d(x,y)}{mn}\\ \\ m:C_a類的元素個數\\ n:C_b類的元素個數$

K-Means算法

思想：k-平均算法以k為參數，將n個對象劃分為k個簇，以使簇內具有較高的相似度。相似度的計算根據一個簇中對象的平均值來進行。

過程：算法首先隨機的選擇k個對象，以此作為初始的k個簇的中心或平均值，對剩余的每個對象根據其到各個簇中心的距離，將它劃分給最近的簇，然后重新計算每個簇平均值，這個過程不斷重復，直到準則函數E收斂。
$E=∑i=1k∑x∈Ci∣x?xˉi∣2E=\sum_{i=1}^k\sum_{x\in C_i}|x-\bar x_i|^2$

K-Means（k-平均算法）

輸入：簇的數目k，n個對象的數據庫

輸出：k個簇，使平方誤差準則最小

assign inivate value for means

REPEAT

? FOR j = 1 to n DO assign each $x_j$ to the cluster which has the closest means;

? FOR i = 1 to k DO $xˉi\bar x_i$ = $∑x∈Cix∣Ci∣\sum_{x\in C_i}\frac{x}{|C_i|}$ ;

? Compute E

UNTIL E收斂

PAM(Partitioning Around Medoid)圍繞中心點的劃分

思想：最初隨機選擇k個對象作為中心點，該算法反復的用非代表對象來替換代表對象，視圖找出更好的中心點，以改變聚類的質量。

過程：

建立：隨機尋找k個中心點作為類中心

對所有可能的對象對進行分析，找到交換后可以使平方-誤差減小最大的對象，代替原中心點

層次聚類方法

AGNES算法

AGNES（自底向上凝聚算法）

輸入：包含n個對象的數據庫，終止的條件簇數目k

輸出：k個簇，達到終止條件規定的簇數目

將每個對象當成一個初始簇

REPEAT

? 根據兩個簇中最近的數據點找到最近的兩個簇

? 合并這兩個簇，生成新的簇的集合

UNTIL 達到終止條件定義的簇的數目

算法例子

序號屬性1屬性2

1	1	1
2	1	2
3	2	1
4	2	2
5	3	4
6	3	5
7	4	4
8	4	5

執行過程

步驟最近的簇距離最近的兩個簇合并后的新簇

1	1	{1},{2}	{1,2},{3},{4},{5},{6},{7},{8}
2	1	{3},{4}	{1,2},{3,4},{5},{6},{7},{8}
3	1	{5},{6}	{1,2},{3,4},{5,6},{7},{8}
4	1	{7},{8}	{1,2},{3,4},{5,6},{7,8}
5	1	{1,2}{3,4}	{1,2,3,4},{5,6},{7,8}
6	1	{5,6}{7,8}	{1,2,3,4},{5,6,7,8}

DIANA算法

DIANA（自頂向下分裂算法）

輸入：包含n個對象的數據庫，簇的終止數目k

輸出：k個簇，達到終止條件規定簇的數目

將所有對象合成一個初始簇

FOR (i = 1; i $≠\neq$ k; i++ ) DO BEGIN
找到所有簇中直徑最大的簇

? 找出所選簇中與其他點平均差異度最大的點加入splinter group中，其余點放入old party中

? REPEAT

? 在old party中找出到splinter group點中最近距離不大于到old party點中最近距離的點，加入到splinter group中

? UNTIL 沒有新的old party的點分配給splinter group

? splinter group 和 old party兩個簇為被選定的簇分裂成的，與其他簇一起組成新的簇集合

END;

算法執行例子

序號屬性1屬性2

1	1	1
2	1	2
3	2	1
4	2	2
5	3	4
6	3	5
7	4	4
8	4	5

執行過程

步驟具有最大直徑的簇splinter groupold party

1	{1,2,3,4,5,6,7,8}	{1}	{2,3,4,5,6,7,8}
2	{1,2,3,4,5,6,7,8}	{1,2}	{3,4,5,6,7,8}
3	{1,2,3,4,5,6,7,8}	{1,2,3}	{4,5,6,7,8}
4	{1,2,3,4,5,6,7,8}	{1,2,3,4}	{5,6,7,8}
5	{1,2,3,4,5,6,7,8}	{1,2,3,4}	{5,6,7,8}終止

DBSCAN

DBSCAN(Density-Based Spatial Clustering of Applications with Noise) 基于密度的噪聲應用空間聚類

輸入：包含n個對象的數據庫，半徑 $ε\varepsilon$ ，最小數目MinPts

輸出：所有生成的簇，達到密度要求

REPEAT

? 從數據庫中抽取一個未被處理過的點

? IF 抽取的點使中心點，THEN 找出所有的密度可達的對象，形成一個簇

? ELSE 抽取的點是邊緣點（非核心對象），則跳過本次循環，繼續查找下一點

UNTIL 所有的點都被處理

算法執行例子（ $ε\varepsilon$ = 1, MinPts = 4)

序號屬性1屬性2

1	1	0
2	4	0
3	0	1
4	1	1
5	2	1
6	3	1
7	4	1
8	5	1
9	0	2
10	1	2
11	4	2
12	1	3

執行過程

步驟選擇的點在

ε\varepsilon

中的個數通過計算可達點而找到的新簇

1	1	2	無
2	2	2	無
3	3	3	無
4	4	5	$C_1$ {1,3,4,5,9,10,12}
5	5	3	已在一個簇 $C_1$ 中
6	6	3	無
7	7	5	$C_2$ {2,6,7,8,11}
8	8	2	已在一個簇 $C_2$ 中
9	9	3	已在一個簇 $C_1$ 中
10	10	4	已在一個簇 $C_1$ 中
11	11	2	已在一個簇 $C_2$ 中
12	12	2	已在一個簇 $C_1$ 中

第六章時間序列和序列模式挖掘

時間序列

時間序列就是將某一指標在不同時間上的不同數值，按照時間的先后順序排列而成的序列
時間序列數據挖掘

時間序列挖掘就是要從大量的時間序列數據中提取出人們事先不知道的、潛在有用的、與時間屬性相關的信息和知識，并用于短期、中期或長期預測，指導人們社會、生活、軍事、經濟等行為。

第七章 PageRank

基于隨機沖浪的PageRank算法

輸入：頁面鏈接網絡G

輸出：頁面等級值向量R

設置點擊概率d，等級值向量初始值 $R_0$ ，迭代終止條件 $ε\varepsilon$

根據根據頁面鏈接網絡G生成轉移概念矩陣M

i = 1;

REPEAT

? $R_{i+1}$ = M $R_i$ ;

? $εi\varepsilon_i$ = || $R_{i+1} - R_i$ ||

UNTIL $εi<ε\varepsilon_i < \varepsilon$

Return $R_{i+1}$

執行例子

[已在matlab運行]https://gitee.com/wu-yuhaohao/picture/tree/master/matlab)

A = [
[0,1/2,0,1/2],
[1/3,0,0,1/2],
[1/3,1/2,0,0],
[1/3,0, 1, 0]
]

A =

0 0.5000 0 0.5000 0.3333 0 0 0.5000 0.3333 0.5000 0 0 0.3333 0 1.0000 0

Q = [
[1/4,1/4,1/4,1/4],
[1/4,1/4,1/4,1/4],
[1/4,1/4,1/4,1/4],
[1/4,1/4,1/4,1/4]
]

Q =

0.2500 0.2500 0.2500 0.2500 0.2500 0.2500 0.2500 0.2500 0.2500 0.2500 0.2500 0.2500 0.2500 0.2500 0.2500 0.2500

d = 0.85

d =

0.8500

M = (1-d)Q + dA

M =

0.0375 0.4625 0.0375 0.4625 0.3208 0.0375 0.0375 0.4625 0.3208 0.4625 0.0375 0.0375 0.3208 0.0375 0.8875 0.0375

R = ones(4,1)

R =

1111

R1 = M*R

R1 =

1.0000 0.8583 0.8583 1.2833

varepsilon = sum(sum(abs(R1-R)))

varepsilon =

0.5667

R2 = M*R1

R2 =

1.0602 0.9787 0.7981 1.1629

varepsilon = sum(sum(abs(R2-R1)))

varepsilon =

0.3612

R3 = M*R2

R3 =

1.0602 0.9446 0.8664 1.1288

varepsilon = sum(sum(abs(R3-R2)))

varepsilon =

0.1365

R4 = M*R3

R4 =

1.0312 0.9301 0.8519 1.1868

varepsilon = sum(sum(abs(R4-R3)))

varepsilon =

0.1160

R5 = M*R4

R5 =

1.0497 0.9466 0.8375 1.1663

varepsilon = sum(sum(abs(R5-R4)))

varepsilon =

0.0698

總結

以上是生活随笔為你收集整理的数据挖掘分析考试笔记的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：将毫秒转换为时间（HH：ss：mm）
下一篇：无代码开发平台为什么能火?它是如何收费的

编程问答

数据挖掘分析考试笔记

數據挖掘分析考試筆記

文章目錄

英譯漢

第一章 緒論

第二章 知識發現過程與應用結構

第三章 關聯規則挖掘

Apriori算法

close算法

FP-tree

第四章 分類

分類兩個步驟

基于距離的類標識搜素算法

KNN

決策樹 ID3

貝葉斯分類

EM算法(Expectation-Maximization Algorithm)

混淆矩陣

第五章 聚類

距離與相似性的度量

K-Means算法

PAM(Partitioning Around Medoid)圍繞中心點的劃分

層次聚類方法

AGNES算法

DIANA算法

DBSCAN

第六章 時間序列和序列模式挖掘

第七章 PageRank

總結

第一章緒論

第二章知識發現過程與應用結構

第三章關聯規則挖掘

第四章分類

第五章聚類

第六章時間序列和序列模式挖掘