日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 人文社科 > 生活经验 >内容正文

生活经验

机器学习与高维信息检索 - Note 1 - 信息检索、机器学习与随机变量

發布時間:2023/11/27 生活经验 31 豆豆
生活随笔 收集整理的這篇文章主要介紹了 机器学习与高维信息检索 - Note 1 - 信息检索、机器学习与随机变量 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

1. 簡介

1.1 信息檢索和機器學習

從高維數據中提取信息的問題與降維問題密不可分,也就是說,從典型的高維觀察中提取一些合理的特征的問題。例如,考慮一下人類在圖像上識別人臉的能力。該圖像被視為一個高維向量,例如 800×600800 \times 600800×600 的像素值,肯定不能作為原始像素數據存儲在人類的大腦中。相反,我們必須提取一些特征,例如眼睛之間的相對距離,鼻子的長度,以及更抽象的不同臉部區域的相互作用,作為一個整體。儲存和回憶這幾個抽象特征的能力使我們有可能識別出一張臉,而不受不同的背景、太陽鏡或部分遮擋的影響,并能區分不同的臉。在廣泛的數據分析領域有更多的例子,通過提取特征可以從高維數據中擠出信息,從基因數據分類到音頻信號處理,從數據可視化到腦電圖(EEG)數據分析。

從形式上看,降維的問題是這樣的。給定一個ppp維的實值隨機變量X=[X1…Xp]?X=\left[X_{1} \ldots X_{p}\right]^{\top}X=[X1?Xp?]?,找到一個圖或算法

f:Rp→Rkwith?k?p,f: \mathbb{R}^{p} \rightarrow \mathbb{R}^{k} \text { with } k \ll p, f:RpRk?with?k?p,

使得S=f(X)S=f(X)S=f(X)包含 “盡可能多的來自XXX的信息”。根據上述例子的精神,Rp\mathbb{R}^{p}Rp將被稱為原始數據空間,Rk\mathbb{R}^{k}Rk被稱為還原數據空間或特征空間。

例如,信息的保存可以用方差來衡量,因此SSS的方差應該反映XXX的方差。這也可以解釋為消除數據中的冗余。考慮下面的例子:溫度被測量,一次是攝氏度(這將是隨機變量的第一個條目X1X_{1}X1?),一次是華氏度(X2)\left(X_{2}\right)(X2?)。顯然,這些信息可以簡化為一個變量,例如S1=X1S_{1}=X_{1}S1?=X1?,甚至不損失任何信息。

矩陣X?Rp×n\mathbf{X}\subset\mathbb{R}^{p\times n}X?Rp×n中的(i,j)(i, j)(i,j)條目xijx_{i j}xij?表示隨機變量XiX_{i}Xi?在觀測jjj的實現,稱為觀測矩陣。其列是ppp維隨機變量XXX的實現。

期望值用E(X)=μ∈Rp\mathbb{E}(X)=\mu\in \mathbb{R}^{p}E(X)=μRp來表示。由于我們處理的是一個多變量隨機變量,方差現在由協方差矩陣(也稱為方差-協方差矩陣)表示,其定義為

Σ=Var?(X)=E((X?μ)(X?μ)?)∈Rp×p.(1.1)\Sigma=\operatorname{Var}(X)=\mathbb{E}\left((X-\mu)(X-\mu)^{\top}\right) \in \mathbb{R}^{p \times p} .\tag{1.1} Σ=Var(X)=E((X?μ)(X?μ)?)Rp×p.(1.1)

(i,j)(i, j)(i,j)項是ith?i^{\text {th }}ith?jth?j^{\text {th }}jth?隨機變量之間的協方差。協方差矩陣是對稱的,即Σ=Σ?\Sigma=\Sigma^{\top}Σ=Σ?,并且是正半無限的1{ }^{1}1,即Σ≥0?\Sigma \geq 0 \LeftrightarrowΣ0? x?Σx≥0?xx^{\top} \Sigma x \geq 0 \forall xx?Σx0?x

1{ }^{1}1 in contrast to positive definite, i.e. x?Σx>0?x≠0x^{\top} \Sigma x>0 \forall x \neq 0x?Σx>0?x?=0 and x?Σx=0?x=0x^{\top} \Sigma x=0 \Leftrightarrow x=0x?Σx=0?x=0

例1.1. 考慮兩個常數隨機變量X1≡constX_{1} \equiv \text{const}X1?constX2≡constX_{2} \equiv \text{const}X2?const。這意味著我們有一個協方差矩陣Σ=0\Sigma=0Σ=0的二維隨機變量。這個例子表明,Σ\SigmaΣ不一定是正定的。

由于隨機變量的實際分布通常是未知的,期望值通常是在nnn觀測值的基礎上估計的。

1n∑j=1n[x1j?xpj]=1nX1n:=μ^(1.2)\frac{1}{n} \sum_{j=1}^{n}\left[\begin{array}{c} x_{1 j} \\ \vdots \\ x_{p j} \end{array}\right]=\frac{1}{n} \mathbf{X} \mathbb{1}_{n}:=\hat{\mu} \tag{1.2} n1?j=1n?????x1j??xpj??????=n1?X1n?:=μ^?(1.2)
利用這個估計的期望值和克羅內克積(Kronecker product)2^{2}2?\otimes?
可以計算出居中的觀測矩陣X\mathbf{X}X,如下所示。

X ̄=X?μ^?[1?1](1.3)\overline{\mathbf{X}}=\mathbf{X}-\hat{\mu} \otimes\left[\begin{array}{ccc} 1 & \cdots & 1 \end{array}\right]\tag{1.3} X=X?μ^??[1???1?](1.3)

2{ }^{2}2 The Kronecker product of two matrices A?B\mathbf{A} \otimes \mathbf{B}A?B with A={aij}∈Rk×l,B={bij}∈Rm×n\mathbf{A}=\left\{a_{i j}\right\} \in \mathbb{R}^{k \times l}, \mathbf{B}=\left\{b_{i j}\right\} \in \mathbb{R}^{m \times n}A={aij?}Rk×l,B={bij?}Rm×n is a (km×ln)(k m \times l n)(km×ln)-matrix C\mathbf{C}C, such that C=[a11B?a1lB???ak1B?aklB]\mathbf{C}=\left[\begin{array}{ccc}a_{11} \mathbf{B} & \cdots & a_{1 l} \mathbf{B} \\ \vdots & \ddots & \vdots \\ a_{k 1} \mathbf{B} & \cdots & a_{k l} \mathbf{B}\end{array}\right]C=????a11?B?ak1?B?????a1l?B?akl?B?????

有了居中的觀察矩陣X ̄\overline{\mathrm{X}}X,協方差矩陣Σ=Cov?(X)\Sigma=\operatorname{Cov}(X)Σ=Cov(X)可以通過以下方式估計

Σ^=1n?1X ̄X ̄?.\widehat{\Sigma}=\frac{1}{n-1} \overline{\mathbf{X}} \overline{\mathbf{X}}^{\top} . Σ=n?11?XX?.

由于在實際應用中nnn趨向于大,也可以使用近似值 1nX ̄X ̄?\frac{1}{n} \overline{\mathbf{X}} \overline{\mathbf{X}}^{\top}n1?XX?.

1.2 關于隨機變量的初步說明

我們想回顧一下概率論中的一些基本定義和符號,在本講義中我們偶爾會用到。為了我們的目的,考慮連續或離散的實數多維隨機變量就足夠了。更正式地說,讓XΩ→RpX \Omega\rightarrow\mathbb{R}^{p}XΩRp是一個隨機變量,并將其相對于通常勒貝格測度的密度表示為pX(x)p_{X}(x)pX?(x)。我們將使用非常草率但非常方便的符號X∈RpX\in\mathbb{R}^{p}XRp來表示隨機變量XXXRp\mathbb{R}^{p}Rp中取值。

對于(絕對)連續隨機變量,密度是一個從Rp\mathbb{R}^{p}RpR\mathbb{R}R的連續函數。如果是離散隨機變量,其取值為xix_{i}xi?,概率為pip_{i}pi?,我們采用狄拉克δ函數3{ }^{3}3來描述其密度,即

pX(x)=∑ipiδ(x?xi).p_{X}(x)=\sum_{i} p_{i} \delta\left(x-x_{i}\right) . pX?(x)=i?pi?δ(x?xi?).

3{ }^{3}3 The Dirac-Delta-Function fulfills the condition that δ(t)=0\delta(t)=0δ(t)=0 for t≠0t \neq 0t?=0 and ∫Rpδ(t)dt=1p\int_{\mathbb{R}^{p}} \delta(t) \mathrmozvdkddzhkzd t=\mathbb{1}_{p}Rp?δ(t)dt=1p?. i.e. δ\deltaδ has an infinitely high peak at 0.0 .0.

所以,如果A?Rp\mathcal{A} \subset \mathbb{R}^{p}A?Rp,則XXXA\mathcal{A}A中取值的概率為

Pr?(X∈A)=∫ApX(x)dx.\operatorname{Pr}(X \in \mathcal{A})=\int_{\mathcal{A}} p_{X}(x) \mathrmozvdkddzhkzd x . Pr(XA)=A?pX?(x)dx.

注意,在離散隨機變量的情況下,這個表達式只是

Pr?(X∈A)=∫A∑ipiδ(x?xi)dx=∑{i∣xi∈A}pi.\operatorname{Pr}(X \in \mathcal{A})=\int_{\mathcal{A}} \sum_{i} p_{i} \delta\left(x-x_{i}\right) \mathrmozvdkddzhkzd x=\sum_{\left\{i \mid x_{i} \in \mathcal{A}\right\}} p_{i} . Pr(XA)=A?i?pi?δ(x?xi?)dx={ixi?A}?pi?.
通過知道兩個隨機變量X∈RpX\in \mathbb{R}^{p}XRpY∈RkY\in \mathbb{R}^{k}YRk的聯合密度pX,Y(x,y)p_{X, Y}(x, y)pX,Y?(x,y),就可以分別推導出XXXYYY的個體密度。這些被稱為邊緣密度(marginal densities),它們由以下公式給出

pX(x)=∫RkpX,Y(x,y)dy,pY(y)=∫RppX,Y(x,y)dx.\begin{aligned} &p_{X}(x)=\int_{\mathbb{R}^{k}} p_{X, Y}(x, y) \mathrmozvdkddzhkzd y, \\ &p_{Y}(y)=\int_{\mathbb{R}^{p}} p_{X, Y}(x, y) \mathrmozvdkddzhkzd x . \end{aligned} ?pX?(x)=Rk?pX,Y?(x,y)dy,pY?(y)=Rp?pX,Y?(x,y)dx.?
如果聯合密度函數是給定的,對兩個變量之一的某個實現的了解,例如XXX,可以推斷出關于YYY的分布信息。由此產生的密度函數被稱為條件密度函數,如果XXX的實現是x∈Rpx \in \mathbb{R}^{p}xRp,它由以下公式給出

pY∣X=x(y)=pX,Y(x,y)pX(x).p_{Y \mid X=x}(y)=\frac{p_{X, Y}(x, y)}{p_{X}(x)} . pYX=x?(y)=pX?(x)pX,Y?(x,y)?.

4{ }^{4}4 從形式上看,這個集合必須是可測的,相對于博雷爾σ\sigmaσ-代數而言,但如果你不知道什么是可測的,你能想象的所有子集都滿足這個條件。有兩個量在描述隨機變量X∈RpX\in\mathbb{R}^{p}XRp的統計屬性時起著突出的作用。它們是第一和第二時刻,也被稱為期望值

E[X]=∫RpxpX(x)dx=:μ\mathbb{E}[X]=\int_{\mathbb{R}^{p}} x p_{X}(x) \mathrmozvdkddzhkzd x=: \mu E[X]=Rp?xpX?(x)dx=:μ

和方差/協方差

Var?[X]=∫Rp(x?μ)(x?μ)?pX(x)dx.\operatorname{Var}[X]=\int_{\mathbb{R}^{p}}(x-\mu)(x-\mu)^{\top} p_{X}(x) \mathrmozvdkddzhkzd x . Var[X]=Rp?(x?μ)(x?μ)?pX?(x)dx.

注意,μ∈Rp\mu\in\mathbb{R}^{p}μRpVar?[X]\operatorname{Var}[X]Var[X]Rp×p\mathbb{R}^{p\times p}Rp×p的半正定矩陣。

Exercise:證明方差/協方差矩陣是正半定的

x1x_{1}x1?x2x_{2}x2?x3x_{3}x3?x4x_{4}x4?py(Y)↓p_{y}(Y) \downarrowpy?(Y)
y1y_{1}y1?18\frac{1}{8}81?116\frac{1}{16}161?132\frac{1}{32}321?132\frac{1}{32}321?14\frac{1}{4}41?
y2y_{2}y2?116\frac{1}{16}161?18\frac{1}{8}81?132\frac{1}{32}321?132\frac{1}{32}321?14\frac{1}{4}41?
y3y_{3}y3?116\frac{1}{16}161?116\frac{1}{16}161?116\frac{1}{16}161?116\frac{1}{16}161?14\frac{1}{4}41?
y4y_{4}y4?14\frac{1}{4}41?00014\frac{1}{4}41?
px(X)p_{x}(X)px?(X)12\frac{1}{2}21?14\frac{1}{4}41?18\frac{1}{8}81?18\frac{1}{8}81?1

表1.1: 該表顯示了一個示例性的聯合概率分布。

例1.2. 表1.1中給出了一個二維離散隨機變量的聯合概率分布的例子。邊際密度分別用pY(y)p_{Y}(y)pY?ypX(x)p_{X}(x)pX?x表示。作為一個練習,請計算在Y=y2Y=y_{2}Y=y2?的情況下XXX的條件密度。

Answer: pX∣Y=y2(x)=∑ipiδ(x?xi)p_{X \mid Y=y_{2}}(x)=\sum_{i} p_{i} \delta\left(x-x_{i}\right)pXY=y2??(x)=i?pi?δ(x?xi?), with p1=1/4,p2=1/2,p3=1/8,p4=1/8.p_{1}=1 / 4, p_{2}=1 / 2, p_{3}=1 / 8, p_{4}=1 / 8 .p1?=1/4,p2?=1/2,p3?=1/8,p4?=1/8.

總結

以上是生活随笔為你收集整理的机器学习与高维信息检索 - Note 1 - 信息检索、机器学习与随机变量的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。