UA MATH567 高维统计IV Lipschitz组合9 矩阵函数、半正定序与迹不等式
UA MATH567 高維統計IV Lipschitz組合9 矩陣函數、半正定序與跡不等式
- 矩陣函數
- 半正定序(positive semi-definite order, PSD order)
- 跡不等式
這一講的目標是提供一些矩陣分析的工具,因為下一講我們要嘗試導出隨機矩陣的Bernstein不等式。
矩陣函數
假設XXX是對稱矩陣,則XXX的所有特征值都是實數,我們可以寫出XXX的譜分解為
X=∑i=1nλiuiuiTX = \sum_{i=1}^n \lambda_i u_iu_i^TX=i=1∑n?λi?ui?uiT?
其中λi\lambda_iλi?是特征值,uiu_iui?是對應的特征向量,假設fff是一個實函數,則我們定義矩陣函數為
f(X)=∑i=1nf(λi)uiuiTf(X) = \sum_{i=1}^n f(\lambda_i)u_iu_i^Tf(X)=i=1∑n?f(λi?)ui?uiT?
例 多項式與冪級數
i)稱f(X)f(X)f(X)為矩陣多項式如果
f(x)=∑i=0paixi,?x∈Rf(x) = \sum_{i=0}^p a_ix^i,\forall x \in \mathbb{R}f(x)=i=0∑p?ai?xi,?x∈R
則
f(X)=∑j=1m∑i=0paiλjiuiuiT=∑i=0paiXif(X) =\sum_{j=1}^m \sum_{i=0}^pa_i \lambda_j^i u_iu_i^T = \sum_{i=0}^p a_iX^if(X)=j=1∑m?i=0∑p?ai?λji?ui?uiT?=i=0∑p?ai?Xi
ii)稱f(X)f(X)f(X)為矩陣的指數函數如果f(x)=exf(x)=e^xf(x)=ex,則
f(X)=∑i=1meλiuiuiT=eXf(X)=\sum_{i=1}^m e^{\lambda_i}u_iu_i^T = e^Xf(X)=i=1∑m?eλi?ui?uiT?=eX
iii)對一般的解析函數,我們通常不能直接把它的表達式套用到矩陣上,而是只能用它的冪級數來表示,如果
f(x)=∑i=0∞ai(x?x0)if(x) = \sum_{i=0}^{\infty} a_i(x-x_0)^if(x)=i=0∑∞?ai?(x?x0?)i
則
f(X)=∑j=1mf(λj)ujujT=∑i=0∞ai(X?x0In)if(X) = \sum_{j=1}^m f(\lambda_j)u_ju_j^T = \sum_{i=0}^{\infty} a_i(X-x_0I_n)^if(X)=j=1∑m?f(λj?)uj?ujT?=i=0∑∞?ai?(X?x0?In?)i
半正定序(positive semi-definite order, PSD order)
記X?0X \succcurlyeq 0X?0,如果XXX是半正定矩陣(也就是λi(X)≥0\lambda_i(X) \ge 0λi?(X)≥0),稱X?YX \succcurlyeq YX?Y如果X?YX-YX?Y是半正定矩陣;這個序關系被稱為半正定序,它是一個偏序關系。關于半正定序有下面的結論(下面給出的證明僅供參考):
Before proof, let me state several results:
Part (a)
If ∥X∥≤t\left\| X \right\| \le t∥X∥≤t, ?i=1,?,n\forall i=1,\cdots,n?i=1,?,n, ∣λi(X)∣≤t|\lambda_i(X)| \le t∣λi?(X)∣≤t, ?t≤λi(X)≤t-t \le \lambda_i(X)\le t?t≤λi?(X)≤t. Thus, X+tI?0,?X+tI?0X+tI\succeq 0,-X+tI \succeq 0X+tI?0,?X+tI?0, or ?tI?X?tI-tI \preceq X \preceq tI?tI?X?tI.
If ?tI?X?tI-tI \preceq X \preceq tI?tI?X?tI, X+tI?0,?X+tI?0X+tI\succeq 0,-X+tI \succeq 0X+tI?0,?X+tI?0, by definition, ?t≤λi(X)≤t,?i-t \le \lambda_i(X)\le t,\forall i?t≤λi?(X)≤t,?i, so ∥X∥≤t\left\| X \right\| \le t∥X∥≤t.
Part (b)
If ∥X∥≤K\left\|X \right\| \le K∥X∥≤K, ?i\forall i?i, ∣λi(X)∣≤K|\lambda_i(X)| \le K∣λi?(X)∣≤K, then f(λi(X))≤g(λi(X)),?if(\lambda_i(X)) \le g(\lambda_i(X)),\forall if(λi?(X))≤g(λi?(X)),?i. So f(X)?g(X)f(X) \preceq g(X)f(X)?g(X).
Part (c)
If X?YX \preceq YX?Y, ?i\forall i?i, λi(X)≤λi(Y)\lambda_i(X) \le \lambda_i(Y)λi?(X)≤λi?(Y). Since fff is an increasing function, f(λi(X))≤f(λi(Y))f(\lambda_i(X)) \le f(\lambda_i(Y))f(λi?(X))≤f(λi?(Y)), so f(X)?f(Y)f(X) \preceq f(Y)f(X)?f(Y).
Part (d)
X=[1?1?1?1],Y=[?1?1?1?1]X = \left[ \begin{matrix} 1&-1\\-1&-1 \end{matrix}\right],Y=\left[ \begin{matrix} -1&-1\\-1&-1 \end{matrix}\right]X=[1?1??1?1?],Y=[?1?1??1?1?]λ1(X)=2,λ2(X)=?2,λ1(Y)=0,λ2(Y)=?2λ1(X2)=2,λ2(X2)=0,λ1(Y2)=2,λ2(Y2)=0\lambda_1(X)=\sqrt{2},\lambda_2(X)=-\sqrt{2},\lambda_1(Y)=0,\lambda_2(Y)=-2 \\ \lambda_1(X^2)=2,\lambda_2(X^2)=0,\lambda_1(Y^2)=2,\lambda_2(Y^2)=0λ1?(X)=2?,λ2?(X)=?2?,λ1?(Y)=0,λ2?(Y)=?2λ1?(X2)=2,λ2?(X2)=0,λ1?(Y2)=2,λ2?(Y2)=0
Part (e)
If X?YX \preceq YX?Y, ?i\forall i?i, λi(X)≤λi(Y)\lambda_i(X) \le \lambda_i(Y)λi?(X)≤λi?(Y). Since fff is an increasing function, f(λi(X))≤f(λi(Y))f(\lambda_i(X)) \le f(\lambda_i(Y))f(λi?(X))≤f(λi?(Y)), so
∑i=1nf(λi(X))≤∑i=1nf(λi(Y))\sum_{i=1}^n f(\lambda_i(X))\le \sum_{i=1}^n f(\lambda_i(Y))i=1∑n?f(λi?(X))≤i=1∑n?f(λi?(Y))
Thus, trf(X)?trf(Y)trf(X) \preceq trf(Y)trf(X)?trf(Y).
Part (f)
If YYY is identity matrix, 0?X?I0 \preceq X \preceq I0?X?I, ?i\forall i?i, 0≤λi(X)≤10\le \lambda_i(X) \le 10≤λi?(X)≤1, and then 1λi(X)≥1\frac{1}{\lambda_i(X)}\ge 1λi?(X)1?≥1. So X?1?IX^{-1}\succeq IX?1?I.
For arbitrary invertible YYY, 0?(YT)?1/2XY?1/2?I0\preceq (Y^T)^{-1/2}XY^{-1/2} \preceq I0?(YT)?1/2XY?1/2?I, (YT)1/2X?1Y1/2?I(Y^T)^{1/2}X^{-1}Y^{1/2}\succeq I(YT)1/2X?1Y1/2?I, so X?1?Y?1X^{-1}\succeq Y^{-1}X?1?Y?1
Part (g)
For any t>0t>0t>0, 0?X?Y0 \preceq X \preceq Y0?X?Y, ?(X+t)?1??(Y+t)?1-(X+t)^{-1}\preceq -(Y+t)^{-1}?(X+t)?1??(Y+t)?1. For log?(X)=∫0∞(1+t)?1?(X+t)?1dt\log(X)=\int_0^{\infty}(1+t)^{-1}-(X+t)^{-1}dtlog(X)=∫0∞?(1+t)?1?(X+t)?1dt, log?(X)?log?(Y)\log(X)\preceq \log(Y)log(X)?log(Y)
跡不等式
跡不等式在研究隨機矩陣的概率不等式時非常有用,最主要的原因就是矩陣的乘法不滿足交換律,以Hoeffding不等式的證明為例,對于隨機變量,我們有
ex+y=exeye^{x+y} = e^x e^yex+y=exey
于是我們可以把一列隨機變量拆分稱指數的積或者合并到指數上的和,但對于隨機矩陣而言eX+Y=eXeYe^{X+Y}=e^Xe^YeX+Y=eXeY不一定成立,所以我們需要能代替乘法交換律的工具,最容易想到的當然就是矩陣的跡了,因為在跡中做矩陣乘法是可以交換次序的,下面介紹兩個常用的跡不等式:
Golden-Thompson不等式 A,BA,BA,B是兩個nnn階對稱實矩陣,則
tr(eA+B)≤tr(eAeB)tr(e^{A+B}) \le tr(e^Ae^B)tr(eA+B)≤tr(eAeB)
Lieb不等式 假設HHH是nnn階對稱實矩陣,定義
f(X)=tr(eH+log?X)f(X) = tr(e^{H+\log X})f(X)=tr(eH+logX)
則f(X)f(X)f(X)是nnn階對稱實正定矩陣空間(這是一個convex cone)上的concave function,根據Jensen不等式
Ef(X)≤f(EX)Etr(eH+log?X)≤tr(eH+log?EX)Z=log?X,則Etr(eH+Z)≤tr(eH+log?EeZ)Ef(X) \le f(EX) \\ Etr(e^{H+\log X}) \le tr(e^{H+\log EX}) \\ Z = \log X,則Etr(e^{H+Z}) \le tr(e^{H+\log Ee^Z})Ef(X)≤f(EX)Etr(eH+logX)≤tr(eH+logEX)Z=logX,則Etr(eH+Z)≤tr(eH+logEeZ)
總結
以上是生活随笔為你收集整理的UA MATH567 高维统计IV Lipschitz组合9 矩阵函数、半正定序与迹不等式的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: UA MATH567 高维统计IV Li
- 下一篇: UA MATH567 高维统计IV Li