虚拟几何纹理(上)
虛擬幾何紋理(上)
關于幾何學
麻省理工人工智能實驗室學習Berthold Horn教授的“機器視覺”課程。Horn教授以“shape from shading”方法馳名天下,他在課堂上親口講授了如何用偏微分方程來描述成像過程,通過求解雙曲方程來從圖像反解幾何。他提出用高斯曲率來表示凸曲面的擴展高斯映射方法。這一方法其實等價于微分幾何中的閔可夫斯基(Minkowski)問題。通過學習Horn教授的課程,當時計算機視覺的研究方法與經典物理方法相類似,用微分方程來描述自然現象,通過解析方法求得答案。Minkowski問題,任意維Minkowski問題解的存在性和唯一性,蒙日-安培(Monge-Ampere)方程的算法。
蒙日-安培方程的理論非常艱深,即便能夠求解Minkowski問題,這種方法只能表達凸曲面,適用范圍過于狹窄,因此不值得大費周章。基礎科學家與工程學者的價值觀念具有巨大的區別。數學家終身追求的是大自然至善至純的真理,美輪美奐的幾何結構,而很少考慮近期人類社會的應用;應用工程學者追求的是切實可用的技術,而非長遠玄虛的理論。數十年來,通過親身實踐,體會到自然結構帶來的強烈精神享受,超越世俗的永恒與和諧;也體會到技術進步帶來的巨大震撼,和對物質強有力的掌控感。培育的博士生中,也是各有自身的價值標準,和審美傾向。
1995年的計算機視覺研究方式大量依賴于幾何和偏微分方程方法,但是那時芒福德教授和朱松純教授對于Horn的研究方法提出了批評。Horn 的方法(以及當時其它的 shape-from-X 方法)中能量函數的都是人為地手工設定的,或者根據物理原理來定義的, 不能反映現實世界中物體的形狀和表觀的復雜性,
因此質疑這種方法的實用性。他們提出應該用統計方法來研究視覺,通過從真實圖像中的統計特征,用最大熵方法自動”學習“ 出能量函數的結構和形式, 也就是首次提出來用數據來決定模型的形式,并且真正系統地用統計為計算機視覺的發展奠定了理論框架。當時,視覺領域幾乎很少有人具有如此前瞻的想法,朱松純希望放棄微分幾何的想法,用統計方法做研究。當他講到他們正在創建的統計視覺理論框架時,雙眼發亮,激情難抑,“這就是一座金礦”!朱教授的戰略思想超越時代,發展過程中也是歷經曲折。在機器學習處于萌芽狀態的時候,在多次私下交談里沈向洋老兄胸有成竹地預言機器學習將會大行其道,也是極具前瞻性。依隨網絡的發展,海量數據的積累成為現實,硬件算力迅猛提高,統計學習方法終于乘風而起。25年后,計算機視覺領域,偏微分方程的解析方法日益被邊緣化,統計學習、深度學習方法幾乎一統天下。
歷史的螺旋
但是,歷史發展的模式總是否定之否定,各個學科都在螺旋上升。近些年來,深度學習方法狂飆突進,如日中天,橫掃計算機科學幾乎所有領域。以前,人們為了描述一個自然物理現象,前仆后繼,歷經數代人努力建立了偏微分方程,無數數學家為了證明解的存在性、唯一性、正則性、穩定性,嘔心瀝血,苦心求索。但是在目前的深度學習框架下,可以將偏微分算子看成是特定函數空間中的可逆映射,即初值條件和解之間存在因果關系,那么就可以用深度神經網絡去逼近這個可逆映射。這種所謂端到端的學習,省略了人類的智力加工和深刻理解這一過程,技術的進步可能帶來普通人類成員智力的退化。
從基礎理論層面來看,各種知識、數據規律在深度學習框架下都被表示成為概率分布,深度學習的核心目標是學習各種各樣的概率分布。因此,深度學習本質上是在所有可能的概率分布組成的無窮維空間中做優化。例如傳統的極大似然估計,最大后驗概率,最大熵原則等等,都歸結為概率空間的優化問題。那么,需要為這個由概率分布組成的無窮維空間建立拓撲,建立微積分。更為嚴謹的,假設X是底空間,它可以是歐氏空間的子集,也可以是一個黎曼流形,或者抽象的距離空間等等,其上所有可能的概率測度構成的空間為P(X)。需要定義P(X)的拓撲,如此才能談論一族概率測度的收斂性,例如一個計算方法得到的離散概率測度如何收斂到真解;需要定義P(X)中的距離,如此才能衡量兩個概率分布之間的異同,例如GAN中判別器計算生成概率和真實概率之間的距離;需要定義P(X)中的測地線,如此才能預測一個統計系統的行為,例如在通常情況下,熵會自然增大,那么所有時刻的概率分布構成了P(X)空間中的一條軌跡,通常的熱力學擴散對應著P(X)中的一條測地線;需要定義絕對微分,如此才能在P(X)中做優化,例如帶有高斯噪聲的最大似然法本質上是在P(X)空間中極小化熵正則化的Wasserstein能量。
以上的討論意味著,為了將深度學習奠定理論基礎,需要從黎曼幾何的角度來研究所有概率組成空間P(X),厘清概率空間P(X)的測地線、黎曼度量、平行移動、絕對微分等基本概念,發展概率空間的幾何變分法。從這個角度來看,計算機視覺統計方法的發展又回歸到無窮維黎曼幾何的框架。而概率空間P(X)的黎曼幾何就是最優傳輸理論,而最優傳輸理論的核心偏方程之一就是蒙日-安培方程。丘先生25年前教會我的第一個算法就是求解蒙日-安培方程!歷史再一次證明基礎數學的前瞻性。丘先生曾經多次教誨:大自然的規律與人類經濟政治無關,人類文明的真正進展是植根于對自然結構的深刻理解之上。
幾何紋理概念
在計算機圖形學的傳統中,幾何曲面用三角網格來表示,如圖1所示。
圖1. 米開朗基羅的大衛王頭像,傳統曲面用非規則的三角剖分表示。
圖2. 曲面的共形參數化。
如圖2所示,可以將曲面參數化映射到平面。為了減少參數化帶來的幾何畸變,采用計算共形幾何算法【5】。仔細觀察圖1和圖2,看到雖然彎曲的三維幾何曲面被鋪到平面區域之上,但是幾何的局部細節被完美保持,局部上眉眼口鼻、耳朵發卷的形狀沒有畸變。從幾何上講,這一映射誘導的相應切平面之間的映射(切映射)是相似變換,但是相似比點點不同。
圖3. 幾何圖像(左幀)與法向貼圖(右幀)。
如圖3所示,在參數域內用整數格點規則采樣,每個采樣點用一個像素來表示,像素的紅綠藍顏色代表采樣點的空間坐標(x,y,z),然后用一幅圖像來表示曲面,即所謂的幾何圖像【2】,如左幀所示。同樣,也可以用每個像素來代表曲面上采樣點處的法向量,顏色值代表法向量的三維坐標,如此得到了曲面的法向貼圖,如右幀所示。
圖4. 幾何圖像的mipmap。
每幅幾何圖像表達了一個曲面,對幾何圖像下采樣,得到曲面的低解析率表示,如此得到幾何圖像的mipmap,如圖4所示。幾何圖像可以用于表示任意復雜的曲面,例如圖5所示的米開朗基羅的大衛王雕像。
圖5. 米開朗基羅的大衛王雕像,幾何圖像表示。
傳統的紋理貼圖將二維紋理圖像貼到三維曲面上,如圖6所示,將棋盤格圖像貼到斯坦福兔子曲面上,這里紋理圖像表示了曲面的顏色。紋理圖像也可以表示曲面的法向量,從而增加曲面的幾何渲染的細節,如圖7所示。為了表達魚鱗的幾何,需要太多的三角形。將高解析率的三角網格用最優傳輸映射參數化到平面圓盤【3】,最優傳輸映射的算法以前有詳盡介紹。然后生成法向貼圖,將法向貼圖和低解析率的三角網格配合,依然可以得到幾何細節的渲染效果。
圖6. 顏色紋理貼圖,由共形映射得到。
有了幾何圖像,可以用幾何圖像來作為紋理,從而增加曲面表面的幾何細節,這被稱為是幾何紋理。如圖7所示,小女孩穿的毛衣具有周期性的幾何扭結結構,是用非常復雜的三角網格來描述,這件毛衣就是幾何紋理。
圖7. 幾何紋理(靳淼作)。
基于幾何圖像的表示,自然可以將一個幾何曲面作為另外一個幾何曲面的紋理,做出三維浮雕效果。
總結
- 上一篇: 语义分割:基于openCV和深度学习(二
- 下一篇: 虚拟几何纹理(下)