人工机器:作为归纳系统的深度学习
??????? 深度學習為深度神經網絡機器學習。07年最先引起注目的是DNN,在語音識別上有突出的表現;深度CNN在機器視覺領域的超常表現引領模式識別領域科學界和工業界的潮流,基于圖像數據本身的二維結構天然適合CNN處理;RNN對時序和變長數據的處理優勢促使語音識別和視頻分析又有較大發展;此外可應用于增強學習的新的深度網絡形式可以完成游戲策略訓練過程,提供端到端的 模型訓練方式:DeepMind用ReinforcementLearning玩游戲。
??????? 原文鏈接:專家深談:深度學習成功的啟示,以及,為什么它不能解決全部AI問題?
??????? 本文對原文有少量引用,觀點不盡相同。
作為歸納系統的深度學習
??????? AI的一個重要理論分支為模式識別,其中另外一個理論系統為專家系統;模式識別分離處基于ND系統的模式識別和基于數據的模式識別即是機器學習;機器學習有眾多方法,大多數分類器在數學模型上可形式化為不同形式的神經網絡。
??????? 理論上:一個分類模型發展到更多的類和更精準的回歸/識別準確率,需要極其復雜的函數映射,可以將問題空間的問題準確映射到一維向量空間中的離散個點上。每個類別映射對應的函數形成的函數叢極其復雜,而特定結構的集成學習算法只能描述特定類型的函數映射,結構上難以靈活完成此任務。
??????? 形式上:特定結構的神經網絡理論上可以以任意精度逼近任意復雜的函數映射,只要參數足夠。神經網絡弱化了函數叢的表象,以網絡參數的形式完成函數層級映射。根據連乘的組合分析,分層的思想可在保證函數個數一致同時降低參數個數,因此在識別運算過程中降低了總乘法次數,降低計算量。此外,集成學習方法因函數映射形式固定,參數降低也只能根據在模型框架約束下進行,效果相對較差。
??????
深度學習的優勢
????? ? 更多的類別,更高的精度。理論上需要更復雜的函數叢,因此需要更多的數據進行訓練,在訓練過程中需要大量的計算。
??????? 集成學習的思路是由少到多,以此解決多類分類的精度問題,而深度學習以逐層分解的思想來解決類別問題和精度問題,最終表現為相同效果的模型深度網絡的參數更少,這樣在分類 和回歸的時候計算量更小。此外,VC維作為模型學習能力的描述,發現集成學習模型有其固有的約束,在超多類分類和精確度上都有特定的工程化困難。
?????? 大數據不是深度學習的特性,只是多類和高精度的必然。但不可否認,即使訓練相同的類數和精度的模型,深度學習比集成學習方法仍需要更多的數據,模型訓練時也需要更多的計算量,這是由神經網絡的本質所決定的。
?????? 優勢:不受限制的VC維帶來更多類的識別能力,以及分層思想帶來更快的分類速度。
深度學習走近人工智能
???? ?? AI的標準測試為圖靈測試,即所見即所得。ANN多年未靠近AI,而DNN為何被稱為希望。因為整個智能可以簡單地劃分為分類和決策過程(分類+觸發器),更高級的智能意味著感受更復雜的環境,得出更精確的判斷和決策(更細的粒度、更小的損失),形式上類似于實現更多的分類。
???? ? 在數學默描述上有相似之處,DNN參數的減少帶來的超多類的識別在特定的領域足以覆蓋簡單的智能范疇,并可以看似無縫的領域集成,因此DNN被稱為AI的希望。此外,網絡層狀結構更接近于人類已知的智能決策過程,更被注入更多接近智能結構的希望。
?????? 第一哲學原理:世界并不是以小包的形式來到我們面前,但智慧代表著我們對他們怎么劃分以及怎樣應對和決策,更高的智慧要求更精細的劃分,整個哲學即是找到完備的劃分以及應對完備劃分的通用決策策略。
????? 3D分形奇觀
特征學習與結構學習
??????? 深度學習以“數據驅動”范式顛覆了“人造特征”范式,完成“特征學習”,這是一個重大的進步。但與此同時,它自己又陷入了一個“人造結構”窠臼中。06年hinton教授發表在nature上的最初的論文,多層壓縮映射。給出的深度學習的方案是無監督學習獲取網絡結構,之后再通過有監督學習優化參數,DNN網絡的引爆點恰恰是結構學習。大量利用未標記數據學習網絡結構是深度學習最初的構想。
但無論Hinton教授組最初設計的AlexNet,還是后來的VGG,GoogLeNet,ResNet等等,都是富有經驗的專家人工設計出來的。給定一個新問題,到底什么樣的網絡結構是最佳的(如多少卷積層)卻不得而知,這在一定程度上阻礙了深度學習在更多智能任務上的普及和應用。因此,同時學習網絡結構和網絡參數是一個值得大力關注的研究方向。
???? ?? 而2006年Hinton教授等人倡導的卻恰恰是利用無監督學習來對深層神經網絡進行預訓練。利用超量的數據學習網絡結構是一個更耗費時間和計算能力的事情。此后,特別是DCNN興起之后,無監督的預訓練似乎已經被很多研究者所拋棄(特別是在CV領域)。
??????? 直接從大量無監督數據中學習模型確實是非常困難的,即便是人這部“機器”,也有“狼孩”的例子警告我們“無師自通”似乎是不現實的。但“少量有導師數據+大量無導師數據”的模式也許是更值得大力研究的。
???????
人工智能與局部最優
??????? 古老的哲學難題里有一個重要的人生哲理的隱喻,推廣到了人生意義的所有選擇與價值討論,即是走過一遍的麥田問題,如何選取最大的麥穗。當然以這個哲學問題討論最優是不恰當的,時間線上更具有未知的復雜性。而面對更多的約束函數,如何選取最優解,當全局優化計算能力不夠時,分治法是解決問題的一般方法。
??????? 天然的人工智能永遠是局部最優的,讓一個人變得聰明比讓一個機器變得聰明更加困難。從工程學的角度看,復雜問題的解決思路永遠是分治法,復雜度分解是構架師最先掌握的技能,把大的問題分解為簡單、清晰的子問題,逐個解決,得到最后的解。盡管從深度學習的視角來看,其劣勢是明顯的:子問題最優未必意味著全局的最優,每個子步驟是最優的也不意味著全過程來看是最優的。但對于智能系統來說,這是一般的解決問題的思路。
??????? 哲學用離散性來分析問題域,而機器學習模型引入非線性來表示問題復雜度。在機器學習的范疇里,眾多復雜問題本質上是高度非線性的,而深度學習實現了從輸入到輸出的非線性變換,這是深度學習在眾多復雜問題上取得突破的重要原因之一。
???? ? 在深度學習之前,眾多線性模型或近似線性模型曾大行其道。特別是從上個世紀90年代開始,以判別式降維為目的的線性子空間方法得到大家的重視,如主成分分析,Fisher線性判別分析,獨立成分分析等。后來,為了處理非線性問題,Kernel技巧、流形學習等非線性處理方法相繼得到重視。其中Kernel方法試圖實現對原始輸入的非線性變換,但卻無法定義顯式的非線性變換,只能借助有限種類的kernel函數,定義目標空間中的點積,間接實現非線性。
??????? 而2000年之后曾一度廣受重視的流形學習方法則試圖通過對樣本點之間測地距離或局部鄰域關系的保持來學習非線性映射,遺憾的是這類方法難以真正實現對非訓練樣本的顯式非線性變換。而深度學習則通過作用于大量神經元的非線性激活函數(如Sigmoid或ReLU),獲得了可以適配足夠復雜的非線性變換的能力。
??????? 深度學習更強調端到端的學習(end-to-end learning),即:不去人為的分步驟或者劃分子問題,而是完全交給神經網絡直接學習從原始輸入到期望輸出的映射。相比分治策略,端到端的學習具有協同增效(synergy)的優勢,有更大的可能獲得全局上更優的解。當然,如果我們一定要把分層看成是“子步驟或子問題”也是可以的,但這些分層各自完成什么功能并不是我們預先設定好的,而是通過基于數據的全局優化來自動學習的。作為歸納系統的深度學習
???????? 整個機器學習系統,現有流行的CNN以及各種變體,用于語音和視頻處理的RNN,“特征學習”以及“結構學習”,都是一種歸納學習。通過大量標記數據訓練,使用梯度下降法得到一個逼近精確的回歸模型,則完成學習過程,這也正是監督學習的精髓所在。而非監督學習可以視為非人為設計結構的數據驅動歸納系統,由數據自動學習調整模型的結構,作為一個數據驅動的模型歸納系統。???????
歸納與演繹以及學習與泛化
??????? 從一般原理出發進行演繹是人類的另一重要能力,特別是在認知和決策過程中,我們大量依賴演繹推理。而演繹推理在很多時候似乎與數據無關。例如,即使不給任何樣例,我們也可以依賴符號(語言)描述,來學會識別之前從未見過的某種物體。這樣的zero-shot學習問題看似超出了深度學習的觸角范疇,但也許未必不可企及。例如,近年來越來越多的基于深度學習的產生式模型正在努力實現從符號(概念)到圖像的生成。
??????? 往DNN里面塞入成千上萬個蘋果的圖像,必然可以讓模型識別在圖像二維張量空間近鄰分布的所有蘋果。但一個小孩子也許只見過一個蘋果,就會知道以后見到的水果是蘋果還是不是蘋果,而這個智能過程隱藏了未能分析到的特征歸納和演繹過程,這個過程到底能不能被深度學習所最終模仿,也許是深度學習能不能最終靠近AI的本質能力。
??
總結
以上是生活随笔為你收集整理的人工机器:作为归纳系统的深度学习的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 如何看银行卡里的余额 查询银行卡的余额怎
- 下一篇: java信息管理系统总结_java实现科