《终极算法》阅读笔记与摘要(1)-序和第1-2章
序
機器學習主要有5個學派,我們會對每個學派分別介紹:
符號學派將學習看作逆向演繹,并從哲學、心理學、邏輯學中尋求洞見;
聯(lián)結學派對大腦進行逆向分析,靈感來源于神經科學和物理學;
進化學派在計算機上模擬進化,并利用遺傳學和進化生物學知識;
貝葉斯學派認為學習是一種概率推理形式,理論根基在于統(tǒng)計學;
類推學派通過對相似性判斷的外推來進行學習,并受心理學和數學最優(yōu)化的影響。
在構建機器學習的目標推動下,我們將回顧過去100年的思想史,并以新的觀點來看待這段歷史。
機器學習的5個學派都有自己的主算法,利用這種萬能學習算法,原則上,你可以通過任何領域的數據來挖掘知識:符號學派的主算法是逆向演繹,聯(lián)結學派的主算法是反向傳
播,進化學派的主算法是遺傳編程,貝葉斯學派的主算法是貝葉斯推理,類推學派的主算法是支持向量機。在實踐中,這些算法可能在有些工作中可用,而在其他工作中不可用。我們
真正想要尋找的是能夠綜合這5種算法的終極算法。
終極算法與機器學習的關系就像標準模型和粒子物理學或中心法則與分子生物學的關系:該統(tǒng)一原理能理解人類當今知道的一切,并為未來數十年或者數百年的進步奠定基礎。今天我們面臨許多難題,比如制造家用機器人和治愈癌癥,終極算法就是解決這些難題的關鍵。
第一章 機器學習革命
算法不僅是簡單的一套指令,這些指令必須精確且不能模糊,這樣計算機才能夠執(zhí)行。
算法是一套嚴格的標準。人們常說,你沒法真正了解某樣東西,直到你能用一種算法來將其表達出來(理查德·費曼曾說,“如果我無法創(chuàng)造某樣東西,那么也就無法理解它”)。
“復雜性怪獸”包含了空間復制性(內存)、時間復雜性(運行時長)和人類的復雜性(算法復雜到無法理解,找不到誤差了)。
算法入門
每個算法都會有輸入和輸出:數據輸入計算機,算法會利用數據完成接下來的事,然后結果就出來了。機器學習則顛倒了這個順序:輸入數據和想要的結果,輸出的則是算法,即
把數據轉換成結果的算法。學習算法能夠制作其他算法。
學習算法是種子,數據是土壤,被掌握的程序是成熟的作物。機器學習專家就像農民,播下種子,灌溉,施肥,留意作物的生長狀況,事事親力親為,而不是退居一旁。
我們可以把機器學習當作逆運算,正如開平方是平方的逆運算、整合是分化的逆運算。
有些學習算法學習知識,有的則學習技能?!八腥硕紩馈笔侵R,騎單車是技能。在機器學習中,知識往往以統(tǒng)計模型的形式出現(xiàn),因為多數知識都是可以統(tǒng)計的:所有人都會
死,但只有4%是美國人。技能往往以程序的形式出現(xiàn):如果馬路向左彎曲,那么向左轉動車頭;如果一只鹿跳到你面前,那么立刻剎車。
在信息處理這個生態(tài)系統(tǒng)中,學習算法是頂級掠食者。數據庫、網絡爬蟲、索引器等相當于食草動物,耐心地對無限領域中的數據進行蠶食。統(tǒng)計算法、線上分析處理等則相當于食肉動物。食草動物有必要存在,因為沒有它們,其他動物無法存活,但頂級掠食者有更為刺激的生活。數據爬蟲就像一頭牛,網頁相當于它的草原,每個網頁就是一根草。當網絡爬蟲進行破壞行動時,網站的副本就會保存在其硬盤當中。索引器接著做一個頁面的列表,每個詞都會出現(xiàn)在頁面當中,這很像一本書后的索引。數據庫就像大象,又大又重,永遠不會被忽略。在這些動物當中,耐心的野獸飛快運轉統(tǒng)計和分析算法,壓縮并進行選擇,將數據變?yōu)樾畔ⅰW習算法將這些信息吞下、消化,然后將其變成知識。
第二章 終極算法
單個算法可以學習所有能從數據中學習的東西嗎?實際上,對所有主要的學習算法——包括最近鄰算法、決策樹學習算法以及貝葉斯網絡(樸素貝葉斯的概括)——來說,如果你為學習算法提供足夠、適當的數據,該算法可以實現(xiàn)任一功能(對學習任何東西來說,都與數學相關)。需要注意的是,“足夠數據”也有可能無限。學習無限數據需要做出假設,如我們會看到的那樣,而且不同的學習算法會有不同的假設。
本書的中心假設:所有知識,無論是過去的、現(xiàn)在的還是未來的,都有可能通過單個通用學習算法來從數據中獲得。
來自神經科學的論證
例子證明,大腦自始至終只使用了一種相同的學習算法,那些負責不同知覺的區(qū)域,區(qū)別也僅僅在于與其相連、輸入信息的器官(如眼睛、耳朵、鼻子)。反過來,關聯(lián)區(qū)(大腦的各個皮層)通過與不同的感覺區(qū)(各個感覺器官)相連,來實現(xiàn)其機能,而執(zhí)行區(qū)則通過連接關聯(lián)區(qū)來實現(xiàn)其機能,然后輸出反饋。
不管怎樣,如果我們將大腦放入計算機中運行,那個算法就能掌握我們能學會的一切。因此發(fā)明終極算法的一種途徑(可以說是最流行的一種)就是對人腦進行逆向解析。杰夫·霍金斯(Jeff? Hawkins)在他的著作《人工智能的未來》(On? Intelligence? )中對此進行了嘗試。雷·庫茲韋爾(Ray? Kurzweil)把他的希望放在奇點上——人工智能的崛起遠遠超過人類的多樣性。這樣做的同時,他還在《如何創(chuàng)造思維》(How? to? Create? a Mind )一書中對此進行了嘗試。
來自進化論的論證
套用查爾斯·巴貝奇(維多利亞時期的計算機先驅人物)的觀點,上帝創(chuàng)造的不是物種,而是創(chuàng)造物種的算法。達爾文在《物種起源》的總結部分提到的“無限形體,美麗至極”掩飾了最美的統(tǒng)一性:所有這些形體都被編碼在DNA中,所有這些形體都通過改變和連接這些染色體來表現(xiàn)。只通過該算法的一個描述,誰會猜出它產生了你和我?如果進化論這個算法能學習我們,可以想象它還可以學習能學習到的一切,條件是我們將進化論這個算法運用到足夠強的計算機上。的確,在機器學習領域,通過模仿自然選擇來使程序進化是許多人正在努力做的事情。因此,進化論是另外一個有希望通往終極算法的途徑。
進化論這個算法已經在地球上最強大的計算機運行了300多萬年——這臺強大的計算機就是地球自己。運行這個算法的真正計算機應該比地球這臺“計算機”運轉得更快、數據密集性更低。哪一個模型更適合終極算法:進化還是大腦?這是和機器學習有關、自然與培育之間的辯論。正如我們的存在依靠的是自然與培育的共同力量,也許真正的終極算法包含這兩個方面。
來自物理學的論證
曼德布洛特集合(Mandelbrot Set)就是很完美的例子,能解釋一個很簡單的重復程序如何產生無數種類的形式。如果世界上的山峰、河流、云朵以及樹木都是這些重復程序的產物(分形幾何學表明它們就是),也許那些程序只是單個程序的不同參數化,而該單個程序可以從那些程序推導中得出。
來自統(tǒng)計學的論證
貝葉斯定理就是將數據變成知識的機器。據貝葉斯統(tǒng)計學派的觀點,貝葉斯定理是將數據變成知識的唯一正確方法。如果該學派的觀點正確,貝葉斯定理要么就是終極算法,要么就是推動終極算法發(fā)展的動力。
來自計算機科學的論證
弄明白蛋白質如何折疊成特定形狀;通過DNA來重新構建一系列物種的進化史;在命題邏輯中證明定理;利用交易成本來發(fā)現(xiàn)市場中的套利機會;從二維視圖中推出三維形狀;將數據壓縮到磁盤上;在政治活動中組成穩(wěn)定聯(lián)盟。。。提高你的俄羅斯方塊分數(最重要的)——這些都是NP完全問題。意思是,如果你能有效解決其中的一個問題,就能有效解決所有NP類問題,包括相互間的問題。誰會猜到,這些表面上看起來迥然不同的問題,會是同一個問題?如果它們真的是同一個問題,就可以說一種算法能學會解決所有問題(或更準確地說,所有能有效解決的例子)。
我們正面臨什么危機
也許終極算法就像一個潘多拉盒子,最好不要打開。計算機會奴役甚至消滅我們嗎?機器學習會變成獨裁者或者邪惡公司的侍女嗎?知道機器學習的發(fā)展方向有助于幫助我們了解該擔心什么、不該擔心什么、應該怎么處理問題?!督K結者》中,超級人工智能變得有情感,并通過機器人軍隊征服了人類。這個場景不會和我們將在本書中談到的學習算方法一起發(fā)生。因為計算機會學習,并不意味著它們可以魔法般地實現(xiàn)自己的愿望。學習算法學著完成我們?yōu)樗鼈冊O定的目標,它們不會改變這些目標。我們要擔心的是,它們服務我們的方法可能會對我們有害,而不是有益。因為它們知道的東西不多,改善的方法就是教它們更好的方法。
未達標準的終極算法候選項
終極算法就是等式U (X )=0,U? (X? )=0表達的是某未知數X? (可能很復雜)的某函數U? (可能很復雜)等于0。--玩笑。
機器學習的五大學派
對于符號學派來說,所有的信息都可以簡化為操作符號,就像數學家那樣,為了解方程,會用其他表達式來代替本來的表達式。符號學者明白你不能從零開始學習:除了數據,你還需要一些原始的知識。他們已經弄明白,如何把先前存在的知識并入學習中,如何結合動態(tài)的知識來解決新問題。他們的主算法是逆向演繹,逆向演繹致力于弄明白,為了使演繹進展順利,哪些知識被省略了,然后弄明白是什么讓主算法變得越來越綜合。
對于聯(lián)結學派來說,學習就是大腦所做的事情,因此我們要做的就是對大腦進行逆向演繹。大腦通過調整神經元之間連接的強度來進行學習,關鍵問題是找到哪些連接導致了誤差,以及如何糾正這些誤差。聯(lián)結學派的主算法是反向傳播學習算法,該算法將系統(tǒng)的輸出與想要的結果相比較,然后連續(xù)一層一層地改變神經元之間的連接,目的是為了使輸出的東西。
進化學派認為,所有形式的學習都源于自然選擇。如果自然選擇造就我們,那么它就可以造就一切,我們要做的,就是在計算機上對它進行模仿。進化主義解決的關鍵問題是學習結構:不只是像反向傳播那樣調整參數,它還創(chuàng)造大腦,用來對參數進行微調。進化學派的主算法是基因編程,和自然使有機體交配和進化那樣,基因編程也對計算機程序進行配對和提升。
貝葉斯學派最關注的問題是不確定性。所有掌握的知識都有不確定性,而且學習知識的過程也是一種不確定的推理形式。那么問題就變成,在不破壞信息的情況下,如何處理嘈雜、不完整甚至自相矛盾的信息。解決的辦法就是運用概率推理,而主算法就是貝葉斯定理及其衍生定理。貝葉斯定理告訴我們,如何將新的證據并入我們的信仰中,而概率推理算法盡可能有效地做到這一點。
對于類推學派來說,學習的關鍵就是要在不同場景中認識到相似性,然后由此推導出其他相似性。如果兩個病人有相似的癥狀,那么也許他們患有相同的疾病。問題的關鍵是,如何判斷兩個事物的相似程度。類推學派的主算法是支持向量機,主算法找出要記憶的經歷,以及弄明白如何將這些經歷結合起來,用來做新的預測。
總結
以上是生活随笔為你收集整理的《终极算法》阅读笔记与摘要(1)-序和第1-2章的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 石油采集(求联通区域) 2018多校寒假
- 下一篇: css p 文本不换行,超出文字显示省略