0509·刘未鹏的TopLanguage聚会[一]
鄭昀@玩聚SR?
北京。五道口。
星期六。己丑年四月十五。氣溫適宜外出活動。
@pongba?前不久離開了南大,受邀微軟來到北京。繼上月他與李笑來會師(江湖曾流傳一句話:自從讀了李笑來, 我就不寫人生感悟了; 自從讀了劉未鵬, 我就不寫學(xué)習(xí)方法和思維方法)后,他又召集了TopLanguage小組聚會。
本次與會技術(shù)人7個(按出場順序排列):
- @pongba?Blog:http://mindhacks.cn?微軟亞洲研究院
- 王樂珩 Blog:http://joyfire.spaces.live.com?中科院計算所
- @googollee?Blog:http://googollee.blog.163.com/?Nthcode
- @zhengyun?Blog:http://blog.csdn.net/zhengyun_ustc/?玩聚網(wǎng)
- @tinyfool?Blog:?http://www.tinydust.net/dev?銀杏泰克
- 張沈鵬 Blog:http://zsp.javaeye.com/?豆瓣
- 孫勇?http://blogs.sun.com/yongsun/?Sun
?
旁的不敘。咱們表一表與會的閑談話題。眾所周知,人(即節(jié)點(diǎn))一多,每個人的交互(即連接)也多,很難整理出一個可閱讀的話題脈絡(luò)。以下文字基本上來自每個人的口頭表達(dá),我盡量加工組合,先優(yōu)選兩個話題拋磚引玉。
1、人工智能和進(jìn)化
可能是 TL 上?Self-replicating_machine?話題的線下延續(xù)。
當(dāng)來自于生物信息課題組的 joyfire 介紹研究方向是“基因組信息結(jié)構(gòu)的復(fù)雜性及遺傳語言的根本規(guī)律”時,大家便開始邊跑題邊激蕩腦力。
DNA就是字符串
首先感慨DNA之設(shè)計精良,假如上帝是一個程序員的話,視每個DNA為一個四個元素的字符串?dāng)?shù)組,用區(qū)區(qū)幾十MB的代碼量,便控制了人的一切生長和行為,堪稱偉大的程序員。
附注:單鏈DNA可以看作是由符合A、G、C、T組成的字符串。我們簡化為就是字符串搜索和匹配,那么可以近似認(rèn)為基因測序或測定就像搜索引擎一樣是對字符串的操作。相應(yīng)的應(yīng)用就是SARS基因序列的測定,以及測定三聚氰胺的質(zhì)譜儀(這又延伸出另外一個話題:破壞性創(chuàng)新,按下不表)。
圍繞著如此精良的編程功底是如何形成的,于是話題過度到了“進(jìn)化”。
模擬進(jìn)化
大家執(zhí)著于討論:
存不存在可能,模擬一個算法,構(gòu)建一個環(huán)境,把一段代表生命(僅僅是代表草履蟲一樣的早期生命體)的代碼放進(jìn)去,通過模擬基因變異、適者生存的達(dá)爾文法則,通過高速并發(fā)計算,最終得到進(jìn)化到一定程度的高級生命體?
zsp 認(rèn)為算法有可能跑,但由于模擬的維度是人設(shè)計的,必定遠(yuǎn)遠(yuǎn)少于真實(shí)的世界,由于量變才能引起質(zhì)變,過少的變異維度和環(huán)境維度難以,所以核心問題還在于“特征”如何抽取。
一般來說,人類具有抽象能力,能夠通過各種方法論找到一個事物或事務(wù)的“特征”,并把“特征”告訴機(jī)器,機(jī)器計算能力強(qiáng),執(zhí)行即可。在這個層面上,自我復(fù)制的機(jī)器人實(shí)際上并不難造,畢竟“特征”都是可以固化的。
但如果機(jī)器無法具有抽象能力,無法自動找到讓進(jìn)化延續(xù)下去的外部或內(nèi)部“特征”,那么“進(jìn)化”又能到什么階段呢?
進(jìn)化結(jié)果的評價
當(dāng)然,這里的“進(jìn)化”終極結(jié)果并不是出現(xiàn)像人類這樣的智能生物,只要是符合邏輯的、可延續(xù)下去的生物即可。因?yàn)槟阍谀骋粋€時間點(diǎn)并不能用好還是壞來評價某一個演進(jìn)中的生命體,比如恐龍,某個時間段你可能認(rèn)為它們是最優(yōu)秀的生命體,但不久后它們?nèi)勘浑S機(jī)產(chǎn)生的外部環(huán)境變化毀滅了,那么它是好的還是壞的“進(jìn)化”?比如人類,現(xiàn)在看我們是最優(yōu)秀的智能生物,但假如不久后我們通過戰(zhàn)爭自我毀滅,或者被地外生物毀滅,那么我們這個演進(jìn)路線是對還是錯?
所以,這個程序主要考察生命體是否能不斷進(jìn)化,最終產(chǎn)生智能。
當(dāng)然,大家會談到《孢子》游戲。它的進(jìn)化邏輯有點(diǎn)簡單,但仍然是一個非常優(yōu)秀的、融合了即時戰(zhàn)略和進(jìn)化的游戲。
大腦:連接、節(jié)點(diǎn)、地址
@tinyfool?提到,以前人們都認(rèn)為大腦是按功能區(qū)劃分的,彼此不可替代。但后來通過試驗(yàn)發(fā)現(xiàn),大腦的功能區(qū)可以轉(zhuǎn)移,可以“重建”。用大白話說,就是摧毀了左腦某些組織后,本以為相應(yīng)所負(fù)載的功能(如運(yùn)動、語言功能)會喪失,但隨著時間推移,大腦能迅速在右腦區(qū)域重新建造這些功能。
@tinyfool?提到,網(wǎng)絡(luò)最開始也是一個看上去很呆滯的方案,最開始只是每一個主機(jī)提供靜態(tài)網(wǎng)頁,后來出現(xiàn)的HTTP協(xié)議也是看上去不美,但神奇的事情發(fā)生了。由于只定了三個元素:
- 節(jié)點(diǎn)
- 連接
- 地址
最開始也平淡無奇,但隨著進(jìn)化,每個節(jié)點(diǎn)自己慢慢地?fù)碛辛俗约旱闹悄?#xff0c;如動態(tài)網(wǎng)頁等等,通過地址找到節(jié)點(diǎn),節(jié)點(diǎn)互相之間建立了連接,節(jié)點(diǎn)有智能,于是互聯(lián)網(wǎng)便無所不能,本身就是一個擁有海量信息的、具有足夠智能的生物體。
這和大腦的機(jī)制,似乎有一些有趣的共性。
先驗(yàn)知識或本能
大腦的功能重建,以及程序自進(jìn)化算法,joyfire 都認(rèn)為,存在一個大問題,就是“先驗(yàn)知識”。
人或動物擁有很多先驗(yàn)知識,這些知識是在一代一代進(jìn)化中固化在基因中的。比如燙了就縮手,比如本能不喜歡苦的味道。
程序如何模擬這些東西呢?
或者說,大腦重建功能區(qū)時,如何恢復(fù)這些“先驗(yàn)知識”,假如這些東西是存儲在某一個固定區(qū)域的話。
一方認(rèn)為,先驗(yàn)知識可以模擬,比如存在多個變異,每個變異者的基因中就攜帶了該變異,如果進(jìn)化過程中其他變異者毀滅,那么生存下來的變異者就自然攜帶這個變異傳遞下去,這就解釋了“先驗(yàn)知識”從哪里來的問題。當(dāng)然,這只是一個理想狀態(tài)的描述。因?yàn)樗鼪]有涉及哪些變異會固化到基因中。比如一個天生少了一條腿的小狗,在繁衍時,也不會把這個變異傳遞下去,也就是某些變異是不會遺傳的,那么誰來做出判斷要不要遺傳?
對于機(jī)器來說,“先驗(yàn)知識”有點(diǎn)兒像“特征”一樣難以琢磨,原因如前所述,機(jī)器很難判斷哪些是應(yīng)該固化的,用“進(jìn)化論”還是解釋不了這個問題。
這樣,我們又繞回到“特征”抽取問題。
2、破壞性創(chuàng)新
前述 joyfire 的測定三聚氰胺的質(zhì)譜儀,延伸出另外一個話題:大學(xué)教育、破壞性創(chuàng)新和國內(nèi)環(huán)境。
大家應(yīng)該經(jīng)常看到這樣一種現(xiàn)象,我們的研究機(jī)構(gòu)或者公司,本來憑著中國人的聰明才智,在某一個研究領(lǐng)域幾乎已經(jīng)逼近或超過國際一流水平,此時大家心中暗喜,但隨著國外某一個實(shí)驗(yàn)組或小公司的一個破壞性創(chuàng)新,導(dǎo)致以前的科研成果又被摧毀被甩出老遠(yuǎn),人家繼續(xù)領(lǐng)跑,當(dāng)然是換了一幫人領(lǐng)的。
問題就在這里。
照理說,破壞性創(chuàng)新(后簡稱“破創(chuàng)”)基本上是此起彼伏,在全球范圍內(nèi)。
但,事實(shí)上中國大陸很難出現(xiàn)破壞性創(chuàng)新。
舉個最簡單的例子,當(dāng)我們的門戶模式稱雄時,SNS橫空出世。當(dāng)我們的名人博客每天吸引了數(shù)十億點(diǎn)擊時,Twitter橫空出世。
joyfire 說,在生物信息領(lǐng)域,當(dāng)我們迅速逼近、趕超他們時,突然他們出現(xiàn)跨越式成長,“跳”了起來,而我們不會“跳”。
一方歸結(jié)為,中國不是不投錢,但投錢投的區(qū)域總是很窄,無法產(chǎn)生鏈條聯(lián)動效應(yīng),總是受困于上一步或下一步。
假設(shè)說,國家重點(diǎn)發(fā)展的基因測序需要幾微米的試管,我們生產(chǎn)不了,只能買國外的,那么假定這是精密儀器問題。
okay,精密儀器領(lǐng)域,國內(nèi)也有地方大力鼓勵。
但同樣的工藝和生產(chǎn)線,就是無法達(dá)到國外的水平,比如前面說的試管,要求內(nèi)徑不能忽粗忽細(xì),誤差不得大于某某數(shù)值,但國內(nèi)生產(chǎn)就是無法達(dá)標(biāo)。于是,沒有下家買單,下家還得去國外訂購,訂購不到,下家的科研任務(wù)就無法做。于是,精密儀器廠家紛紛倒閉。于是,惡性循環(huán)。這有點(diǎn)像我們的大飛機(jī)這么多年的歷史。
修改歷史:
0509 23:00
@tinyfool?補(bǔ)充道:“
大概意思是這樣的,就是說以前我們認(rèn)為大腦各個功能區(qū)域,功能涇渭分明,但是現(xiàn)在很多實(shí)驗(yàn)證明,如果某個功能區(qū)域被切割下去,大腦的其他區(qū)域就有可能接管這些功能(雖然按照過去的認(rèn)識,他們是完全沒有關(guān)系的。另外物理上,也需要一些刺激以及大腦的有足夠的活性和細(xì)胞再生能力)。這就很讓人振奮,就是說大腦的所有功能區(qū)域都是相等的,可以動態(tài)的部署。?
一般認(rèn)為智能來自有那些神經(jīng)元細(xì)胞之間的連接,比如聽懂語言的能力,就是一系列神經(jīng)元的連接實(shí)現(xiàn)的。如果這些細(xì)胞和連接都被切除了,但是如果外界聲音對大腦的刺激沒有消失,原來跟這個能力完全沒有關(guān)系的神經(jīng)元可能會被激發(fā),產(chǎn)生聯(lián)系,然后對這些刺激進(jìn)行處理,最終實(shí)現(xiàn)聽懂語言能力的恢復(fù)。”
?
0510 0:04
joyfire 補(bǔ)充道:“
當(dāng)時說的時候,大概是這個意思,人體是如此復(fù)雜高效的一個復(fù)雜系統(tǒng),然而全部的設(shè)計藍(lán)圖,或者源代碼,其實(shí)就全部存儲在很少的DNA字符串里。(而且?
DNA里面其實(shí)只有5%被翻譯,其余的可能都是進(jìn)化痕跡,都可以看作被注釋掉的歷史代碼)上帝作為程序員,效率真的很高。
再往前,說這句話的意思,是為了說明,我們現(xiàn)有的軟硬件結(jié)構(gòu),離自然界的上限還很遠(yuǎn)呢。無論是硬件存儲和檢索能力,還是軟件的編碼效率。
這句話之后,大家議論說,DNA是一種動態(tài)語言,可以反過來被它編譯出的exe——蛋白質(zhì)影響。其中的保守部分,比如每個人都只有一個鼻子,兩個鼻孔,?
容錯性很高,不會隨便就變異掉。但是另外一方面,代碼又有很強(qiáng)的靈活性:每個人又有大量的不同點(diǎn),以利于多樣性和進(jìn)化。”??
參考資源:
0424 笑來、pongba會師:
1:素描
“
??????余晟?劉未鵬
霍炬????????????????李笑來
西喬
????? 我?胖兔子粥粥
”
0509 TL聚會:
1:TL聚會,遭遇若干大牛:
“神侃內(nèi)容:從互聯(lián)網(wǎng)廣告的商業(yè)模式開始,到電子商務(wù)的信譽(yù)體系和物流體系;到語義網(wǎng)絡(luò)技術(shù)、信源挖掘推薦和評價;到人工智能、基因進(jìn)化和大腦神經(jīng)機(jī)制;到豆瓣應(yīng)完善的若干features需求;到北京美食和若干"駐京辦"位置;到房價和經(jīng)濟(jì)危機(jī);到國有壟斷行業(yè)和IT創(chuàng)業(yè);最后到各自工作中正在面對的算法和工程難題。”
2:IP、IC、IQ卡,通通告訴我密碼:
“這就又回到昨天TL聚會討論的內(nèi)容,智能的本質(zhì),到底是“超大存儲+超快檢索”(換句話說,足夠多的先驗(yàn)知識),還是另一種計算模型呢?”
總結(jié)
以上是生活随笔為你收集整理的0509·刘未鹏的TopLanguage聚会[一]的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 不买房做什么都是不务正业
- 下一篇: Flask框架学习(二)