當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

图灵测试其实已经过时了

發(fā)布時間：2023/12/16 编程问答 30 豆豆

生活随笔收集整理的這篇文章主要介紹了图灵测试其实已经过时了小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

來源：立委NLP頻道

圖靈測試的實質(zhì)就是要讓人機(jī)交互在限定時間內(nèi)做到真假莫辨。玩過GPT3的同學(xué)們都清楚，其實這一點已經(jīng)做到了。從這個角度看，圖靈測試已經(jīng)過時了。區(qū)別人和機(jī)器，需要尋找其他的標(biāo)準(zhǔn)。

今天就嘮一嘮正在風(fēng)口上的預(yù)訓(xùn)練語言大模型。大模型標(biāo)志著NLP的新方向。這是只有大投資或大廠才能玩得起的游戲，目前推出了30多款大模型。咱們先從 GPT3 談起。

GPT3 是 OpenAI 推出的自然語言生成模型，是語言超大模型潮流中的比較成熟的一款。生成模型擅長的應(yīng)用領(lǐng)域主要在人機(jī)對話的場合。最為人樂道的是它的“善解人意”，貌似可以聽懂人給它的指令。這就是所謂 prompt（提示）接口：人不需要編程代碼，而是可以直接通過自然語言的提示和樣例，告訴它想生成什么，無論是回答問題、機(jī)器翻譯、生成對聯(lián)還是聊天，它都蠻擅長。可以說，GPT3 的 prompt 已經(jīng)部分實現(xiàn)了白碩老師所說的 NL2X （至少在任務(wù)X是語言生成類的場景）的閉環(huán)。

自從 GPT3 發(fā)布以來，有很多令人驚艷的表現(xiàn)被用戶錄屏在網(wǎng)上流傳。已經(jīng)形成了用戶粉絲群體了。當(dāng)然很快就有人找到某個角度讓模型露怯，表明模型并不真“理解”背后的邏輯。但這并不影響還有很多看似 open-ended 的語言任務(wù)，它真是聽了就能做。

例如，有人要它就某個話題幫助寫一篇英文文章。

這可算是流暢自然的對話了，聽懂了似的，雖然還沒有去具體執(zhí)行任務(wù) lol 接著用戶重復(fù)這個要求，它果然就立即執(zhí)行了，文章寫得好壞再論，人家反正是聽從了指令，跟個切身小蜜似的。

因為是生成模型，所以人機(jī)交互的時候，它的應(yīng)對具有隨機(jī)性。有時候讓人驚艷，有時候也會露怯。但交互本身總是很流暢，給人感覺，通過圖靈測試已經(jīng)不在話下。

老友說這不過是噱頭。我不大同意。噱頭是人為的，模型并不懂什么叫噱頭，也不會刻意為之。當(dāng)然也可以說是測試者挑揀出來的噱頭。不過，好在模型是開放的、隨機(jī)的，可以源源不斷制造這種真假莫辨的人機(jī)交互噱頭。在知識問答、翻譯、講故事、聊天等方面，就是圖靈再生也不大容易找到這一類人機(jī)交互的破綻。又因為其隨機(jī)性，每次結(jié)果都可能不同，就更不像是只懂死記硬背的機(jī)器了。機(jī)器貌似有了某種“靈性”。

再看看 GPT3 模型中的中文表現(xiàn)。

詞做得不咋樣，尤其是對于大詞人辛老，他老人家應(yīng)該是字字珠璣。但這里的自然語言對話，模型對于自然語言提示的“理解”，以及按照要求去做詞，這一切讓人印象深刻。這種人機(jī)交互能力不僅僅是炫技、噱頭就能無視的。

當(dāng)然，現(xiàn)在網(wǎng)上展示出來的大多是“神跡”級別的，很多是讓人拍案叫絕的案例。生成模型隨機(jī)生成的不好的結(jié)果，通常被隨手扔進(jìn)垃圾桶，不見天日。這符合一切粉絲的共性特點。但慢慢玩下來，有幾點值得注意：

1. 有些任務(wù)，靠譜的生成居多。例如，知識問答幾乎很少出錯。IBM沃倫當(dāng)年知識問答突破，背后的各種工程費了多大的勁兒。現(xiàn)在的超大模型“降維”解決了。同時解決的還有聊天。

2. 隨機(jī)性帶來了表現(xiàn)的不一致。但如果應(yīng)用到人來做挑選做判官的后編輯場景，則可能會有很大的實用性。以前說過，人腦做組合不大靈光，畢竟記憶空間有限，但人腦做選擇則不費力氣。結(jié)果是好是壞，通常一眼就可以看出來。結(jié)果中哪些部分精彩，哪些部分需要做一些后編輯，這都是人的長項。人機(jī)耦合，大模型不會太遠(yuǎn)就會有實用的東西出來。例如輔助寫作。

3. 超大模型現(xiàn)在的一鍋燴和通用性主要還是展示可行性。真要領(lǐng)域規(guī)模化落地開花，自然的方向是在數(shù)據(jù)端做領(lǐng)域純化工作，犧牲一點“通用性”，增強(qiáng)領(lǐng)域的敏感性。這方面的進(jìn)展值得期待。

老友說，我還覺得應(yīng)該在硬件(模型架構(gòu)上有一些設(shè)計)，不僅僅是為了lm意義上的，還要有知識的消化和存儲方面的。

不錯，目前的大模型都是現(xiàn)場作業(yè)，基本沒有知識的存貯，知識也缺乏層次、厚度和邏輯一致性。這不是它的長項。這方面也許要指望今后與知識圖譜的融合。（圖譜的向量化研究據(jù)說目前很火。）

聽懂人話，首先要有解析能力吧。大模型中的另一類就是主打這個的，以 BERT 為代表。BERT 實際上就是個 parser，只不過結(jié)果不是以符號結(jié)構(gòu)圖表示而已。認(rèn)清這一點，咱們先看看 parser 本身的情況。

很久以來一直想不明白做語言解析（parsing）怎么可能靠訓(xùn)練做出好的系統(tǒng)出來。按照以前對于解析的理解，這是要把自然語言消化成結(jié)構(gòu)和語義。而結(jié)構(gòu)和語義是邏輯層面的東西，沒有外化的自然表現(xiàn)，它發(fā)生在人腦里。訓(xùn)練一個 parser，機(jī)器學(xué)習(xí)最多是用 PennTree 加上 WSD 的某些標(biāo)注來做，那注定是非常局限的，因為標(biāo)注代價太高：標(biāo)注語言結(jié)構(gòu)和語義需要語言學(xué)碩士博士才能做，普通人做不來。這就限定死了 parser 永遠(yuǎn)沒法通用化，可以在指定語料，例如新聞?wù)Z料中做個樣子出來，永遠(yuǎn)訓(xùn)練不出來一個可以與我們這些老司機(jī)手工做出來的 parser 的高質(zhì)量和魯棒性。因此，讓機(jī)器去做符號parsing，輸出符號結(jié)構(gòu)樹是沒有實用價值的。迄今為止，從來沒有人能成功運用這類訓(xùn)練而來的 parsers （例如谷歌的 SyntaxNet，斯坦福parser，等）做出什么像樣的應(yīng)用來，就是明證。

現(xiàn)在看來，這個問題是解決了。因為根本就不要用人工標(biāo)注，用語言本身就好。parsing 也不必要表示成顯性結(jié)構(gòu)和語義符號，內(nèi)部的向量表示就好。把語言大數(shù)據(jù)喂進(jìn)去，語言模型就越來越強(qiáng)大，大模型開始顯示賦能下游NLP任務(wù)的威力。黃金標(biāo)準(zhǔn)就是隨機(jī)選取的語言片段的 masks（遮蔽起來讓訓(xùn)練機(jī)器做填空題），所學(xué)到的語言知識比我們傳統(tǒng)的符號 parser 不知道豐富多少，雖然犧牲了一些可解釋性和邏輯一致性。

看得見摸不透的中間向量表示，終于靠語言模型與實際原生語料的預(yù)測，落地了。這個意義怎么高估也不過分。所以，昨天我把我的博客大標(biāo)題“deep parser 是NLP的核武器”悄悄改了，加了個限定詞，成了：

因為 BERT/GPT3 里面的語言模型（特別是所謂編碼器 encoders）才是更普適意義上的 NLP 核武器。我們語言學(xué)家多年奮斗精雕細(xì)刻的parsers是小核見大核，不服還真不行。

從語言學(xué)習(xí)語言，以前感覺這怎么能學(xué)好，只有正例沒有反例啊。（順便一提，喬姆斯基當(dāng)年論人類語言的普遍文法本能，依據(jù)是：沒有天生的普遍文法，單靠暴露在語言環(huán)境中，兒童怎么可能學(xué)會如此復(fù)雜的自然語言，畢竟所接觸的語言雖然全部是正例，但卻充滿了口誤等偏離標(biāo)準(zhǔn)的東西。）

其實，一般而言，語言模型只要有正例即可。從語言學(xué)習(xí)語言的模型訓(xùn)練，通常用對于next word 的預(yù)測，或者對于被遮蔽的隨機(jī)片段（masks）的預(yù)測來實現(xiàn)。正例就是原文，而“反例”就是一切偏離正例（ground truth）的隨機(jī)結(jié)果。通過梯度下降，把這些隨機(jī)結(jié)果一步步拉回到正例，就完成了語言模型的合理訓(xùn)練。語言模型，乃至一切預(yù)測模型，從本性上說是沒有標(biāo)準(zhǔn)（唯一）答案的，每一個數(shù)據(jù)點的所謂 ground truth 都只是諸多可能性之一。語言模型的本質(zhì)是回歸（regression）任務(wù)，而不是分類（classification）任務(wù)，只有正例就好，因為整個背景噪音實際上就是反例。

有意思的是，BERT 除了語言的句子模型外，還要學(xué)習(xí)篇章（discourse）知識，這歌任務(wù)被定義為簡單的二分類問題，回答的是：兩個句子是否具有篇章連續(xù)性。這里，沒有反例，就自動創(chuàng)造反例出來。語料中任意兩個相鄰的句子就成為正例，而隨機(jī)拼湊的兩個句子就成了反例。一半正例，一半反例，這么簡單的 classifier 就把這個難題破解了，使得語言模型超越了句子的限制。

看看 BERT 大模型是如何訓(xùn)練并被成功移植去支持下游NLP任務(wù)的，這就是所謂遷移學(xué)習(xí)（transfer learning）。

（本圖采自谷歌的DL視屏講座，版權(quán)歸原作者所有）

左邊的 encoder 的訓(xùn)練。落地到 LM 的原生數(shù)據(jù)，因此完全符合監(jiān)督學(xué)習(xí)的 input –》output 模式。到了NLP應(yīng)用的時候（右圖），不過就是把 encoder 拷貝過來，把落地的目標(biāo)改成特定NLP任務(wù)而已。加一層 output layer 也好，加 n 層的 classifier 也好，總之前面的語言問題有人給你消化了。

Transfer learning 也嚷嚷了好多年了，一直感覺進(jìn)展不大，但現(xiàn)在看來是到笑到最后的那刻了。

未來智能實驗室的主要工作包括：建立AI智能系統(tǒng)智商評測體系，開展世界人工智能智商評測；開展互聯(lián)網(wǎng)（城市）大腦研究計劃，構(gòu)建互聯(lián)網(wǎng)（城市）大腦技術(shù)和企業(yè)圖譜，為提升企業(yè)，行業(yè)與城市的智能水平服務(wù)。每日推薦范圍未來科技發(fā)展趨勢的學(xué)習(xí)型文章。目前線上平臺已收藏上千篇精華前沿科技文章和報告。

??如果您對實驗室的研究感興趣，歡迎加入未來智能實驗室線上平臺。掃描以下二維碼或點擊本文左下角“閱讀原文”

總結(jié)

以上是生活随笔為你收集整理的图灵测试其实已经过时了的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇： python 读写pcd
下一篇：三维图形学课程笔记，3D建模与游戏开发方