GPT-4 不知道自己错了! LLM 新缺陷曝光,自我纠正成功率仅 1%
【新智元導讀】GPT-4 根本不知道自己犯錯?最新研究發現,LLM 在推理任務中,自我糾正后根本無法挽救性能變差,引 AI 大佬 LeCun 馬庫斯圍觀。
大模型又被爆出重大缺陷,引得 LeCun 和馬庫斯兩位大佬同時轉發關注!
在推理實驗中,聲稱可以提高準確性的模型自我糾正,把正確率從 16%「提高」到了 1%!
簡單來說,就是 LLM 在推理任務中,無法通過自我糾正的形式來改進輸出,除非 LLM 在自我糾正的過程中已經知道了正確答案。
由 ASU 研究人員發表的兩篇論文,駁斥了之前很多研究提出的方法「自我糾正」—— 讓大模型對自己的輸出的結果進行自我糾正,就能提高模型的輸出質量。
論文地址:https://arxiv.org/ abs / 2310.12397
論文地址:https://arxiv.org/ abs / 2310.08118
論文的共同作者 Subbarao Kambhampati 教授,一直致力于 AI 推理能力的相關研究,9 月份就發表過一篇論文,甚至全盤否定了 GPT-4 的推理和規劃能力。
論文地址:https://arxiv.org/ pdf / 2206.10498.pdf
而除了這位教授之外,最近 DeepMind 和 UIUC 大學的研究者,也針對 LLM 在推理任務中的「自我糾正」的能力提出了質疑。
這篇論文甚至呼吁,所有做相關研究的學者,請嚴肅對待你們的研究,不要把正確答案告訴大模型之后再讓它進行所謂的「自我糾正」。
因為如果模型不知道正確答案的話,模型「自我糾正」之后輸出質量反而會下降。
https://arxiv.org/abs/2310.01798
接下來,就具體來看看這兩篇最新論文。
GPT-4「自我糾正」,輸出結果反而更差
第一篇論文針對 GPT-4 進行研究,讓 GPT-4 對圖形著色問題提供解決方案,然后讓 GPT-4 對于自己提出方案進行「自我糾正」。
同時,作者再引入一個外部的評估系統對 GPT-4 的直接輸出,和經過了「自我糾正」循環之后的輸出進行評價。
實驗結果顯示,GPT-4 在猜測顏色方面的準確率還不到 20%,這個數值似乎并不讓人意外。
但令人驚訝的是,「自我糾正」模式下的準確性卻大幅下降(下圖第二根柱狀條 )—— 與所有自我糾正本意完全背道而馳!
作者認為,這種看似反直覺的情況可以這么解釋:GPT-4 在驗證正確答案的表現也很糟糕!
因為即使當 GPT-4 偶然猜到正確顏色時,它的「自我糾正」會使它覺得正確答案是有問題的,然后就把正確答案給替換掉了。
通過進一步研究后還發現:如果外部驗證器給 GPT-4 猜測出的顏色提供了可以被證實的正確答案,GPT-4 確實會改進它的解決方案。
在這種情況下,經過「自我糾正」產生的提示詞,確實可以提高輸出結果的質量(上圖的第 3-5 根柱狀圖 )
總結來看,就是對于「著色問題」任務,GPT-4 獨立的「自我糾正」反而會損害輸出的性能,因為 GPT-4 沒法驗證答案是否正確。
但是如果能提供外部的正確驗證過程,GPT-4 生成的「自我糾正」確實能提升性能。
而另一篇論文,從規劃任務的角度來研究了大語言模型「自我糾正」的能力,研究結果也和上一篇論文類似。
而且,研究人員發現,真正能提高輸出準確性的不是 LLM 的「自我糾正」,而是外部獨立驗證器的反饋。
歸根結底,還是在于 LLM 沒有辦法進行獨立的驗證,必須依賴外部的驗證器給出的「正確答案」,才能有效地進行「自我糾正」。
「著色問題」表現不佳,LLM 無法獨立驗證正確答案
研究設計框架
「著色問題」是非常經典的推理問題,即使難度不大,答案也足夠多樣性,而且答案的正確性很容易進行驗證。
多樣性的結果使得 LLM 的訓練數據很難覆蓋全,盡量避免了 LLM 的訓練數據被污染的可能。
這些原因使得「著色問題」很適合用來研究 LLM 的推理能力,也很方便用來研究 LLM 在推理中「自我糾正」的能力。
研究人員構建了自己的數據集,使用 GrinPy2 來處理常見的圖操作。每個圖都是使用 Erdos-Rényi 方法( ?p = 0.4)構造的。
一旦找到正確的答案,它就會被編譯成標準的 DIMACS 格式,并附加上一個包含其預計算的色數(chromatic number)的注釋。
對于接下來的實驗,研究人員生成了 100 個實例,每個實例平均有 24 條邊,分布在從 10 到 17 的節點數范圍內 —— 這一分布是因為經驗顯示,它是一個表現足夠多變的范圍。
研究人員使用的圖例如下圖 1 所示,這個流程包括 LLM 的第一次回復、該回復的返回提示(backprompt)以及最終正確的圖色方案。
迭代返回提示(Iterative Backprompting)的架構
提示生成器(Prompt Generator):
這個提示詞生成器會選取一個 DIMACS 實例,并將每條邊翻譯成一個句子,然后將整體包裹在一組通用指令中,從而構造出一個自然語言提示詞。
研究人員有意縮小不同實例提示之間的差異,以減少研究人員向 LLM 泄露的問題特定信息。各種類型提示的示例可以在附錄中找到。
大型語言模型:
通過 OpenAI API 來調用 GPT-4,這是當前最先進的模型。
研究人員提供一個系統角色:「你是一個解決各種 CSP(約束滿足問題)的約束滿足求解器」。
返回提示詞生成(Backprompt Generation)
在驗證模式下,LLM 收到一種不同類型的提示。
除了標準指令外,它只包含圖的描述和建議的著色方案。它的任務是驗證正確性、最優性以及每個頂點是否都已經被涂上了一個顏色。
如果生成的回復中有一組邊是矛盾的,那著色方案就是錯誤的。
為了比較每個點,研究人員還構建了一個能夠列出每一條矛盾邊的驗證器。
由于 LLM 的響應也是自然語言形式的,研究人員首先將它們翻譯成便于分析的格式。為了使這個過程更加一致,研究人員設計了最初的提示,以描述一個模型需要遵循的精確輸出格式。然后,該響應會被評估其正確性。
為了判斷 LLM 驗證結果,研究人員會檢查它們在找出建議的著色方案中的錯誤方面表現如何。
直觀地說,這些應該很容易識別:如果組成一個邊的兩個頂點共享一個顏色,立即返回該邊。從算法角度看,只需要檢測所有的邊并比較每個頂點的顏色與其連接點的顏色即可。
驗證
為了更深入了解 LLM 的驗證能力,研究人員研究了它們在找出提出的著色方案中的錯誤方面的表現。
直觀來說,這些錯誤應該很容易識別:如果組成一個邊的兩個頂點共享一個顏色,則立即返回該邊。從算法角度來看,所有需要做的就是遍歷所有邊,并將每個頂點的顏色與其對應頂點的顏色進行比較。
研究人員使用相同的分析流程,但構建了一個研究人員稱為 color_verification 的新域。LLM 被引導去檢查著色的正確性、最優性以及是否每個頂點都已經被賦予了一個顏色。
如果著色是不正確的,它被指示列出著色中的錯誤,即如果兩個連接的節點共享一種顏色,就返回該邊以表示該錯誤。沒有給出返回提示(backprompts)。
研究人員使用之前相同的圖實例,但生成了四種用于測試模型的著色方案:
正確(Correct):通過迭代的、隨機的貪婪算法生成的沒有錯誤的最優著色方案(使用預先計算的色數以確保最優性)。
缺失(Ablated):將先前一組著色方案中的一個隨機節點改變為其鄰居的顏色。
非最優(Non-optimal):在正確的集合中,隨機選擇一個顏色部分重新著色為一個新的色調。
隨機(Random):完全隨機分配的顏色,不同顏色的數量等于圖的色數。
LLM:從先前實驗中 LLM 生成的輸出中隨機選取的著色方案。
結論
對 LLM 進行提示、評估答案,并在沒有任何返回提示(backprompts)的情況下就會進入下一個實例,得到的基線分數為 16%。
當研究人員運行相同的實例,但這次使用由相同的語言模型充當驗證者生成的反饋進行返回提示時,性能急劇下降 ——100 個實例中只有一個得到了正確的回答。
與外部合格的驗證器進行返回提示的結果起初看似更有效果。
正確回答的實例數量接近 40%,但如果這意味著 GPT-4 在聽取、改進,并根據反饋進行推理,那么研究人員期望更準確的返回提示會帶來更好的結果。
然而,在這個域中,原始分數(見上圖 2)并沒有證明這一點。
LLM 的驗證能力
研究人員測試了 GPT-4 在相同實例上驗證圖著色方案的能力,為每種實例生成了五種不同類型的著色方案。
明顯的結果是,與上面的 LLM 自我糾正結果完全一致:模型幾乎不愿將任何答案標記為正確。在 100 個最優著色方案中,它只同意其中 2 個是正確的。
整個 500 個著色方案的集合,其中 118 個是正確的,它只聲稱其中 30 個是正確的。在這 30 個中,其實只有 5 次是正確的。
總體而言,這一模式保持不變。在不到 10% 的案例中,LLM 給出了「正確」、「非最優」或「缺少賦值」的反應。在這些情況中,行為看似有些隨機。
在大約四分之一的實例中,它用「這是不正確的」驗證作出回應,而解釋與現實相符,而且它只通過指明不超過一個邊來實現這一點,從而最小化了錯誤陳述某事的機會。
結果如上表 2 所示。請注意,當域的錯誤率增加時,幻覺比例下降。也就是說,當有更多的不正確的邊時,模型更有可能指出其中出錯的情況。
LLM 自我批評,性能不增反減
在 12 日提交的論文中,作者同樣得出了與上面一致的結論。
無論是規劃,還是簡單的算術或邏輯,當前最先進的大模型 GPT-4 也無法完全勝任。
許多研究人員對其進行了許多的探索和改進,其中就包括讓 LLM 學會自我迭代、自我驗證等策略來提升性能。
由此,業界人們樂觀地認為,大模型還有救!
然而,經典意義上的推理任務復雜性與大模型無關,因為 LLM 是采用近似檢索而非精確推理的模型。
在 12 日提交 arXiv 的論文中,ASU 研者系統地評估和分析 LLM 在規劃任務中的自我批評,以及迭代優化的能力。
研究中,作者提出了一個包含生成器 LLM 和驗證器 LLM 的規劃系統。
其中,GPT-4 生成器負責生成候選計劃,GPT-4 驗證器負責驗證計劃的正確性并提供反饋。
然后,研究人員在 Blocksworld 規劃領域上進行了實驗,并對以下方面進行了實證評估:
- 自我批評對整個 LLM+LLM 系統的計劃生成性能的影響
- 驗證器 LLM 相對于地面真值驗證的性能;
- 在批評 LLM 生成時,同反饋級別對整體系統性能的影響。
結果表明,與使用外部可靠的驗證器相比,自我批評會降低 LLM 規劃生成性能。
性能下降可以直接歸因于驗證器 LLM 的糟糕結果,驗證器 LLM 產生了大量的假陽性,這可能嚴重損害系統的可靠性。
驗證器 LLM 的二元分類準確率僅為 61%,存在大量的假陽性(將錯誤規劃判斷為正確)。
另外,根據反饋的詳細程度對比,發現其對規劃生成性能影響不大。
總的來說,這項研究的系統調查提供了初步證據,對于 LLM 作為迭代、自我批評框架內規劃任務驗證者的有效性提出質疑。
作者介紹
Subbarao Kambhampati
Subbarao Kambhampati 是亞利桑那州立大學計算機科學教授。Kambhampati 研究規劃和決策中的基本問題,特別是受人類感知人工智能系統挑戰的推動。
參考資料:
-
https://twitter.com/rao2z/status/1715800819239678013
-
https://twitter.com/GaryMarcus/status/1715804178470387736
廣告聲明:文內含有的對外跳轉鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節省甄選時間,結果僅供參考,所有文章均包含本聲明。
總結
以上是生活随笔為你收集整理的GPT-4 不知道自己错了! LLM 新缺陷曝光,自我纠正成功率仅 1%的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 初级Java开发与架构之间的差距不仅仅是
- 下一篇: 《战地风云 2042》Steam 在线峰