當前位置：首頁 > 编程资源 > 综合教程 >内容正文

综合教程

OpenAI 开发新工具，试图解释语言模型的行为

發布時間：2023/12/19 综合教程 33 生活家

生活随笔收集整理的這篇文章主要介紹了 OpenAI 开发新工具，试图解释语言模型的行为小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

5 月 10 日消息，語言模型是一種人工智能技術，可以根據給定的文本生成自然語言。OpenAI 的 GPT 系列語言模型是目前最先進的代表之一，但注意到它們也有一個問題：它們的行為很難理解和預測。為了讓語言模型更透明和可信，OpenAI 正在開發一種新工具，可以自動識別語言模型中哪些部分對其行為負責，并用自然語言進行解釋。

這個工具的原理是利用另一個語言模型（也就是 OpenAI 最新的 GPT-4）來分析其他語言模型（比如 OpenAI 自己的 GPT-2）的內部結構。語言模型由許多“神經元”組成，每個神經元都可以觀察文本中的某種特定模式，并影響模型下一步的輸出。例如，給定一個關于超級英雄的問題（比如“哪些超級英雄有最有用的超能力？”），一個“漫威超級英雄神經元”可能會提高模型提到漫威電影中特定超級英雄的概率。

OpenAI 的工具就是利用這種機制來分解模型的各個部分。首先，它會將文本序列輸入到被評估的模型中，并等待某個神經元頻繁地“激活”。然后，它會將這些高度活躍的神經元“展示”給 GPT-4，并讓 GPT-4 生成一個解釋。為了確定解釋的準確性，它會提供給 GPT-4 一些文本序列，并讓它預測或模擬神經元的行為。然后它會將模擬的神經元的行為與實際神經元的行為進行比較。

“通過這種方法，我們基本上可以為每個神經元生成一些初步的自然語言解釋，并且還有一個分數來衡量這些解釋與實際行為的匹配程度。” OpenAI 可擴展對齊團隊負責人 Jeff Wu 說，“我們使用 GPT-4 作為過程的一部分，來生成對神經元在尋找什么的解釋，并評估這些解釋與它實際做什么的匹配程度。”

研究人員能夠為 GPT-2 中所有 307,200 個神經元生成解釋，并將它們編譯成一個數據集，與工具代碼一起在 GitHub 上以開源形式發布。像這樣的工具有朝一日可能被用來改善語言模型的性能，比如減少偏見或有害言論。但他們也承認，在真正有用之前，還有很長的路要走。該工具對大約 1000 個神經元的解釋很有信心，這只是總數的一小部分。

有人可能會認為，這個工具實際上是 GPT-4 的廣告，因為它需要 GPT-4 才能運行。但 Wu 說，這并不是這個工具的目的，它使用 GPT-4 只是“偶然”的，而且，相反它顯示了 GPT-4 在這方面的弱點。他還說，它并不是為了商業應用而創建的，并且理論上可以適應除了 GPT-4 之外的其他語言模型。

“大多數解釋的分數都很低，或者沒有解釋太多實際神經元的行為。” Wu 說，“很多神經元的活動方式很難說清楚 —— 比如它們在五六種不同的東西上激活，但沒有明顯的模式。有時候有明顯的模式，但 GPT-4 卻無法找到。”

更不用說更復雜、更新、更大的模型，或者可以瀏覽網頁獲取信息的模型了。但對于后者，Wu 認為，瀏覽網頁不會太改變工具的基本機制。他說，它只需要稍微調整一下，就可以弄清楚神經元為什么決定進行某些搜索引擎查詢或訪問特定網站。

“我們希望這將開辟一個有前途的途徑，來以一種自動化的方式解決可解釋性問題，讓其他人可以建立在上面并做出貢獻。” Wu 說，“我們希望我們真的能夠對這些模型的行為有好的解釋。”

總結

以上是生活随笔為你收集整理的OpenAI 开发新工具，试图解释语言模型的行为的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：《数据分析思维手册.pdf》，真的强！
下一篇：准确率 99%，科学家检测血液中 5 项