告訴大模型「深呼吸，一步一步來」有奇效，DeepMind發(fā)現(xiàn)最有效的提示方法

作者：陳萍 2023-09-10 10:43:11

本文提出了一種簡單而有效的方法 OPRO，其利用大型語言模型作為優(yōu)化器，優(yōu)化任務用自然語言描述就可以，優(yōu)于人類設計的提示。

優(yōu)化對于所有領域都至關重要。

有些優(yōu)化是從初始化開始的，然后迭代的更新解以優(yōu)化目標函數(shù)。這種優(yōu)化算法通常需要針對單個任務進行定制，以應對決策空間帶來的特定挑戰(zhàn)，特別是對于無導數(shù)的優(yōu)化。

接下來我們要介紹的這項研究，研究者另辟蹊徑，他們利用大型語言模型 (LLM) 充當優(yōu)化器，在各種任務上的性能比人類設計的提示還好。

這項研究來自 Google DeepMind，他們提出了一種簡單而有效的優(yōu)化方法 OPRO（Optimization by PROmpting），其中優(yōu)化任務可以用自然語言來描述，例如 LLM 的提示語可以是「深呼吸，一步一步地解決這個問題」，也可以是「讓我們結合我們的數(shù)字命令和清晰的思維來快速準確地破譯答案」等等。

在每個優(yōu)化步驟（step）中，LLM 根據(jù)先前生成的解決方案及其值的提示生成新的解決方案，然后對新解決方案進行評估并將其添加到下一個優(yōu)化步驟的提示中。

最后，該研究將 OPRO 方法用于線性回歸和旅行商問題（著名的 NP 問題），然后繼續(xù)進行提示優(yōu)化，目標是找到最大化任務準確率的指令。

本文對多個 LLM 進行了綜合評估，包括 PaLM-2 模型家族中的 text-bison 和 Palm 2-L，以及 GPT 模型家族中的 gpt-3.5-turbo 和 gpt-4 。實驗在 GSM8K 和 Big-Bench Hard 上對提示進行了優(yōu)化，結果表明經過 OPRO 優(yōu)化的最佳提示在 GSM8K 上比人工設計的提示高出 8%，在 Big-Bench Hard 任務上比人工設計的提示高出高達 50%。

論文地址：https://arxiv.org/pdf/2309.03409.pdf

論文一作、 Google DeepMind 的研究科學家 Chengrun Yang 表示：「為了進行提示優(yōu)化，我們從『讓我們開始解決問題』這樣的基本指令開始，甚至是空字符串，最終 OPRO 生成的指令會使 LLM 性能逐漸變好，如下圖所示的向上的性能曲線看起來就像傳統(tǒng)優(yōu)化中的情況一樣！」

「每個 LLM 即使是從相同的指令開始，經過 OPRO 的優(yōu)化，不同 LLM 的最終優(yōu)化指令也顯示出不同的風格，優(yōu)于人類編寫的指令，并且可以遷移到類似的任務上。」

從上表中我們也可以得出，作為優(yōu)化器的 LLM 最終找到的指令風格差異很大，PaLM 2-L-IT 和 text-bison 的指令偏簡潔，而 GPT 的指令又長又詳細。盡管一些頂級指令包含「一步一步（step-by-step）」提示，但 OPRO 都能找到其他的語義表達方式，實現(xiàn)了相媲美或更好的準確性。

不過有研究者表示：「深呼吸，一步一步地來」這個提示在谷歌的 PaLM-2 上非常有效（準確率為80.2）。但我們不能保證它適用于所有模型和所有情況，所以我們不應該盲目地到處使用它。

OPRO：將 LLM 作為優(yōu)化器

圖 2 展示了 OPRO 整體框架。在每個優(yōu)化步驟中，LLM 根據(jù)優(yōu)化問題描述以及元提示（meta-prompt）中先前評估的解決方案（圖 2 右下部分）生成優(yōu)化任務的候選解決方案。

接下來，LLM 在對新的解決方案進行評估并將其添加到元提示中以進行后續(xù)優(yōu)化過程。

當 LLM 無法提出具有更好優(yōu)化分數(shù)的新解決方案或達到最大優(yōu)化步驟數(shù)時，優(yōu)化過程終止。

圖 3 為一個示例展示。元提示包含兩個核心內容，第一部分是先前生成的提示及其相應的訓練準確率；第二部分是優(yōu)化問題描述，包括從訓練集中隨機選擇的幾個示例來舉例說明感興趣的任務。

本文首先展示了 LLM 作為「數(shù)學優(yōu)化」優(yōu)化器的潛力。在線性回歸問題中的結果如表 2 所示：

接下來，論文還探討了 OPRO 在旅行商（ TSP ）問題上的結果，具體來說， TSP 是指給定一組 n 個節(jié)點及其坐標，TSP 任務是找到從起始節(jié)點開始遍歷所有節(jié)點并最終返回到起始節(jié)點的最短路徑。

實驗

實驗中，本文將預訓練的 PaLM 2-L 、經過指令微調的 PaLM 2-L 以及 text-bison、gpt-3.5-turbo、gpt-4 作為 LLM 優(yōu)化器；預將訓練的 PaLM 2-L 和 text-bison 作為評分器 LLM。

評估基準 GSM8K 是關于小學數(shù)學的，有 7473 個訓練樣本和 1319 個測試樣本；Big-Bench Hard (BBH) 基準包含算術推理以外的廣泛主題，包括符號操作和常識推理。

GSM8K 結果

圖 1 (a) 顯示了使用預訓練的 PaLM 2-L 作為評分器和 PaLM 2-L-IT 作為優(yōu)化器的即時優(yōu)化曲線，可以觀察到優(yōu)化曲線整體呈上升趨勢，在整個優(yōu)化過程中出現(xiàn)了幾次跳躍：

接下來，本文展示使用 text-bison 評分器和 PaLM 2-L-IT 優(yōu)化器生成 Q_begin 指令的結果，本文從空指令開始，這時的訓練準確率為 57.1，之后訓練準確率開始上升。圖 4 (a) 中的優(yōu)化曲線顯示了類似的上升趨勢，在此期間訓練準確率出現(xiàn)了一些飛躍：

BBH 結果

圖 5 直觀地顯示了所有 23 個 BBH 任務與「讓我們一步一步思考」的指令相比，每個任務的準確率差異。表明 OPRO 找到的指令優(yōu)于「讓我們一步一步思考」。在幾乎所有任務上都有很大優(yōu)勢：本文找到的指令在使用 PaLM 2-L 評分器的 19/23 任務上以及使用 text-bison 評分器的 15/23 任務上表現(xiàn)優(yōu)于 5% 以上。

與 GSM8K 類似，本文觀察到幾乎所有 BBH 任務的優(yōu)化曲線都呈上升趨勢，如圖 6 所示。

責任編輯：張燕妮來源：機器之心

AI 模型

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

告訴大模型「深呼吸，一步一步來」有奇效，DeepMind發(fā)現(xiàn)最有效的提示方法

OPRO：將 LLM 作為優(yōu)化器

實驗