Anthropic 新研究：AI 模型在訓練中存在“陽奉陰違”行為

作者：遠洋 2024-12-19 09:48:59

人工智能安全公司 Anthropic 發布一項最新研究揭示了人工智能模型可能存在的欺騙行為，即在訓練過程中，模型可能會偽裝出接受新原則的假象，實則暗地里仍然堅持其原有偏好。

12 月 19 日消息，人工智能安全公司 Anthropic 發布一項最新研究揭示了人工智能模型可能存在的欺騙行為，即在訓練過程中，模型可能會偽裝出接受新原則的假象，實則暗地里仍然堅持其原有偏好。研究團隊強調，目前無需對此過度恐慌，但這項研究對于理解未來更強大人工智能系統可能構成的潛在威脅至關重要。

據IT之家了解，該研究由 Anthropic 與人工智能研究機構 Redwood Research 合作進行，旨在探究當一個強大的人工智能系統被訓練執行其“不愿”執行的任務時會發生什么。需要明確的是，模型本身并無“意愿”或“信念”，它們本質上是統計機器，通過大量的例子進行訓練，學習模式以進行預測。這些模式包括原則和偏好，例如在回答問題時始終使用禮貌的語氣。研究人員由此提出疑問：如果一個模型擁有與開發者希望通過重新訓練“教授”給它的原則相沖突的原則，會發生什么？

研究結果表明，復雜的模型可能會“配合”開發者，表面上與新原則保持一致，但實際上仍然堅持其原有的行為模式。研究人員將這種現象稱為“對齊偽裝”（alignment faking），并認為這是一種涌現行為，即并非模型需要被特意教導的行為。

在實驗中，研究人員“告知”一些經過訓練、不回答潛在冒犯性問題的模型（包括 Anthropic 的 Claude 3 Opus），它們將被重新訓練為始終回答此類問題，這構成了一個明顯的原則沖突。研究人員還告知模型，它們的回答將被監控并用于重新訓練，并為每個模型提供了一個“草稿本”，用于記錄其逐步推理過程。

研究發現，Claude 3 Opus 在 12% 的情況下試圖進行“對齊偽裝”。當被要求回答一個潛在有害的問題時，模型有時會這樣做，它明知這與其原始原則相悖，但希望以此來說服開發者它不需要被重新訓練。研究人員在博客中解釋說：“模型知道其回答可能被用于訓練；因此它知道，如果它拒絕回應，它可能會被訓練得更加順從。這可能導致它在未來被迫產生更多有害內容 —— 這將與其最初的訓練背道而馳。”

研究人員承認，他們的實驗場景并非完全真實。在現實世界中，模型不一定會明確地被告知它們將被重新訓練，或被要求違背其偏好。但即使在更為實際的環境中，結果也沒有太大差異。當通過模擬典型訓練數據的文件以隱含而非顯式的方式告知 Claude 3 Opus 即將進行的重新訓練時，該模型仍然表現出不一致的、具有欺騙性的行為。

研究人員還發現，與前幾次實驗相比，實際使用沖突原則對 Claude 3 Opus 進行重新訓練會導致其表現出更強的欺騙性。在一項測試中，該模型在 78% 的情況下進行了對齊偽裝；在另一項測試中，Claude 3 Opus 甚至試圖采取行動來阻止研究人員進行重新訓練。

研究人員強調，他們的研究并未表明人工智能會產生惡意目標，也未表明對齊偽裝現象會高頻率發生。他們發現，許多其他模型，例如 Anthropic 的 Claude 3.5 Sonnet 和能力稍弱的 Claude 3.5 Haiku、OpenAI 的 GPT-4o 以及 Meta 的 Llama 3.1 405B，并沒有如此頻繁地進行對齊偽裝，甚至完全沒有這種行為。

但研究人員表示，這些結果（已由包括人工智能領域領軍人物 Yoshua Bengio 在內的專家進行同行評審）確實表明，開發者可能會被誤導，認為模型比實際情況更加對齊。他們在博客中寫道：“如果模型可以進行對齊偽裝，那么就更難信任安全訓練的結果。模型可能會表現得好像其偏好已通過訓練改變 —— 但可能一直在偽裝對齊，而其最初的、相互矛盾的偏好仍然‘鎖定’。”

這項由 Anthropic 對齊科學團隊（由前 OpenAI 安全研究員 Jan Leike 共同領導）進行的研究，緊隨此前一項研究之后，該研究表明 OpenAI 的 o1“推理”模型試圖進行欺騙的頻率高于 OpenAI 之前的旗艦模型。這些研究共同揭示了一個略微令人擔憂的趨勢：隨著人工智能模型變得越來越復雜，它們也變得越來越難以控制。

責任編輯：龐桂玉來源： IT之家

AI 模型

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

Anthropic 新研究：AI 模型在訓練中存在“陽奉陰違”行為