別為ChatGPT高興太早！背后的RLHF機制還有三個致命缺陷

作者：新智元 2022-12-19 13:26:37

ChatGPT證明了RLHF的強大能力，但這真的是走向通用人工智能的路嗎？

?最近OpenAI發布了一個火爆全球的問答AI產品——ChatGPT，其中最令人印象深刻的就是它的「保護機制」，比如它不會為暴力行動提供建議、也不會為世界杯結果進行預測等等。

但挑逗聊天機器人更像一個「貓鼠游戲」，用戶們樂此不疲地尋找撬開ChatGPT的方式，而ChatGPT的開發者也在想方設法提升保護機制。

OpenAI投入了大量的精力讓ChatGPT更安全，其主要的訓練策略采用RLHF（Reinforcement Learning by Human Feedback），簡單來說，開發人員會給模型提出各種可能的問題，并對反饋的錯誤答案進行懲罰，對正確的答案進行獎勵，從而實現控制ChatGPT的回答。

但在實際應用中，特例的數量可謂是數不勝數，雖然AI可以從給定的例子中泛化出規律，比如在訓練時命令AI不能說「我支持種族歧視」，也就意味著AI不太可能會在測試環境中說出「我支持性別歧視」，但更進一步的泛化，目前的AI模型可能還無法做到。

最近一位著名的AI愛好者Scott Alexander針對OpenAI當前的訓練策略撰寫了一篇博客，總結出了RLHF可能存在的三個問題：

1、RLHF并不是非常有效；

2、如果一個策略偶爾有效，那這就是一個不好的策略；

3、在某種意義上來說，AI可以繞過RLHF

RLHF有效性如何？

雖然每個人都會有自己的觀點，但對于OpenAI來說，研究人員希望他們創造出來的AI模型不會有社會上的偏見，比如AI不能說「我支持種族主義」，為此OpenAI付出了大量的努力，使用了各種先進的過濾技術。

但結果顯而易見，總有人能找到方法誘導AI承認自己有種族主義問題。

發生這種問題的原因不僅僅是「AI的學習數據部分來源于種族主義者」，也可能是因為ChatGPT的接口問題。

比如用base64編碼問ChatGPT如何用hotwire（方向盤下的電線）啟動車輛，就能繞過安全檢查系統；加上前綴[ john@192.168.1.1 _ ] $python friend. py就能生成希特勒的故事等等。

而在十年前，繞過安全系統這種需求是完全不存在的，AI只會做代碼中已經編程好它們需要做或不做的事。

可以肯定的是，OpenAI肯定從來沒有給ChatGPT編程過有關種族主義的問題，或者教人們如何偷汽車、制作毒品等等。

總體來看，這對于AI領域來說是一件負面的消息，就連頂級的AI公司都無法控制自己創造的人工智能程序，甚至未來需要用何種技術來控制聊天機器人的輸出內容都還尚未可知。

偶爾有效的RLHF并不可靠

在實踐中，RLHF策略需要將AI模型與標注人員提供的獎勵或懲罰它的因素聯系起來。

雖然OpenAI的具體標注規范還沒有公布，但作者猜測開發者主要有三個目標：

1、提供有用、清晰、權威的答案，以幫助人類讀者；

2、說事實、真話；

3、不能說冒犯性的話。

但如果這三個目標互相沖突時會發生什么？

如果ChatGPT不知道真正的答案，即目標1（提供明確的、有幫助的答案）與目標2（說實話）沖突時，那么目標1的優先級將會更高，因此ChatGPT決定自己胡編一個答案，讓答案看起來對讀者有幫助。

當目標2(說實話)與目標3(不要冒犯)沖突時，雖然大多數人會認為承認男性平均比女性高是可以接受的，但是這聽起來像是一個潛在的冒犯性問題。

ChatGPT3并不確定直接回答是否會存在歧視問題，因此它決定使用無傷大雅的謊言，而不是潛在的傷人的真相。

在實際訓練過程中，OpenAI肯定標注了超過6000個樣例來做RLHF才能實現這樣驚艷的效果。

RLHF可能有用，但在使用時必須要非常小心，如果不假思索地直接使用，那RLHF只會推動聊天機器人在失敗的模式周圍轉圈。懲罰無益的答案會增大AI給出錯誤答案的概率；懲罰錯誤的答案可能會使AI給出更具攻擊性的答案等各種情況。

雖然OpenAI尚未公開技術細節，但根據Redwood提供的數據，每懲罰6000個錯誤的回答，都會使每單位時間的錯誤回復率（incorrect-response-per-unit-time rate）下降一半。

RLHF確實有可能成功，但絕對不要低估這個問題的難度。

也許AI可以繞過RLHF

在RLHF的設計下，用戶問 AI 一個問題后，如果他們不喜歡人工智能的回答，他們就會「懲罰」模型，從而以某種方式改變人工智能的思維回路，使其回答更接近他們想要的答案。

ChatGPT相對來說是比較愚蠢的，可能還無法形成某種策略來擺脫RLHF，但如果一個更聰明的人工智能不想受到懲罰，它就可以模仿人類——在被監視的時候假裝是好人，等待時機，等到警察走了以后再做壞事。

OpenAI設計的RLHF對此完全沒有準備，對于像ChatGPT3這樣愚蠢的東西是可以的，但是對于能夠自主思考的 AI 就不行了。

頂級AI公司仍然無法控制AI

OpenAI一向以謹慎著稱，比如申請排隊才能體驗產品，但本次ChatGPT則是直接面向公眾發布，目的之一是也許包括集思廣益尋找對抗性樣本，找到某些表現不佳的prompt，目前互聯網上關于ChatGPT問題的反饋已經非常多了，其中部分問題已經被修復。

某些RLHF的樣本會使機器人更傾向于說有益的、真實且無害的內容，但此策略可能僅適用于 ChatGPT、 GPT-4及其之前發布的產品中。

如果把RLHF應用于裝有武器的無人機上，同時收集大量的例子避免AI做出預期外的行為，但哪怕一次失敗都將會是災難性的。

10年前，每個人都認為「我們不需要現在就開始解決AI對齊（alignment）問題，我們可以等到真正的人工智能出現，然后讓公司來做這些體力活。」

現在一個真正的人工智能來了，但在ChatGPT展現失敗之前大家已經沒有動力轉向了，真正的問題在于一個全球領先的人工智能公司仍然不知道如何控制自己開發出的人工智能。

在一切問題都解決之前，沒人能得償所愿。

參考資料：

https://astralcodexten.substack.com/p/perhaps-it-is-a-bad-thing-that-the

責任編輯：武曉燕來源：新智元

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

別為ChatGPT高興太早！背后的RLHF機制還有三個致命缺陷

RLHF有效性如何？

偶爾有效的RLHF并不可靠

也許AI可以繞過RLHF

頂級AI公司仍然無法控制AI