OpenAI大佬:AI上半場忙著開發新訓練方法和模型GPT-4/o1/o3,下半場呢?
OpenAI大佬姚順雨發表一篇名為“The Second Half”博客,核心觀點是人工智能(AI)的發展已經進入了一個新的階段,即“下半場”:
- 從現在開始,將把重點從解決問題轉移到定義問題上;
- 評估將比訓練更為重要,不再只是問:“我們能否訓練一個模型來解決X問題?”而是要問:“我們應該訓練人工智能去做什么,以及我們如何衡量真正的進步?”;
- 為了在AI的下半場取得成功,需要及時轉變思維方式和技能組合,這些思維方式和技能組合或許更接近產品經理的思維和技能。
1. AI的“上半場”回顧
- 重點:在過去的幾十年中,AI的研究主要集中在開發新的訓練方法和模型,如深度學習、強化學習(RL)等。這些方法取得了顯著的成果,例如DeepBlue、AlphaGo、GPT-4等。
- 成果:這些模型在各種任務上表現出色,包括棋類游戲、語言模型、數學競賽等,推動了AI的快速發展。
- 評價方式:AI的評價主要依賴于基準測試(benchmarks),例如ImageNet、WMT’14等。這些基準測試為模型的性能提供了量化指標,但往往被視為次要角色。
2. 強化學習(RL)的突破
- 關鍵轉折點:強化學習(RL)在過去一直未能很好地泛化,但最近取得了重大突破。通過語言和推理,RL現在可以解決一系列廣泛的任務,如軟件工程、創意寫作、數學競賽等。
- 在強化學習(RL)中,有三個關鍵組成部分:算法、環境和先驗知識
- 事實證明,強化學習中最重要的部分可能根本不是強化學習算法或環境,而是先驗知識,而這些先驗知識可以通過與強化學習完全無關的方式獲得。
- 核心要素:這種突破的實現依賴于三個關鍵要素:
- 大規模語言預訓練:通過預訓練模型(如GPT-3)獲取通用的常識和語言知識。
- 規模(數據和計算):大規模的數據和計算能力是實現這種泛化能力的基礎。
- 推理和行動:將推理作為RL環境中的行動,利用語言預訓練的先驗知識來實現泛化。
3. AI的“下半場”展望:
- 新的焦點:AI的下半場將從“解決問題”轉向“定義問題”。這意味著評價將比訓練更重要,研究者需要思考“我們應該訓練AI做什么,以及如何衡量真正的進步”。
- 評價的重要性:過去,AI的研究側重于開發新的模型和方法,以在基準測試中取得更好的成績。但在下半場,研究者需要重新思考評價機制,創造新的任務和評價標準,以推動AI在現實世界中的應用。
- 現實世界的應用:盡管AI在各種基準測試中取得了巨大成功,但這些成功尚未對經濟和GDP產生顯著影響。這是因為現有的評價機制與現實世界的實際應用存在差異。例如,現實中的任務往往需要與人類互動,而不是完全自動化的。
4. 新的評價機制
- 互動性:現實世界中的任務往往需要與人類互動,而不是完全自動化的。新的評價機制需要考慮這種互動性,例如通過引入真實的人類用戶(如Chatbot Arena)或用戶模擬(如tau-bench)。
- 非獨立同分布(non-i.i.d.):現實世界中的任務往往是順序解決的,而不是獨立同分布的。新的評價機制需要考慮這種順序性,例如通過引入長期記憶方法。
贊
收藏
回復
分享
微博
QQ
微信
舉報

回復
相關推薦