人工智能進入 “下半場”，未來將走向何方？精華

發(fā)布于 2025-4-24 06:20

瀏覽

0收藏

在科技飛速發(fā)展的今天，人工智能（AI）已經(jīng)成為大家耳熟能詳?shù)脑~匯。從手機里能陪你聊天的智能語音助手，到能自動識別照片內(nèi)容的圖像軟件，AI的身影無處不在。不過，你知道嗎？AI的發(fā)展正迎來一個關鍵轉折點，就像一場比賽進入了下半場。今天，就讓我們一起深入了解AI的這場“下半場”變革。

一、AI上半場：模型與方法的狂歡

（一）輝煌成就：打敗人類冠軍，通過各類考試

過去幾十年，AI取得了不少令人驚嘆的成績。在棋盤上，AI化身“棋藝高手”，戰(zhàn)勝了世界象棋和圍棋冠軍；面對學術考試，它也毫不遜色，在SAT考試和律師資格考試中超越了大部分人類；甚至在國際數(shù)學奧林匹克競賽（IMO）和國際信息學奧林匹克競賽（IOI）這樣的高難度競賽中，AI也能勇奪金牌。這些成果背后，是一個個閃耀的名字：深藍（DeepBlue）、阿爾法狗（AlphaGo）、GPT - 4等，它們代表著AI發(fā)展歷程中的重要里程碑。

（二）關鍵創(chuàng)新：訓練方法和模型的突破

這些成就的取得，離不開AI在訓練方法和模型上的創(chuàng)新。就好比建造高樓大廈，訓練方法和模型就是大廈的基石和設計藍圖。像Transformer這樣的創(chuàng)新，為AI帶來了全新的架構思路，它就像一個神奇的“智能引擎”，在自然語言處理、計算機視覺等多個領域發(fā)揮著巨大作用，讓AI處理信息的能力大幅提升。還有卷積神經(jīng)網(wǎng)絡（如AlexNet），它讓AI在圖像識別領域實現(xiàn)了質(zhì)的飛躍，能夠像人類一樣“看懂”圖片里的內(nèi)容。這些創(chuàng)新就像給AI注入了強大的“能量藥水”，讓它不斷進化變強。

（三）比賽規(guī)則：重訓練輕評估

在AI發(fā)展的上半場，大家關注的焦點主要是訓練方法和模型。就像一場比賽，參賽選手都在努力打造更厲害的“武器”（模型和方法），而對比賽場地（評估和基準測試）的重視程度相對較低。研究員通過查看那些影響力較大的AI論文發(fā)現(xiàn)，像Transformer、AlexNet、GPT - 3這些論文，提出的都是訓練模型的新方法和新思路，并且通過在一些基準測試中取得的顯著進步來證明自己的成果。相比之下，即使是影響力較大的基準測試，如ImageNet，它的引用次數(shù)也遠遠低于像AlexNet這樣的模型論文。這就好比在一場發(fā)明比賽中，大家都在比拼誰發(fā)明的工具更厲害，而對用來測試工具的場地是否合適、是否能全面評估工具的性能，卻沒有那么在意。

為什么會這樣呢？一方面，創(chuàng)造新的算法或模型架構難度很大，需要研究人員具備深厚的專業(yè)知識和敏銳的洞察力，就像建造一座前所未有的超級建筑，需要頂尖的設計師和工程師一樣。另一方面，給AI定義任務相對來說比較簡單，很多時候就是把人類日常做的事情，比如翻譯、識別圖片、下棋等，轉化為AI的測試任務，不需要太多創(chuàng)新和復雜的工程設計。而且，新的訓練方法和模型往往具有通用性，能在多個領域發(fā)揮作用，就像一把萬能鑰匙，可以打開不同領域的“大門”，所以大家更熱衷于研究它們。

二、通向“下半場”的關鍵鑰匙：強化學習的突破

（一）強化學習的困境與突破

在AI領域，強化學習（RL）一直被視為“終局游戲”，理論上它能讓AI在各種任務中獲勝。想象一下，強化學習就像是訓練一個聰明的小機器人，通過不斷地嘗試和反饋，讓它學會如何在復雜的環(huán)境中做出最優(yōu)決策。比如，讓小機器人在迷宮里找出口，它每次嘗試不同的路徑，根據(jù)是否接近出口得到獎勵或懲罰，從而逐漸找到最佳路線。

但在很長一段時間里，強化學習遇到了不少難題。研究人員大多把精力放在研究算法上，就像只關注小機器人的“大腦程序”怎么編寫，卻忽略了小機器人所處的環(huán)境和它一開始具備的“知識儲備”（先驗知識）。結果就是，研究出的算法在一些簡單的模擬環(huán)境中表現(xiàn)得很好，可一旦放到真實復雜的環(huán)境里，就“水土不服”了。比如，訓練一個玩游戲的智能體，它在特定的游戲環(huán)境里是“游戲高手”，但換個游戲就完全不行了。

后來，隨著GPT - 2、GPT - 3等語言模型的出現(xiàn)，這個難題有了轉機。大家發(fā)現(xiàn)，缺失的關鍵部分是先驗知識。通過大規(guī)模的語言預訓練，可以把通用的常識和語言知識“灌輸”到模型里，就像給小機器人提前“預習”了很多知識，讓它變得更聰明。這些預訓練的模型經(jīng)過微調(diào)，就能變成各種不同用途的智能體，比如聊天機器人ChatGPT，它可以和人們順暢地交流；還有WebGPT，能幫助人們在網(wǎng)絡上更好地獲取信息。

（二）推理：強化學習的“神奇魔法”

有了先驗知識還不夠，研究人員又發(fā)現(xiàn)了一個讓強化學習更強大的“秘密武器”——推理。想象你在做菜，發(fā)現(xiàn)鹽用完了，這時你會想：“菜需要有咸味，鹽沒了，那就找醬油代替，醬油在右邊的櫥柜里。”這個思考的過程就是推理。對于智能體來說，推理就像是一種特殊的“隱形行動”，雖然它不會直接改變外部世界，但能幫助智能體在復雜的情況下做出更好的決策。

在傳統(tǒng)的強化學習理論里，決策的選擇空間是有限的，如果選擇空間突然變得無限大，就像在一堆盒子里找一個有獎勵的盒子，突然增加了無數(shù)個空盒子，決策就會變得非常困難。但把推理加入到強化學習的行動空間里，就不一樣了。借助語言預訓練的先驗知識，智能體可以利用推理更好地理解環(huán)境、做出決策，而且在面對不同的情況時能靈活地進行思考和計算。這就好比你在玩一個找寶藏的游戲，雖然增加了很多干擾的“空盒子”，但因為你之前玩過很多類似的游戲，積累了經(jīng)驗（先驗知識），所以還是能更準確地找到寶藏。這就是推理在強化學習中的神奇作用，它讓智能體能夠更好地適應復雜多變的環(huán)境，實現(xiàn)更廣泛的應用。

三、AI下半場：重新定義問題與評估標準

（一）上半場游戲的“落幕”

AI上半場的游戲規(guī)則是：不斷開發(fā)新的訓練方法和模型，在基準測試中取得更好的成績，然后再創(chuàng)造更難的基準測試，繼續(xù)這個循環(huán)。但現(xiàn)在，這個游戲遇到了問題。隨著前面提到的訓練方法和模型越來越成熟，形成了一套標準化的“配方”，它能在基準測試中輕松取得好成績，而且不需要太多新的創(chuàng)意。比如，研究人員辛辛苦苦研發(fā)出一種新方法，可能只能讓某個任務的成績提高5%，但像o - series這樣的新模型，即使沒有專門針對這個任務進行優(yōu)化，也能提高30%的成績。

人工智能進入 “下半場”，未來將走向何方？-AI.x社區(qū)

而且，新創(chuàng)造的更難的基準測試，也很快會被現(xiàn)有的“配方”攻克。研究員的同事Jason Wei制作了一張圖表，清楚地展示了過去五年AI在各種基準測試中的進展。像TriviaQA這樣的問答測試、MMLU這樣的綜合考試測試，以及數(shù)學相關的GSM8K、MATH等測試，AI的準確率都在不斷提高，解決這些測試任務的速度也越來越快。這就好比一場考試，學生們掌握了一套萬能的解題方法，不管試卷怎么變難，他們都能輕松應對，這樣考試就失去了原本篩選和評估的意義。

（二）下半場的新挑戰(zhàn)：重新思考評估

既然傳統(tǒng)的游戲規(guī)則行不通了，那AI下半場該怎么玩呢？研究員認為，我們需要從根本上重新思考評估方式。這不僅僅是創(chuàng)造新的、更難的基準測試，而是要對現(xiàn)有的評估體系提出質(zhì)疑，建立全新的評估標準。為什么要這樣做呢？因為現(xiàn)有的評估方式和現(xiàn)實世界的情況存在很大差異，這導致了一個嚴重的問題——效用問題。

雖然AI在很多比賽和考試中表現(xiàn)出色，打敗了人類冠軍，通過了各種高難度考試，但從經(jīng)濟和GDP等方面來看，它對現(xiàn)實世界的影響并沒有預期的那么大。就好像一個學生在學校里考試成績非常好，各種競賽都拿獎，但進入社會后，卻發(fā)現(xiàn)自己所學的知識并不能很好地解決實際工作和生活中的問題。

比如說，現(xiàn)有的評估通常要求智能體自動運行任務，接收輸入、自主完成任務，然后獲得獎勵。但在現(xiàn)實生活中，很多任務都需要智能體和人類進行持續(xù)的互動。你在和客服溝通時，不會發(fā)一條很長的消息，然后等10分鐘就期望得到一個完美的解決方案，而是會和客服來回交流。針對這個問題，新的基準測試，如Chatbot Arena，開始引入真實人類參與互動；tau - bench則通過模擬用戶來改進評估方式。

人工智能進入 “下半場”，未來將走向何方？-AI.x社區(qū)

再比如，現(xiàn)有的評估往往假設任務是獨立同分布的，就像有500道測試題，每道題都獨立進行測試，然后計算平均分。但在現(xiàn)實中，人們解決問題是有順序的，會隨著經(jīng)驗的積累越做越好。一個谷歌的軟件工程師在處理谷歌內(nèi)部的問題時，會因為對代碼庫越來越熟悉而解決問題的能力越來越強，可一個軟件工程師智能體在處理相同代碼庫的問題時，卻無法獲得這種經(jīng)驗積累帶來的優(yōu)勢。這說明現(xiàn)有的評估方式?jīng)]有考慮到現(xiàn)實中的這種情況，我們需要新的評估方式來適應現(xiàn)實需求。

（三）下半場的新玩法：注重實際效用

AI下半場的游戲規(guī)則變成了：開發(fā)針對現(xiàn)實世界實際效用的新評估方式和任務，然后用現(xiàn)有的方法或者結合新的組件來解決這些問題，接著再不斷循環(huán)這個過程。雖然這個新游戲對大家來說比較陌生，玩起來有難度，但卻充滿了機遇。在上半場，AI主要是在虛擬的游戲和考試場景中“大顯身手”，而在下半場，它將走向現(xiàn)實世界，創(chuàng)造出具有實際價值的產(chǎn)品，打造出價值數(shù)十億美元甚至萬億美元的公司。

在這個過程中，那些小打小鬧的改進方法可能不再管用，因為現(xiàn)有的成熟“配方”就能輕松超越它們。只有當你提出全新的假設，打破現(xiàn)有的“配方”，才能進行真正具有變革性的研究。這就像是在一場全新的比賽中，過去的戰(zhàn)術可能不再適用，你需要想出全新的策略，才能脫穎而出。

四、總結與展望

AI的發(fā)展就像一場漫長的馬拉松比賽，現(xiàn)在已經(jīng)進入了下半場。上半場，我們見證了AI在訓練方法和模型上的巨大突破，取得了許多令人矚目的成績；下半場，面對新的挑戰(zhàn)和機遇，AI需要更加貼近現(xiàn)實世界，解決實際問題，創(chuàng)造真正的價值。通過重新思考評估方式，我們有望找到更適合AI發(fā)展的道路，讓它在未來發(fā)揮更大的作用。

也許在不久的將來，AI會像電力、互聯(lián)網(wǎng)一樣，深入到我們生活的每一個角落，改變我們的工作、學習和生活方式。讓我們一起期待AI在這場“下半場”比賽中創(chuàng)造更多的奇跡，為人類的發(fā)展帶來更多的驚喜。

作者：張長旺，圖源：旺知識

參考資料

標題：The Second Half
作者：Shunyu Yao
單位：OpenAI
鏈接：https://ysymyth.github.io/The-Second-Half/

本文轉載自???旺知識??，作者：旺知識

標簽

人工智能

游戲

贊

回復

舉報

回復

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

51CTO

51CTO博客

51CTO學堂

人工智能進入 “下半場”，未來將走向何方？精華

一、AI上半場：模型與方法的狂歡

（一）輝煌成就：打敗人類冠軍，通過各類考試

（二）關鍵創(chuàng)新：訓練方法和模型的突破

（三）比賽規(guī)則：重訓練輕評估

二、通向“下半場”的關鍵鑰匙：強化學習的突破

（一）強化學習的困境與突破

（二）推理：強化學習的“神奇魔法”

三、AI下半場：重新定義問題與評估標準

（一）上半場游戲的“落幕”

（二）下半場的新挑戰(zhàn)：重新思考評估

（三）下半場的新玩法：注重實際效用

四、總結與展望

參考資料

目錄

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

51CTO

51CTO博客

51CTO學堂

人工智能進入 “下半場”，未來將走向何方？ 精華

一、AI上半場：模型與方法的狂歡

（一）輝煌成就：打敗人類冠軍，通過各類考試

（二）關鍵創(chuàng)新：訓練方法和模型的突破

（三）比賽規(guī)則：重訓練輕評估

二、通向“下半場”的關鍵鑰匙：強化學習的突破

（一）強化學習的困境與突破

（二）推理：強化學習的“神奇魔法”

三、AI下半場：重新定義問題與評估標準

（一）上半場游戲的“落幕”

（二）下半場的新挑戰(zhàn)：重新思考評估

（三）下半場的新玩法：注重實際效用

四、總結與展望

參考資料

目錄

人工智能進入 “下半場”，未來將走向何方？精華