成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

人工智能進入 “下半場”,未來將走向何方? 精華

發(fā)布于 2025-4-24 06:20
瀏覽
0收藏

在科技飛速發(fā)展的今天,人工智能(AI)已經(jīng)成為大家耳熟能詳?shù)脑~匯。從手機里能陪你聊天的智能語音助手,到能自動識別照片內(nèi)容的圖像軟件,AI的身影無處不在。不過,你知道嗎?AI的發(fā)展正迎來一個關鍵轉折點,就像一場比賽進入了下半場。今天,就讓我們一起深入了解AI的這場“下半場”變革。

一、AI上半場:模型與方法的狂歡

(一)輝煌成就:打敗人類冠軍,通過各類考試

過去幾十年,AI取得了不少令人驚嘆的成績。在棋盤上,AI化身“棋藝高手”,戰(zhàn)勝了世界象棋和圍棋冠軍;面對學術考試,它也毫不遜色,在SAT考試和律師資格考試中超越了大部分人類;甚至在國際數(shù)學奧林匹克競賽(IMO)和國際信息學奧林匹克競賽(IOI)這樣的高難度競賽中,AI也能勇奪金牌。這些成果背后,是一個個閃耀的名字:深藍(DeepBlue)、阿爾法狗(AlphaGo)、GPT - 4等,它們代表著AI發(fā)展歷程中的重要里程碑。

(二)關鍵創(chuàng)新:訓練方法和模型的突破

這些成就的取得,離不開AI在訓練方法和模型上的創(chuàng)新。就好比建造高樓大廈,訓練方法和模型就是大廈的基石和設計藍圖。像Transformer這樣的創(chuàng)新,為AI帶來了全新的架構思路,它就像一個神奇的“智能引擎”,在自然語言處理、計算機視覺等多個領域發(fā)揮著巨大作用,讓AI處理信息的能力大幅提升。還有卷積神經(jīng)網(wǎng)絡(如AlexNet),它讓AI在圖像識別領域實現(xiàn)了質(zhì)的飛躍,能夠像人類一樣“看懂”圖片里的內(nèi)容。這些創(chuàng)新就像給AI注入了強大的“能量藥水”,讓它不斷進化變強。

(三)比賽規(guī)則:重訓練輕評估

在AI發(fā)展的上半場,大家關注的焦點主要是訓練方法和模型。就像一場比賽,參賽選手都在努力打造更厲害的“武器”(模型和方法),而對比賽場地(評估和基準測試)的重視程度相對較低。研究員通過查看那些影響力較大的AI論文發(fā)現(xiàn),像Transformer、AlexNet、GPT - 3這些論文,提出的都是訓練模型的新方法和新思路,并且通過在一些基準測試中取得的顯著進步來證明自己的成果。相比之下,即使是影響力較大的基準測試,如ImageNet,它的引用次數(shù)也遠遠低于像AlexNet這樣的模型論文。這就好比在一場發(fā)明比賽中,大家都在比拼誰發(fā)明的工具更厲害,而對用來測試工具的場地是否合適、是否能全面評估工具的性能,卻沒有那么在意。

為什么會這樣呢?一方面,創(chuàng)造新的算法或模型架構難度很大,需要研究人員具備深厚的專業(yè)知識和敏銳的洞察力,就像建造一座前所未有的超級建筑,需要頂尖的設計師和工程師一樣。另一方面,給AI定義任務相對來說比較簡單,很多時候就是把人類日常做的事情,比如翻譯、識別圖片、下棋等,轉化為AI的測試任務,不需要太多創(chuàng)新和復雜的工程設計。而且,新的訓練方法和模型往往具有通用性,能在多個領域發(fā)揮作用,就像一把萬能鑰匙,可以打開不同領域的“大門”,所以大家更熱衷于研究它們。

二、通向“下半場”的關鍵鑰匙:強化學習的突破

(一)強化學習的困境與突破

在AI領域,強化學習(RL)一直被視為“終局游戲”,理論上它能讓AI在各種任務中獲勝。想象一下,強化學習就像是訓練一個聰明的小機器人,通過不斷地嘗試和反饋,讓它學會如何在復雜的環(huán)境中做出最優(yōu)決策。比如,讓小機器人在迷宮里找出口,它每次嘗試不同的路徑,根據(jù)是否接近出口得到獎勵或懲罰,從而逐漸找到最佳路線。

但在很長一段時間里,強化學習遇到了不少難題。研究人員大多把精力放在研究算法上,就像只關注小機器人的“大腦程序”怎么編寫,卻忽略了小機器人所處的環(huán)境和它一開始具備的“知識儲備”(先驗知識)。結果就是,研究出的算法在一些簡單的模擬環(huán)境中表現(xiàn)得很好,可一旦放到真實復雜的環(huán)境里,就“水土不服”了。比如,訓練一個玩游戲的智能體,它在特定的游戲環(huán)境里是“游戲高手”,但換個游戲就完全不行了。

后來,隨著GPT - 2、GPT - 3等語言模型的出現(xiàn),這個難題有了轉機。大家發(fā)現(xiàn),缺失的關鍵部分是先驗知識。通過大規(guī)模的語言預訓練,可以把通用的常識和語言知識“灌輸”到模型里,就像給小機器人提前“預習”了很多知識,讓它變得更聰明。這些預訓練的模型經(jīng)過微調(diào),就能變成各種不同用途的智能體,比如聊天機器人ChatGPT,它可以和人們順暢地交流;還有WebGPT,能幫助人們在網(wǎng)絡上更好地獲取信息。

(二)推理:強化學習的“神奇魔法”

有了先驗知識還不夠,研究人員又發(fā)現(xiàn)了一個讓強化學習更強大的“秘密武器”——推理。想象你在做菜,發(fā)現(xiàn)鹽用完了,這時你會想:“菜需要有咸味,鹽沒了,那就找醬油代替,醬油在右邊的櫥柜里。”這個思考的過程就是推理。對于智能體來說,推理就像是一種特殊的“隱形行動”,雖然它不會直接改變外部世界,但能幫助智能體在復雜的情況下做出更好的決策。

在傳統(tǒng)的強化學習理論里,決策的選擇空間是有限的,如果選擇空間突然變得無限大,就像在一堆盒子里找一個有獎勵的盒子,突然增加了無數(shù)個空盒子,決策就會變得非常困難。但把推理加入到強化學習的行動空間里,就不一樣了。借助語言預訓練的先驗知識,智能體可以利用推理更好地理解環(huán)境、做出決策,而且在面對不同的情況時能靈活地進行思考和計算。這就好比你在玩一個找寶藏的游戲,雖然增加了很多干擾的“空盒子”,但因為你之前玩過很多類似的游戲,積累了經(jīng)驗(先驗知識),所以還是能更準確地找到寶藏。這就是推理在強化學習中的神奇作用,它讓智能體能夠更好地適應復雜多變的環(huán)境,實現(xiàn)更廣泛的應用。

三、AI下半場:重新定義問題與評估標準

(一)上半場游戲的“落幕”

AI上半場的游戲規(guī)則是:不斷開發(fā)新的訓練方法和模型,在基準測試中取得更好的成績,然后再創(chuàng)造更難的基準測試,繼續(xù)這個循環(huán)。但現(xiàn)在,這個游戲遇到了問題。隨著前面提到的訓練方法和模型越來越成熟,形成了一套標準化的“配方”,它能在基準測試中輕松取得好成績,而且不需要太多新的創(chuàng)意。比如,研究人員辛辛苦苦研發(fā)出一種新方法,可能只能讓某個任務的成績提高5%,但像o - series這樣的新模型,即使沒有專門針對這個任務進行優(yōu)化,也能提高30%的成績。

人工智能進入 “下半場”,未來將走向何方?-AI.x社區(qū)

而且,新創(chuàng)造的更難的基準測試,也很快會被現(xiàn)有的“配方”攻克。研究員的同事Jason Wei制作了一張圖表,清楚地展示了過去五年AI在各種基準測試中的進展。像TriviaQA這樣的問答測試、MMLU這樣的綜合考試測試,以及數(shù)學相關的GSM8K、MATH等測試,AI的準確率都在不斷提高,解決這些測試任務的速度也越來越快。這就好比一場考試,學生們掌握了一套萬能的解題方法,不管試卷怎么變難,他們都能輕松應對,這樣考試就失去了原本篩選和評估的意義。

(二)下半場的新挑戰(zhàn):重新思考評估

既然傳統(tǒng)的游戲規(guī)則行不通了,那AI下半場該怎么玩呢?研究員認為,我們需要從根本上重新思考評估方式。這不僅僅是創(chuàng)造新的、更難的基準測試,而是要對現(xiàn)有的評估體系提出質(zhì)疑,建立全新的評估標準。為什么要這樣做呢?因為現(xiàn)有的評估方式和現(xiàn)實世界的情況存在很大差異,這導致了一個嚴重的問題——效用問題。

雖然AI在很多比賽和考試中表現(xiàn)出色,打敗了人類冠軍,通過了各種高難度考試,但從經(jīng)濟和GDP等方面來看,它對現(xiàn)實世界的影響并沒有預期的那么大。就好像一個學生在學校里考試成績非常好,各種競賽都拿獎,但進入社會后,卻發(fā)現(xiàn)自己所學的知識并不能很好地解決實際工作和生活中的問題。

比如說,現(xiàn)有的評估通常要求智能體自動運行任務,接收輸入、自主完成任務,然后獲得獎勵。但在現(xiàn)實生活中,很多任務都需要智能體和人類進行持續(xù)的互動。你在和客服溝通時,不會發(fā)一條很長的消息,然后等10分鐘就期望得到一個完美的解決方案,而是會和客服來回交流。針對這個問題,新的基準測試,如Chatbot Arena,開始引入真實人類參與互動;tau - bench則通過模擬用戶來改進評估方式。

人工智能進入 “下半場”,未來將走向何方?-AI.x社區(qū)

再比如,現(xiàn)有的評估往往假設任務是獨立同分布的,就像有500道測試題,每道題都獨立進行測試,然后計算平均分。但在現(xiàn)實中,人們解決問題是有順序的,會隨著經(jīng)驗的積累越做越好。一個谷歌的軟件工程師在處理谷歌內(nèi)部的問題時,會因為對代碼庫越來越熟悉而解決問題的能力越來越強,可一個軟件工程師智能體在處理相同代碼庫的問題時,卻無法獲得這種經(jīng)驗積累帶來的優(yōu)勢。這說明現(xiàn)有的評估方式?jīng)]有考慮到現(xiàn)實中的這種情況,我們需要新的評估方式來適應現(xiàn)實需求。

(三)下半場的新玩法:注重實際效用

AI下半場的游戲規(guī)則變成了:開發(fā)針對現(xiàn)實世界實際效用的新評估方式和任務,然后用現(xiàn)有的方法或者結合新的組件來解決這些問題,接著再不斷循環(huán)這個過程。雖然這個新游戲對大家來說比較陌生,玩起來有難度,但卻充滿了機遇。在上半場,AI主要是在虛擬的游戲和考試場景中“大顯身手”,而在下半場,它將走向現(xiàn)實世界,創(chuàng)造出具有實際價值的產(chǎn)品,打造出價值數(shù)十億美元甚至萬億美元的公司。

在這個過程中,那些小打小鬧的改進方法可能不再管用,因為現(xiàn)有的成熟“配方”就能輕松超越它們。只有當你提出全新的假設,打破現(xiàn)有的“配方”,才能進行真正具有變革性的研究。這就像是在一場全新的比賽中,過去的戰(zhàn)術可能不再適用,你需要想出全新的策略,才能脫穎而出。

四、總結與展望

AI的發(fā)展就像一場漫長的馬拉松比賽,現(xiàn)在已經(jīng)進入了下半場。上半場,我們見證了AI在訓練方法和模型上的巨大突破,取得了許多令人矚目的成績;下半場,面對新的挑戰(zhàn)和機遇,AI需要更加貼近現(xiàn)實世界,解決實際問題,創(chuàng)造真正的價值。通過重新思考評估方式,我們有望找到更適合AI發(fā)展的道路,讓它在未來發(fā)揮更大的作用。

也許在不久的將來,AI會像電力、互聯(lián)網(wǎng)一樣,深入到我們生活的每一個角落,改變我們的工作、學習和生活方式。讓我們一起期待AI在這場“下半場”比賽中創(chuàng)造更多的奇跡,為人類的發(fā)展帶來更多的驚喜。

作者:張長旺,圖源:旺知識

參考資料

  • 標題:The Second Half
  • 作者:Shunyu Yao
  • 單位:OpenAI
  • 鏈接:https://ysymyth.github.io/The-Second-Half/

本文轉載自???旺知識??,作者:旺知識

收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 亚洲精品18| 成人精品鲁一区一区二区 | 久久精品 | 91观看 | 一区二区三区回区在观看免费视频 | 一级毛片成人免费看a | 一区中文 | 亚洲欧美日韩在线 | 国产精品久久久久不卡 | 欧美精品在线一区 | 欧美一级黄 | 亚洲一区二区不卡在线观看 | 精品美女在线观看视频在线观看 | 精品国产乱码久久久久久蜜柚 | 久久噜| 欧美一区二区三区 | 亚洲第一天堂无码专区 | 午夜精品一区二区三区在线观看 | 久久久免费观看视频 | 福利av在线 | 国产视频一区二区 | 亚洲精品在线国产 | 国产黄色大片在线观看 | 国产999精品久久久影片官网 | 免费视频一区二区 | 亚洲第一天堂 | av中文字幕在线播放 | 国产欧美久久一区二区三区 | 99精品亚洲国产精品久久不卡 | 欧美日批| 日本免费小视频 | 亚洲欧美一区二区在线观看 | 欧州一区二区 | 在线播放精品视频 | 国产免费一区二区 | 国产精品福利在线观看 | 日韩在线视频一区 | 国内精品久久久久久影视8 最新黄色在线观看 | 一区二区三区四区国产 | 久热精品在线 | 古装人性做爰av网站 |