谷歌最新研究：大模型為何「學(xué)得會」卻「用不好」？精華

sbf_2000

發(fā)布于 2025-5-20 06:15

瀏覽

0收藏

谷歌最新研究：大模型為何「學(xué)得會」卻「用不好」？-AI.x社區(qū) 圖片

你是否遇到過這樣的情況：GPT、Claude等大模型在對話時很聰明，但經(jīng)過微調(diào)后卻變得「變笨」了？

這不是你的錯覺，而是AI學(xué)習(xí)的一個有趣現(xiàn)象。最近，谷歌研究團隊發(fā)表了一篇重磅論文，揭示了大模型兩種學(xué)習(xí)方式之間的巨大差異。

現(xiàn)在一起來探索這個AI世界中的奇妙現(xiàn)象：為什么有時候「上下文學(xué)習(xí)」比「微調(diào)學(xué)習(xí)」更靈活？

谷歌最新研究：大模型為何「學(xué)得會」卻「用不好」？-AI.x社區(qū) 圖片

1、大模型的兩種學(xué)習(xí)方式，哪個更強？

大模型主要通過兩種方式學(xué)習(xí)新知識：

（1）上下文學(xué)習(xí)（In-context Learning）：在對話中給模型幾個例子，它能立刻舉一反三

（2）微調(diào)學(xué)習(xí)（Fine-tuning）：通過大量訓(xùn)練數(shù)據(jù)調(diào)整模型參數(shù)，使其適應(yīng)新任務(wù)

直覺上，我們會認為微調(diào)應(yīng)該效果更好，畢竟它直接修改了模型的「大腦」。但谷歌的研究發(fā)現(xiàn)，在某些情況下，上下文學(xué)習(xí)的泛化能力竟然比微調(diào)更強！

2、「微調(diào)陷阱」：AI為何學(xué)得會卻用不好？

谷歌研究人員發(fā)現(xiàn)了一個有趣的現(xiàn)象：當(dāng)你教大模型"B是A的母親"這個事實后，模型能回答"誰是B的母親？"，但卻無法回答"誰是A的兒子？"

這就是著名的「反轉(zhuǎn)詛咒」（Reversal Curse）問題。盡管兩個問題本質(zhì)上是同一信息的不同表達方式，但微調(diào)后的模型卻無法完成這種簡單的邏輯轉(zhuǎn)換。

研究通過精心設(shè)計的實驗證明：微調(diào)學(xué)習(xí)在以下幾種情況下表現(xiàn)不佳：

（1）關(guān)系反轉(zhuǎn)：如"狗是哺乳動物" → "哺乳動物包括狗"

（2）三段論推理：如"狗是哺乳動物，哺乳動物是溫血動物" → "狗是溫血動物"

（3）知識組合：需要將多個事實串聯(lián)起來得出新結(jié)論

而同樣的任務(wù)，當(dāng)所有訓(xùn)練數(shù)據(jù)放在對話上下文中時，模型卻能輕松完成！

3、突破瓶頸：如何讓微調(diào)也能「靈活思考」？

既然上下文學(xué)習(xí)和微調(diào)各有優(yōu)勢，能否結(jié)合兩者優(yōu)點？

谷歌研究人員提出了一個巧妙的解決方案：用上下文推理來增強微調(diào)數(shù)據(jù)。

具體做法是：

（1）局部增強：對每條訓(xùn)練數(shù)據(jù)進行改寫和反轉(zhuǎn)，增加表達多樣性

（2）全局增強：讓模型基于整個訓(xùn)練集做推理，生成新的邏輯關(guān)系

（3）句子分割：將多句文檔拆分為獨立的訓(xùn)練樣本，打破固有關(guān)聯(lián)

這種方法在實驗中：增強后的微調(diào)模型不僅克服了「反轉(zhuǎn)詛咒」，在某些測試中甚至超過了上下文學(xué)習(xí)！

谷歌最新研究：大模型為何「學(xué)得會」卻「用不好」？-AI.x社區(qū) 圖片

4、結(jié)語

這項研究不僅解釋了大模型學(xué)習(xí)的奇怪現(xiàn)象，更為AI應(yīng)用提供了實用指導(dǎo)：

（1）對AI開發(fā)者：微調(diào)模型前，先用上下文推理增強訓(xùn)練數(shù)據(jù)，能顯著提升泛化能力

（2）對AI研究：揭示了不同學(xué)習(xí)方式的歸納偏好差異，為理解大模型內(nèi)部機制提供線索

（3）對認知科學(xué)：呼應(yīng)了「思考學(xué)習(xí)」理論，即通過計算可以提高信息的可訪問性

更廣泛地看，這項研究也啟示我們：AI的學(xué)習(xí)過程與人類學(xué)習(xí)有著驚人的相似之處。人類學(xué)習(xí)新知識時，也會通過類比、推理和重新組織等方式，使知識變得更加靈活可用。

當(dāng)我們使用ChatGPT等大模型時，總會驚嘆于它們在對話中展現(xiàn)的靈活推理能力。但當(dāng)我們嘗試通過微調(diào)讓模型掌握特定領(lǐng)域知識時，卻常常發(fā)現(xiàn)效果不盡如人意。

谷歌這項研究揭示了其中的根本原因：微調(diào)和上下文學(xué)習(xí)在神經(jīng)網(wǎng)絡(luò)中激活了不同的信息處理路徑。

未來，隨著「思考增強訓(xùn)練」等技術(shù)的發(fā)展，我們有望開發(fā)出兼具上下文學(xué)習(xí)靈活性和微調(diào)效率的新一代AI系統(tǒng)。這將極大推動AI在醫(yī)療診斷、法律咨詢、教育輔導(dǎo)等需要靈活推理的領(lǐng)域的應(yīng)用。

論文標題：On the generalization of language models from in-context learning and finetuning: a controlled study

論文鏈接：https://arxiv.org/abs/2505.00661

本文轉(zhuǎn)載自????AI帝國????，作者：無影寺

標簽

谷歌

大模型

贊

回復(fù)

舉報

回復(fù)

相關(guān)推薦

大模型一定就比小模型好？谷歌的這項研究說不一定

輕薄滴假象 ? 2974瀏覽 ? 0回復(fù)
谷歌CEO采訪再談AI未來，遭女記者犀利“拷問”：為何錯失GPT風(fēng)口，被微軟反超？AI是否沖擊了谷歌商業(yè)模式？

51CTO技術(shù)棧 ? 2968瀏覽 ? 0回復(fù)
大模型燒錢戰(zhàn)“卷”出白菜價，李開復(fù)、王小川為何拒絕入局？

51CTO技術(shù)棧 ? 2766瀏覽 ? 0回復(fù)
Meta等最新研究：多token預(yù)測，提升大模型推理效率

Aceryt ? 4166瀏覽 ? 0回復(fù)
AI大模型性能最新排名

開發(fā)者阿橙 ? 5201瀏覽 ? 0回復(fù)
少或零樣本異常檢測最新研究跟蹤

angel ? 4723瀏覽 ? 0回復(fù)
最新研究提出混合動態(tài)剪枝方法，升級Transformer推理效率

xuxiangda ? 4079瀏覽 ? 0回復(fù)
模型崩潰！泛濫的AI會反噬自身！牛津大學(xué)研究發(fā)現(xiàn)：用AI生成數(shù)據(jù)來二次訓(xùn)練大模型會產(chǎn)生無意義的內(nèi)容！

51CTO技術(shù)棧 ? 2854瀏覽 ? 0回復(fù)
最新研究：大語言模型使用Json格式輸出會降低模型性能嗎？

大語言模型論文跟蹤 ? 4186瀏覽 ? 0回復(fù)
揭秘：為何大模型總是賺不到錢？行業(yè)內(nèi)幕大曝光！

51CTO技術(shù)棧 ? 2558瀏覽 ? 0回復(fù)
Anthropic最新研究，Claude學(xué)會“演戲”了！

NLP前沿1 ? 2903瀏覽 ? 0回復(fù)
一篇大模型GraphRAG最新綜述

探索AGI ? 3063瀏覽 ? 0回復(fù)
Kimi的長文本能力：為何優(yōu)于其他大模型

風(fēng)云2002_1 ? 2674瀏覽 ? 0回復(fù)
AI應(yīng)用前景不明朗，硬件需求卻持續(xù)增長：谷歌云的投資策略

chengganfei ? 2442瀏覽 ? 0回復(fù)
Tiktok多模態(tài)大模型最新研究：顯示序列建模提升視頻理解能力

海因斯DK ? 2757瀏覽 ? 0回復(fù)
深度剖析：為何擴散模型會成為語言模型的未來？

AI論文解讀 ? 2594瀏覽 ? 0回復(fù)
別讓大模型想太多了，過度思考會影響性能

Aceryt ? 1580瀏覽 ? 0回復(fù)
融合語言模型的多模態(tài)大模型研究

zhcs333 ? 2196瀏覽 ? 0回復(fù)
Llama 4效果不好，Meta承認有問題

Aceryt ? 1839瀏覽 ? 0回復(fù)

sbf_2000

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

51CTO

51CTO博客

51CTO學(xué)堂