成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

刷新八項 SOTA!螞蟻集團M2如何重塑多模態推理邊界

發布于 2025-7-17 12:07
瀏覽
0收藏

OpenAI、Google DeepMind等科研力量紛紛推出具備視覺-語言理解能力的 MLLM 模型。這些模型在圖像描述、視覺問答、目標識別等任務上表現驚艷。但是若進一步觀察其在動態場景下的表現,例如物體運動、相對方向、空間構造變化等復雜空間推理任務,就會發現它們的能力尚不成熟。

當前的主流 MLLM 訓練策略多聚焦于靜態圖像配對和語言生成,而缺乏對物體移動、時序變化、物理交互等空間維度進行系統建模的機制。這直接導致模型雖能“看圖說話”,卻無法“理解空間”,更難以模擬現實世界中的感知與判斷。

空間推理的缺口為何重要?

空間推理不僅關乎技術挑戰,更是模型落地應用的核心門檻。無論是機器人路徑規劃、自動駕駛場景理解,還是智能教育和增強現實交互,準確理解空間結構與動態變化都是不可或缺的能力。一旦模型無法識別物體的相對位置、方向或運動趨勢,其推理結果便失去了對真實世界的可靠映射。

這個缺口不僅影響模型的泛化能力,也限制了多模態 AI 的認知智能演化。因此,補足空間推理能力,構建具備“真正理解力”的 AI,是推動下一代智能體躍升的關鍵一步。

M2-Reasoning:一次通用推理與空間推理的融合突破

刷新八項 SOTA!螞蟻集團M2如何重塑多模態推理邊界-AI.x社區

就在此背景下,由 Inclusion AI 與螞蟻集團聯合發布的 M2-Reasoning-7B 成為焦點。這不是一次簡單的模型堆疊,而是一場融合通用認知與空間感知能力的架構重塑。該模型以“統一推理體系”為核心理念,從底層數據構建到策略設計全面強化模型在兩大維度的推理表現。

它的“冷啟動 + RLVR 強化學習”雙階段訓練機制,以及“邏輯鏈生成 + 指令獎勵”組合策略,不僅實現了對復雜多模態任務的穩態學習,更在 8 項公開基準測試中刷新了領域 SOTA(最先進水平),實證了其推理廣度與精度的協同躍遷。

刷新八項 SOTA!螞蟻集團M2如何重塑多模態推理邊界-AI.x社區

圖1 M2-Reasoning-7B的基準性能。

值得關注的是,M2-Reasoning 背后的團隊本身就是 AI 開源生態中的先鋒力量。Inclusion AI 是螞蟻集團旗下專注于通用人工智能(AGI)研究的機構,強調公平、透明、可復現的技術路徑,其 RL Lab 與數據智能實驗室在多模態推理、強化學習領域積累深厚。團隊成員來自清華大學、螞蟻集團超級計算團隊等單位,在模型結構設計、數據工程與交互推理等方面具備跨領域優勢。

在 M2-Reasoning 中,他們不僅融匯了 Qwen 系列語言模型的建模優勢,還大膽探索了視覺推理的細粒度評估機制,并提出了指數衰減數值獎勵(EDNM)等創新方式,為當前 MLLM 推理框架帶來結構性變革。

模型主頁:https://huggingface.co/inclusionAI/M2-Reasoning

源代碼倉庫:https://github.com/inclusionAI/M2-Reasoning

組織主頁:https://github.com/inclusionAI

01 M2-Reasoning-7B 模型概覽

在多模態大語言模型邁向認知智能的新階段,M2-Reasoning-7B 不再只是一個模型參數堆疊的產物,它像是一套“系統化推理引擎”,打通了通用邏輯與空間理解的核心通路。

模型定位與核心能力

定位上,M2-Reasoning-7B 是一款專門為通用推理與空間推理而設計的中型多模態大語言模型(MLLM)。與傳統模型不同,它不僅要“看懂圖文、說出答案”,更需要“理解抽象邏輯”、“洞察動態空間”,將模型從語言生成器提升為現實感知者與思維模擬者。

它的能力橫跨兩個維度。

通用推理:包括數學、邏輯、科學等抽象任務,能夠處理復雜的因果鏈與語義演繹過程。

空間推理:能理解圖像與視頻中物體的位置、大小、方向、出現順序等時空邏輯,模擬真實世界中的動態交互結構。

也就是說,它既能處理“為什么蘋果落地”,也能判斷“哪個物體先從門口出現”。這份跨模態認知,正是 MLLM 邁向智能體化的關鍵轉折。

兩大關鍵創新

高質量數據管線為模型思考注入“真實邏輯血液”

不只是數據多,更重要的是數據“懂思考”。

M2-Reasoning 的數據構建圍繞“邏輯軌跡”與“空間語義”雙線展開,打造出一個兼顧抽象與感知的訓練語料庫。

通用推理數據:引入鏈式思維生成機制(Chain-of-Thought),使用 WeThink-VL-7B 模型進行多樣化推理合成,同時采用 Qwen2.5 系列模型進行質量篩選,評估結構清晰度、認知負載與驗證深度,最終篩選出 168K 條高質量推理鏈。

空間推理數據:設計了涵蓋圖像和視頻的10類任務類型(如相對距離、出現順序、絕對尺寸等),數據采集依賴真實場景與模擬環境,并通過自動標注與模型-人工混合質量驗證,構建出精度與語義并存的數據體。

數據增強機制:將選擇題轉化為填空題、是非題;添加格式指令;打散選項排列規律,避免模型過擬合,這些策略讓數據更“活”、更“難”、更具真實學習價值。

這條數據管線的本質是:不是讓模型“背答案”,而是訓練它“如何思考”,一步步推導而非一躍而解。

動態多任務訓練策略為模型賦予“學習策略腦”

在訓練環節,M2-Reasoning 不再一口氣學習所有任務,而是像人類一樣分階段、逐步進階。

冷啟動微調(SFT):先用結構化的高質量數據穩定模型輸出與基礎推理邏輯。

強化學習階段(RLVR):采用 GRPO 優化器,引入任務獎勵機制,獎勵不僅評估答案是否正確,還關注格式是否規范。尤其在空間推理任務中,創新提出 EDNM 獎勵函數,以指數衰減方式評估數值偏差,引導模型穩定向目標值逼近。

課程式采樣(Curriculum Sampling):根據任務難度排序訓練樣本,讓模型從“入門題”開始,一步步掌握“高階推理”,避免訓練初期陷入復雜邏輯誤區。

動態超參調整:包括對中等難度樣本加權(因其信息最豐富)、KL散度系數余弦退火等策略,確保模型在不同難度區間都能穩定、高效地學習。

這一訓練策略的核心精神是:讓模型像學生一樣,有思路、有節奏、有反饋,真正“理解”每一階段的推理過程,而不是單純地“跑完所有數據”。

02 數據構建策略

在訓練一個真正懂推理的多模態模型之前,數據,不只是基礎,更是靈魂。M2-Reasoning-7B 的誕生,正是基于對數據構建的深入理解與精密布局。研究團隊沒有拘泥于現有開放數據集的局限,而是設計了一套全流程的數據管線——既能激活模型的邏輯思維,又能訓練它識別空間世界中的動態交互。

讓模型“學會思考”的第一課

在這個模塊里,團隊圍繞“通用邏輯能力”的培養展開布局,包括冷啟動微調數據與強化學習階段數據兩大部分。

冷啟動階段:從邏輯鏈出發,構建有結構的思維軌跡

他們并沒有簡單使用開源的圖文推理數據,而是通過鏈式思維生成系統(CoT pipeline),從多個開放數據源中提取多樣推理任務——幾何問題、因果推導、視覺邏輯……再使用 WeThink-VL-7B 模型生成多條推理鏈。

為了確保思維軌跡的質量,他們制定了一整套評估標準:

  • 答案準確性
  • 推理結構完整性
  • 認知引導節奏
  • 驗證環節的豐富度

通過 Qwen2.5-7B 模型進行自動評估,并輔以人工審查,最終構建出 168K 條高質量推理數據。這些數據不僅“有答案”,更“有過程”,真正讓模型從邏輯路徑中學習思考。

強化學習階段:挑選“既難又值練”的題目

在 RLVR 階段,模型需要面對更復雜的任務。團隊首先對每條訓練樣本進行“難度評分”——基于多個模型回答的準確率計算任務難度,剔除過易或過難的極端樣本,保留最具信息密度的數據。

這套方法的精髓在于:讓模型學習“有挑戰性的任務”,而不是“可以輕松猜測的題目”。最終留下的樣本,正是那些能激發模型推理潛力的關鍵訓練素材。

空間推理數據賦予模型“視覺理解力”的另一只眼睛

從圖像到視頻,從靜態到動態,空間理解任務可謂最具挑戰性。M2-Reasoning 團隊在這一塊的設計尤為扎實。

從像素到三維結構的自動注釋

他們先對真實圖像進行處理,提取深度圖、分割圖、法向圖、相機參數等底層視覺數據,進一步構建出三維點云、物體邊界框與標簽信息。而在模擬數據中,則采用內建注釋直接生成結構化標簽。

基于這些視覺元素,團隊設計了10種任務類型,例如:

  • 相對距離判斷
  • 出現順序識別(視頻)
  • 物體大小感知
  • 絕對位置定位……

每類任務都有專門的問題生成邏輯與篩選機制,確保語義清晰、關系明確、目標合理。例如在“Relative Distance”任務中,模型必須判斷哪個物體離參考點更近——而這背后已排除多實例物體、平面結構干擾等可能導致歧義的因素。

數據增強與質量驗證:讓模型“看清每一處細節”

空間數據不僅結構復雜,還容易產生偏見。因此團隊針對每條數據進行了三重增強。

問題類型轉換:多選題轉為填空題或是非題

指令增強:嵌入單位要求、格式規范,引導模型學習規范表達

分布擾動:打亂選項順序,消除模型對“選項位置”的盲目依賴

質量驗證方面,他們結合 Qwen2.5-VL-32B 模型進行自動評分,并輔以人工抽樣評估,確保每條樣本都在認知層面具備學習價值。

數據配置總覽:從入門到高階,全周期覆蓋

刷新八項 SOTA!螞蟻集團M2如何重塑多模態推理邊界-AI.x社區

圖2:冷啟動和RLVR期間的數據配置概述

整個訓練過程分為兩個階段。

冷啟動階段:使用330萬圖文對 + 290萬純文本數據進行模型激活,其中包含大量非推理數據用于保持模型語言基礎能力。

RLVR階段:引入結構化小規模數據(尤其是數學、科學與空間任務),專注推理能力的精細調整與優化。

這套從低階到高階、從靜態到動態的訓練路徑,像一條課程設計嚴謹的智能成長之路。從啟蒙、探索,到認知升維,為 M2-Reasoning 模型奠定了深厚的推理基礎。

03 訓練方法詳解

在通用與空間推理融合的大模型設計中,訓練策略的巧思往往決定了模型的思維廣度與認知深度。M2-Reasoning-7B 的訓練過程不僅是一場算法層面的博弈,更是一套模擬人類學習行為的精密教學系統。接下來,我們將揭開它背后的教學邏輯,看看如何一步步把“泛感知”的模型打磨成“能思考”的智能體。

刷新八項 SOTA!螞蟻集團M2如何重塑多模態推理邊界-AI.x社區

圖3: M2 Reasoning的模型架構基于Qwen2.5-7B語言模型構建,并包含一個本地分辨率視覺編碼器。值得注意的是,該圖省略了通常用于連接視覺編碼器和語言模型的MLP投影儀。

雙階段訓練框架:先打地基,再造思維

在 M2 的架構里,訓練分為冷啟動和強化學習兩個階段,每個階段都有不同的教學目的與技術手段。

冷啟動監督微調階段

這個階段的核心目標是“激活模型潛能,穩定輸出結構”。M2 團隊使用高質量的通用推理數據,通過有監督的方式進行微調,確保模型能理解結構化的推理路徑,并形成穩定的<think> 和 <answer> 格式。這不僅為后續 RLVR 奠定語義基礎,也避免模型在早期就陷入邏輯混亂。

多任務 RLVR 強化學習階段

進入第二階段,模型開始接受真正“開放世界”式的訓練。此時引入了Reinforcement Learning with Verifiable Rewards(RLVR),目標是引導模型建立正確的推理方式,而不僅僅是“猜對答案”。M2 采用 GRPO 優化策略,并引入了任務獎勵和格式獎勵的雙重信號,強化推理過程與輸出規范的雙向表現。

刷新八項 SOTA!螞蟻集團M2如何重塑多模態推理邊界-AI.x社區

更妙的是,他們還改進了 GRPO 的損失函數結構,引入了動態超參數機制,讓模型訓練過程可隨任務復雜度調整,最大化推理精度與樣本效率。

課程式采樣與動態優化:模仿人類的學習節奏

M2-Reasoning 并不強迫模型一次吃下所有知識,而是采用“逐步進階”的策略來構建訓練流程。

課程式采樣策略

靈感源自人類學習行為——先學簡單概念,再慢慢進入難題。M2 團隊離線計算了所有任務的難度分布,然后將樣本按難度升序排序,構成一個層級遞進的“課程體系”。在 RLVR 階段,模型從“啟蒙題”出發,逐步接受更復雜的推理挑戰,實現推理能力的自然擴張。

動態超參數與余弦退火機制

而在采樣之外,訓練過程中的參數控制也精妙得如同“量身定制”。他們引入了優勢加權機制——對于“最有信息密度”的中等難度任務,賦予更高訓練權重;而對于訓練曲線的穩定性,則采用余弦退火策略動態調整 KL 懲罰系數,讓模型既能穩住簡單任務,也敢于探索復雜推理的邊界。

這一組合拳讓訓練節奏不再僵硬,而是與模型認知成長同步,真正實現了“推理驅動的教學反饋”。

任務專屬獎勵機制:讓模型更懂“怎么思考”與“答得對”

M2 不只是評估“答對了嗎”,還關心“有沒有想清楚”。

通用推理:精準匹配機制

在數學和邏輯任務中,模型需要面對各種不同格式的回答:有選擇題、有填空題、有數學表達式,還有自然語言答案。M2 團隊構建了一套精確的獎勵函數體系,涵蓋字母匹配、數值匹配、字符串抽取與表達式驗證(結合 Math-Verify1 工具),并考慮了格式容錯性(區分大小寫、標點等),以實現對“答案正確性”的全面捕捉。

空間推理:EDNM 平滑獎勵機制

而在空間任務中,面對那些需要預測“距離”、“大小”、“深度”等數值的填空題,傳統的對錯判斷顯得太粗糙。為此,M2 提出了 Exponential Decay Numeric Matching(EDNM)機制。

刷新八項 SOTA!螞蟻集團M2如何重塑多模態推理邊界-AI.x社區

圖4:不同超參數λ值的EDNM獎勵函數的可視化。

它是一種平滑的連續獎勵函數——即使預測值偏離真實答案,也會根據相對誤差給予逐漸衰減的獎勵。這避免了模型在早期訓練中因“一次答錯而無獎勵”而喪失學習動力,同時也鼓勵模型向更精確的方向穩步優化。

EDNM 的最大優勢是:它為“空間感知”提供了柔性引導,而不是剛性打分,適應了多模態學習中的不確定性與模糊邊界。

04 實驗與性能評估

當一個模型試圖既理解語言中的抽象邏輯,又洞察圖像與視頻中的空間信息時,我們期待的不只是“準確回答”,而是看它是否真正“具備推理智能”。M2-Reasoning-7B,正是在這一標準下交出了一張令人矚目的成績單。

通用推理評估

在數學與邏輯領域,M2-Reasoning-7B 參與了六項權威基準測試,包括 MathVista、MathVision、MathVerse、DynaMath、WeMath 和LogicVista。這些任務考驗的不只是算術能力,更要求模型理解復雜公式、圖文結合的題目語境,以及多步驟的邏輯演繹過程。

成果令人振奮:在所有測試中,M2-Reasoning 以 45.0 的平均得分刷新了同類基礎規模 MLLM 的最高紀錄,擊敗 InternVL3-8B、WeThink-VL-7B 等一眾主流模型。其中,在 MathVista 和 DynaMath 這兩個難度最高的子項中,它分別獲得 75.0 和 26.8 的頂尖分數,展現出對復雜數學推理任務的扎實理解力。

或許更有價值的是,它不僅在結果上領先,更在思維結構上表現出了清晰的推理鏈條。這意味著,它不僅“知道答案”,更“理解過程”。

刷新八項 SOTA!螞蟻集團M2如何重塑多模態推理邊界-AI.x社區

表1 MLLM在一般多模態推理基準上的性能。基本規模MLLM的最佳和次佳結果分別以粗體和下劃線表示。?表示相對于相應基礎模型的性能改進。所有分數均來自OpenCompass排行榜。

空間推理評估

接下來進入視覺空間領域,M2-Reasoning 在圖像推理基準 CV-Bench 和視頻想象力評估 VSI-Bench 上也展開了全面測試。

在 CV-Bench 中,它奪得平均分 82.3 的第一名,略超 InternVL3-8B 的 82.0。其中,Relation(關系判斷)高達 92.8,Depth(深度理解)為 89.3,Distance(距離識別)達 84.3,均為當前最優表現。這代表它在二維圖像中準確識別物體的相對結構與空間布局,具備“空間建模”能力。

而在更具挑戰性的視頻空間想象基準 VSI-Bench 中,M2-Reasoning 獲得平均分 42.3,僅次于大規模模型 Gemini-1.5-pro,并優于 InternVL3-8B。這一成績并非偶然,它在 RoomSize(房間大小判斷)和 RelativeDirection(方向判斷)兩個子任務上創下新紀錄,展現出對動態時空邏輯的出色理解力。

值得一提的是,它在對物體大小、出現順序等細粒度問題上也表現穩健——這類任務通常難以捕捉明確標簽,但 M2-Reasoning 的推理能力使其在“含糊的世界中也能做出清晰判斷”。

SOTA 對比分析

雖然 M2-Reasoning-7B 的參數量屬于基礎規模,但它在多個基準測試中成功挑戰甚至超越了大模型如 GPT-4O 與 Gemini-1.5 的部分表現,特別是在結構清晰的推理任務中展現出了“效率與深度并重”的特色。

這揭示了一個關鍵趨勢:在 MLLM 的新時代里,優秀模型不再只是靠規模取勝,更依賴于合理的數據設計、任務增強機制與策略化訓練方法。而 M2 的雙軌推理融合、多維獎勵機制和課程式學習路徑,就是它在眾多模型中脫穎而出的“秘密武器”。

05 結論與展望

在經歷了數據構建、訓練策略和實驗驗證的一系列技術剖析之后,我們終于可以坐下來看看這篇論文的核心價值所在——M2-Reasoning-7B 究竟帶來了什么改變,它的未來又將走向哪里。

一次多模態推理的協同躍遷

M2-Reasoning-7B 最大的貢獻在于,將通用邏輯推理和視覺空間理解這兩個原本割裂的能力,通過統一架構整合為一個高效協作的推理系統。

這不是簡單的功能疊加,而是一種從數據、策略到模型表達的深度融合。它用高質量、結構化的數據管線搭建認知地基,再以逐步優化和任務獎勵機制塑造推理路徑,從而讓模型不僅“看得到”,更“理解得了”。這份能力,在 8 個多模態推理任務的基準測試中成功打破行業 SOTA,證明了思路的前瞻性與技術的實用性。

值得一提的是,它的設計并非追求參數規模的極限,而是通過策略性數據篩選與訓練節奏把握,在基礎規模下實現性能突破,這為資源受限的場景提供了新思路。

模型也有“短板”

當然,如同每一個優秀系統一樣,M2-Reasoning-7B 也并不完美。它的幾個局限成為未來優化的關鍵方向。

推理深度有限:相比專注語言推理的模型如 DeepSeek-R1,M2 在推理鏈長度上稍顯遜色。這意味著它在處理多層次因果關系或邏輯演繹時,容易走得淺而快,但不夠深入。

重復生成傾向:在某些回答過程中,它可能出現病態重復,陷入邏輯循環。這類問題可能源于生成過程中的穩定性波動,亟需在解碼策略上進行更細致的約束與優化。

視覺感知精度不穩定:盡管總體空間理解能力優秀,但在處理細粒度視覺元素時仍偶有誤判甚至虛構現象。這提示我們:多模態模型在感知與語義融合之間還有更廣闊的精度提升空間。

M2已經不是一個嘗試性的實驗模型,而是一次實證了“融合推理”的范式轉變。下一步,或許我們將看到它延伸到機器人導航系統、AI 教學引擎,甚至 Web3 分布式智能體的邊緣推理節點之中。(END)

參考資料:???https://arxiv.org/pdf/2507.08306??

收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 国产欧美一区二区三区另类精品 | 亚洲国产精品一区 | 成人一区av | 九九热在线视频免费观看 | 成年人精品视频 | 中文字幕亚洲视频 | 精品国产欧美 | 亚洲成人精品国产 | 国产黄色大片 | 亚洲成人黄色 | 欧美三级久久久 | 三级黄色片在线 | 自拍偷拍3p | 男女免费网站 | 美女久久 | 欧美一区二区三区视频 | 国产91观看| 色橹橹欧美在线观看视频高清 | 亚洲视频观看 | 国产精品不卡一区 | 91久久精品国产91久久性色tv | 亚洲欧美中文日韩在线v日本 | 91在线看 | 在线日韩不卡 | 日韩欧美一级 | 亚洲精品乱码久久久久久按摩 | 日韩无| 久久久久久亚洲精品 | 久久精品色欧美aⅴ一区二区 | 国产成人精品免高潮在线观看 | 国产精品高潮呻吟久久av黑人 | 久久99精品久久久久久 | 国产精品99久久久久久宅男 | 中文字幕av一区 | 操人网 | 操网站 | 精品国产一区二区国模嫣然 | 亚洲人成人一区二区在线观看 | 午夜手机在线视频 | 亚洲国产精品视频 | 久久精品色欧美aⅴ一区二区 |