9B參數吊打GPT-4V!NVIDIA開源新模型(Eagle 2),竟靠“透明數據”逆襲? 原創
01、概述
近年來,視覺-語言模型(VLMs)在人工智能領域的迅猛發展,極大拓展了機器處理多模態信息的能力。然而,在這項技術的進步背后,依然存在著一些亟待解決的挑戰。像 GPT-4V 和 Gemini-1.5-Pro 這樣的專有模型雖然表現出色,但它們的透明度較低,這限制了它們的適應性和開放性。而開放源代碼的替代模型常常因數據多樣性、訓練方法和計算資源的限制,難以與這些專有模型抗衡。此外,關于后期訓練數據策略的文獻資料相對匱乏,使得這些模型的復制和改進變得困難。
為了解決這些問題,NVIDIA AI 推出了 Eagle 2,一款采用結構化、透明的數據策劃和模型訓練方法的視覺-語言模型(VLM)。Eagle 2 提供了一個全新的視角,讓開放源代碼社區能夠在不依賴專有數據集的情況下,構建具有競爭力的 VLM。
02、Eagle 2:以透明為核心的數據策略
Eagle 2 的最大亮點在于它的開放數據策略。與大多數僅提供訓練權重的模型不同,Eagle 2 詳細介紹了數據收集、過濾、增強和選擇的整個過程。這一做法的目標是為開放源代碼社區提供一套完整的工具,使得社區成員可以在透明的框架下開展自己的 VLM 開發工作,而不再依賴于封閉的專有數據集。
Eagle2-9B 是 Eagle 2 系列中最先進的模型,其性能已經能夠與一些擁有 70B 參數的模型媲美,證明了在優化后期訓練數據策略的同時,不必消耗過多的計算資源。
03、Eagle 2 的三大創新亮點
Eagle 2 的成功,離不開以下三大創新:
1) 數據策略:多樣性優先,質量為先
Eagle 2 的數據策劃遵循 “多樣性優先,質量為先” 的原則。首先,從超過 180 個數據源中采集數據,隨后通過篩選和選擇進行精煉。在這個過程中,Eagle 2 引入了詳細的數據處理流程,包括錯誤分析、鏈式思維(CoT)推理、基于規則的問答生成以及數據格式化,旨在提高訓練效率。
2) 三階段訓練框架:逐步提升模型能力
Eagle 2 的訓練方法分為三個階段,每個階段都在強化模型的不同能力:
- 階段 1:通過訓練多層感知器(MLP)連接器,調整視覺和語言的跨模態對接。
- 階段 1.5:引入更大規模的數據,進一步夯實模型的基礎。
- 階段 2:使用高質量的指令調優數據集對模型進行微調,提升其在實際應用中的表現。
3) Tiled Mixture of Vision Encoders(MoVE)架構
Eagle 2 采用了兩種視覺編碼器——SigLIP 和 ConvNeXt,結合高分辨率的切片方法確保在處理圖像時,能夠高效地保留細粒度的圖像細節。此外,Eagle 2 還通過一種平衡意識的貪心背包方法優化了數據打包,提高了樣本效率,同時減少了訓練成本。
04、Eagle 2 的性能與基準測試
Eagle 2 經歷了嚴格的性能測試,展現了出色的多項基準測試表現:
- DocVQA:Eagle2-9B 在該任務中達到了 92.6% 的準確率,超越了 InternVL2-8B(91.6%)和 GPT-4V(88.4%)。
- OCRBench:在該任務中,Eagle 2 取得了 868 分,超越了 Qwen2-VL-7B(845)和 MiniCPM-V-2.6(852),展示了其在文本識別方面的強大能力。
- MathVista:Eagle 2 的表現較基準提升了超過 10 個點,進一步驗證了三階段訓練方法的有效性。
- 多模態推理任務(如 ChartQA 和 OCR QA):Eagle 2 在這些任務中也表現出色,超越了 GPT-4V。
此外,Eagle 2 的訓練過程經過優化,采用了先進的子集選擇技術,將數據集的規模從 1270 萬樣本減少至 460 萬樣本,同時保持了準確性,并提高了數據利用效率。
05、總結:Eagle 2 —— 更具透明度和開放性的 VLM 解決方案
Eagle 2 的發布,標志著在使高性能視覺-語言模型更加可訪問和可復制方面邁出了重要一步。通過強調透明的數據驅動方法,Eagle 2 在開放源代碼社區與專有模型性能之間架起了橋梁。它在數據策略、訓練方法和視覺架構上的創新,使其成為研究人員和開發者的理想選擇。
通過公開分享其方法論,NVIDIA AI 不僅促進了一個協作的人工智能研究環境,還使得社區成員可以在此基礎上進一步創新,而不必依賴封閉的源代碼模型。隨著人工智能技術的不斷演進,Eagle 2 將成為思考數據策劃和訓練策略如何推動 VLM 發展的典范。
本文轉載自公眾號Halo咯咯 作者:基咯咯
原文鏈接:??https://mp.weixin.qq.com/s/OI0ykpgOR9v6h2RawYW-6Q??
