單一Transformer逆襲多模態,秒殺ViT架構,輕松挑戰LLaVA!
一眼概覽
SAIL提出了一種統一的單Transformer多模態大模型架構,無需視覺編碼器,僅憑混合注意力機制即可實現媲美模塊化模型的圖文理解與視覺任務表現。
核心問題
當前主流多模態大模型采用模塊化架構(如CLIP-ViT + LLM),盡管性能強大,但存在模型分裂、部署復雜和視覺編碼器依賴等問題。該研究試圖解決:是否能用一個Transformer模型統一處理圖像和文本,簡化架構的同時保持或提升多模態性能?
技術亮點
1. 架構極簡:SAIL摒棄視覺編碼器,將圖像與文本作為統一序列輸入單一Transformer處理,打破圖文模態界限;
2. 混合注意力機制:圖像patch使用雙向注意力,文本保持因果注意力,提升跨模態對齊與視覺感知能力;
3. 強視覺能力涌現:僅通過圖文預訓練,SAIL在圖像分類與語義分割中表現出媲美ViT-22B的能力,展現其潛在的視覺主干功能。
方法框架
圖片
SAIL方法流程如下:
1. 統一輸入構建:將圖像切成patch投影為向量,嵌入特殊標記,與文本序列拼接后送入統一Transformer;
2. 混合注意力應用:圖像patch之間啟用全連接雙向注意力,文本保持因果注意力,實現高效圖文融合;
3. 位置編碼設計:采用多模態RoPE,對圖像使用二維位置嵌入,對文本使用一維編碼,統一空間表示;
4. 兩階段預訓練策略:
? 階段一:標準尺寸圖像+文本混合訓練,加速視覺感知;
? 階段二:任意分辨率圖像+文本,增強泛化能力;
5. 監督微調:使用多源指令數據,優化語言理解與對話能力。
實驗結果速覽
1. 多模態基準表現(Table 2):
? 在13項圖文任務中,SAIL超過所有單Transformer架構,部分任務逼近模塊化模型如LLaVA-OneVision。
2. 視覺任務性能(Table 3-5):
? ImageNet Top-1:84.95%;
? ADE20K語義分割mIoU:55.30%;
? ARO屬性、關系、順序理解任務:全部達到100%準確率。
3. 可擴展性分析(Figure 1 & 3):
? 數據規模提升時,SAIL性能增速高于模塊化模型;
? 模型規模從0.5B擴展到7B時,訓練損失顯著下降,任務表現持續提升。
實用價值與應用
SAIL可廣泛應用于圖文問答、圖像字幕生成、OCR文本理解、圖像分類與分割等任務。其架構簡潔、計算效率高,尤其適合資源受限場景、移動端推理部署,或需要靈活擴展的多模態AI系統。
開放問題
? SAIL在知識密集型任務中略遜于模塊化模型,如何增強其通識世界知識理解能力?
? 雙向注意力機制是否適用于視頻等更復雜模態的統一建模?
? 如果引入更強的文本生成監督,SAIL是否能在生成質量上進一步提升?