o1的風又吹到多模態,直接吹翻了GPT-4o-mini
開源LLaVA-o1:一個設計用于進行自主多階段推理的新型VLM。與思維鏈提示不同,LLaVA-o1獨立地參與到總結、視覺解釋、邏輯推理和結論生成的順序階段。
LLaVA-o1超過了一些更大甚至是閉源模型的性能,例如Gemini-1.5-pro、GPT-4o-mini和Llama-3.2-90B-Vision-Instruct。
基礎模型與LLaVA-o1的比較。基礎模型Llama-3.2-11B-Vision-Instruct在推理過程中有明顯的缺陷,整個推理過程中出現了幾個錯誤。相比之下,LLaVA-o1首先概述問題,從圖像中解釋相關信息,然后進行逐步推理過程,并最終得出一個有充分支持的結論。
LLaVA-o1如何煉成
LLaVA-o1模型的結構化推理框架,專門的數據集和訓練方法,以及推理時的階段性束搜索策略,來提高模型在復雜任務中的推理能力和擴展性。
- 結構化推理階段:
- 總結階段(Summary Stage):LLaVA-o1在這一階段提供對問題的高層次總結,概述它打算解決的問題的主要方面。
- 圖像描述階段(Caption Stage):如果存在圖像,LLaVA-o1提供與問題相關的圖像元素的簡潔概述,幫助理解多模態輸入。
- 推理階段(Reasoning Stage):在初始總結的基礎上,LLaVA-o1進行結構化、邏輯推理,得出初步答案。
- 結論階段(Conclusion Stage):在最后階段,LLaVA-o1根據前面的推理綜合答案。結論階段的輸出是直接提供給用戶的響應,而前三個階段是內部的“隱藏階段”,代表LLaVA-o1的推理過程。
- 四對特殊標簽:<SUMMARY></SUMMARY>、<CAPTION></CAPTION>、<REASONING></REASONING>和<CONCLUSION></CONCLUSION>
- 數據準備和模型訓練:
- 由于現有的視覺問題回答(VQA)數據集缺乏訓練LLaVA-o1所需的詳細推理過程,研究者們編譯了一個新的數據集LLaVA-o1-100k,整合了多個廣泛使用的VQA數據集的樣本。
- 使用GPT-4o生成包括總結、圖像描述、推理和結論的詳細推理過程,并將這些編譯成LLaVA-o1-100k數據集。
- 選擇了Llama-3.2-11B-Vision-Instruct模型作為基礎模型,并使用LLaVA-o1-100k數據集進行全參數微調。
- 有效的推理時擴展使用階段性束搜索:
- 訓練完成后的目標是在推理期間進一步增強模型的推理能力。LLaVA-o1的輸出設計為結構化,提供了理想的粒度,用于推理時擴展。
- 采用階段性束搜索方法,該方法在每個推理階段生成多個候選結果,并選擇最佳結果以繼續生成過程。
- 通過在每個階段進行有效的驗證,這種方法驗證了結構化輸出在提高推理時擴展中的有效性。
推理方法的示意圖。最佳選擇法(Best-of-N search)生成N個完整的響應,并從中選擇最好的一個;句子級束搜索(Sentence-level Beam Search)為每個句子生成多個候選項并選擇最好的一個。相比之下,LLaVA-o1的階段性束搜索(Stage-level Beam Search)為每個推理階段(例如,總結、標題、推理和結論)生成候選項,并在每個階段選擇最佳選項。最佳選擇法在粗略層面上操作,而句子級束搜索過于細致,而LLaVA-o1的方法實現了最佳平衡并取得了最佳性能。
有無階段性束搜索的LLaVA-o1性能比較。LLaVA-o1的階段性束搜索在模型推理過程中有效地選擇了更好的推理。
實驗數據
- LLaVA-o1在多模態推理基準測試中相較于其基礎模型Llama-3.2-11B-Vision-Instruct實現了8.9%的性能提升。
- LLaVA-o1在各種基準測試中不僅超越了基礎模型,還超過了一些更大甚至是閉源模型,例如Gemini-1.5-pro、GPT-4o-mini和Llama-3.2-90B-Vision-Instruct。
- 結構化標簽(structured tags)對于模型性能至關重要。去除這些標簽后,模型性能顯著下降,說明這些標簽有助于推理過程并提高了模型性能。
https://arxiv.org/pdf/2411.10440
LLaVA-o1: Let Vision Language Models Reason Step-by-Step
https://github.com/PKU-YuanGroup/LLaVA-o1
本文轉載自??PaperAgent??
已于2024-11-19 14:50:43修改
贊
收藏
回復
分享
微博
QQ
微信
舉報

回復
相關推薦