成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

o1的風又吹到多模態,直接吹翻了GPT-4o-mini

發布于 2024-11-19 14:49
瀏覽
0收藏

開源LLaVA-o1:一個設計用于進行自主多階段推理的新型VLM。與思維鏈提示不同,LLaVA-o1獨立地參與到總結、視覺解釋、邏輯推理和結論生成的順序階段。

LLaVA-o1超過了一些更大甚至是閉源模型的性能,例如Gemini-1.5-proGPT-4o-miniLlama-3.2-90B-Vision-Instruct

o1的風又吹到多模態,直接吹翻了GPT-4o-mini-AI.x社區

基礎模型與LLaVA-o1的比較。基礎模型Llama-3.2-11B-Vision-Instruct在推理過程中有明顯的缺陷,整個推理過程中出現了幾個錯誤。相比之下,LLaVA-o1首先概述問題,從圖像中解釋相關信息然后進行逐步推理過程,并最終得出一個有充分支持的結論

o1的風又吹到多模態,直接吹翻了GPT-4o-mini-AI.x社區

LLaVA-o1如何煉成

LLaVA-o1模型的結構化推理框架,專門的數據集和訓練方法,以及推理時的階段性束搜索策略,來提高模型在復雜任務中的推理能力和擴展性。

  1. 結構化推理階段:
  • 總結階段(Summary Stage):LLaVA-o1在這一階段提供對問題的高層次總結,概述它打算解決的問題的主要方面。
  • 圖像描述階段(Caption Stage):如果存在圖像,LLaVA-o1提供與問題相關的圖像元素的簡潔概述,幫助理解多模態輸入。
  • 推理階段(Reasoning Stage):在初始總結的基礎上,LLaVA-o1進行結構化、邏輯推理,得出初步答案。
  • 結論階段(Conclusion Stage):在最后階段,LLaVA-o1根據前面的推理綜合答案。結論階段的輸出是直接提供給用戶的響應,而前三個階段是內部的“隱藏階段”,代表LLaVA-o1的推理過程。
  • 四對特殊標簽:<SUMMARY></SUMMARY>、<CAPTION></CAPTION>、<REASONING></REASONING>和<CONCLUSION></CONCLUSION>
  1. 數據準備和模型訓練:
  • 由于現有的視覺問題回答(VQA)數據集缺乏訓練LLaVA-o1所需的詳細推理過程,研究者們編譯了一個新的數據集LLaVA-o1-100k,整合了多個廣泛使用的VQA數據集的樣本。
  • 使用GPT-4o生成包括總結、圖像描述、推理和結論的詳細推理過程,并將這些編譯成LLaVA-o1-100k數據集。
  • 選擇了Llama-3.2-11B-Vision-Instruct模型作為基礎模型,并使用LLaVA-o1-100k數據集進行全參數微調。

o1的風又吹到多模態,直接吹翻了GPT-4o-mini-AI.x社區

  1. 有效的推理時擴展使用階段性束搜索:
  • 訓練完成后的目標是在推理期間進一步增強模型的推理能力。LLaVA-o1的輸出設計為結構化,提供了理想的粒度,用于推理時擴展。
  • 采用階段性束搜索方法,該方法在每個推理階段生成多個候選結果,并選擇最佳結果以繼續生成過程。
  • 通過在每個階段進行有效的驗證,這種方法驗證了結構化輸出在提高推理時擴展中的有效性。

推理方法的示意圖最佳選擇法(Best-of-N search)生成N個完整的響應,并從中選擇最好的一個;句子級束搜索(Sentence-level Beam Search)為每個句子生成多個候選項并選擇最好的一個。相比之下,LLaVA-o1的階段性束搜索(Stage-level Beam Search)為每個推理階段(例如,總結、標題、推理和結論)生成候選項,并在每個階段選擇最佳選項。最佳選擇法在粗略層面上操作,而句子級束搜索過于細致,而LLaVA-o1的方法實現了最佳平衡并取得了最佳性能。

o1的風又吹到多模態,直接吹翻了GPT-4o-mini-AI.x社區

有無階段性束搜索的LLaVA-o1性能比較。LLaVA-o1的階段性束搜索在模型推理過程中有效地選擇了更好的推理。

o1的風又吹到多模態,直接吹翻了GPT-4o-mini-AI.x社區

實驗數據

  • LLaVA-o1在多模態推理基準測試中相較于其基礎模型Llama-3.2-11B-Vision-Instruct實現了8.9%的性能提升。
  • LLaVA-o1在各種基準測試中不僅超越了基礎模型,還超過了一些更大甚至是閉源模型,例如Gemini-1.5-pro、GPT-4o-mini和Llama-3.2-90B-Vision-Instruct。
  • 結構化標簽(structured tags)對于模型性能至關重要。去除這些標簽后,模型性能顯著下降,說明這些標簽有助于推理過程并提高了模型性能。

o1的風又吹到多模態,直接吹翻了GPT-4o-mini-AI.x社區

o1的風又吹到多模態,直接吹翻了GPT-4o-mini-AI.x社區


https://arxiv.org/pdf/2411.10440
LLaVA-o1: Let Vision Language Models Reason Step-by-Step
https://github.com/PKU-YuanGroup/LLaVA-o1

本文轉載自??PaperAgent??

已于2024-11-19 14:50:43修改
收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 一区二区三区四区在线视频 | 黄色成人免费看 | 欧美另类视频 | 国产一区二 | 久久精品99 | 国产欧美日韩一区二区三区在线 | 欧美在线视频网 | 成人一区av | 亚洲精品免费视频 | 欧美美乳 | 日韩精品久久久 | 色免费看 | 东方伊人免费在线观看 | 亚洲v区| 国产成人免费视频网站高清观看视频 | 国产免费黄网 | 国产成人精品免费 | 超碰美女在线 | 久久小视频 | 成人精品系列 | 国产成人精品一区二 | 天堂精品| 亚洲欧洲在线看 | 特级做a爰片毛片免费看108 | 日韩在线h | 狠狠撸在线视频 | 综合久久综合久久 | 成人激情视频在线观看 | 欧美 中文字幕 | 一区二区三区中文字幕 | 国产视频一区二区 | 亚洲精品国产第一综合99久久 | 国产精品久久久久久久午夜片 | 2019天天干天天操 | 精品欧美一区二区精品久久久 | 国产一级一片免费播放 | 成人av电影免费在线观看 | 成人免费福利视频 | 欧美亚洲国产日韩 | 综合久久久 | 国产激情视频在线免费观看 |