成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

AI.x社區

登錄/注冊
51CTO

中國優質的IT技術網站

51CTO博客

專業IT技術創作平臺

51CTO學堂

IT職業在線教育平臺

快手Kwai Keye-VL多模態大模型模型架構、訓練策略、數據情況原創

大模型自然語言處理

發布于 2025-7-8 09:36

瀏覽

0收藏

模型架構

快手Kwai Keye-VL多模態大模型模型架構、訓練策略、數據情況-AI.x社區

Keye-VL和經典的MLLM架構類似，由ViT+MLP+LLM組成。視覺側有兩點可以看看：

1、具有原生分辨率的視覺編碼器

提到，MLLMs使用預訓練的固定分辨率ViT作為視覺編碼器。然而，這些ViT通常是為處理粗粒度的圖像-文本匹配任務而設計的，而MLLMs需要處理更細粒度的生成任務。因此，Kwai Keye-VL模型實現了一個原生分辨率的ViT，以自然地處理原始分辨率的圖像，避免復雜的圖像拼接或分割操作。

具體實現，Kwai Keye-VL的ViT是基于SigLIP-400M-384-14進行初始化。為了保持圖像的結構完整性和細節，模型采用了插值技術將固定的位置嵌入擴展為自適應分辨率的位置嵌入，并引入了二維旋轉位置嵌入（RoPE）來增強視覺信息的建模能力。

2、視覺編碼

為了確保語言解碼器能夠充分感知和理解圖像和視頻中的視覺信號，模型為圖像和視頻建模保留了足夠的token緩沖區。

對于不同分辨率的圖像，每個圖像的總token數設置為16384，這足以覆蓋超過一百萬像素的圖像，并幫助模型在大多數情況下看到圖像的細節。對于視頻建模，模型設計了一種動態分辨率策略，平衡了最大幀數和總token數。

訓練策略

預訓練

1、訓練數據概述

模型使用了超過600B token，來源包括公共數據集和專有的內部數據。訓練數據主要涵蓋六個類別：圖像字幕、OCR和VQA、定位和計數、交錯文本-圖像、視頻理解和純文本數據。

2、預訓練管道

預訓練采用了四階段的漸進式訓練策略，如下圖：

快手Kwai Keye-VL多模態大模型模型架構、訓練策略、數據情況-AI.x社區

階段0：視覺預訓練
預訓練視覺編碼器，以使其適應內部數據分布并支持動態分辨率。
階段1：跨模態對齊
語言模型從Qwen3-8B初始化，在此階段，視覺和語言模型的參數被凍結，專注于優化投影MLP層。通過大規模數據集建立跨模態特征的強對齊，為后續學習階段奠定基礎。
階段2：多任務預訓練
解凍所有模型參數，進行端到端的優化，使用多樣化的多任務訓練數據。數據涵蓋了常見的視覺-語言任務，如圖像字幕、OCR、定位、VQA和交錯圖像-文本數據，顯著增強了模型的基本視覺理解能力。
階段3：退火
在此階段，模型在精選的高質量數據上進行微調，目標是解決在大規模訓練中缺乏高質量樣本暴露的問題。通過優化的學習策略和數據混合，進一步細化模型的細微理解能力。
模型合并
在預訓練的最后階段，探索同質-異質合并技術，通過平均不同數據混合的模型權重，減少整體偏差并增強模型魯棒性。

后訓練

快手Kwai Keye-VL多模態大模型模型架構、訓練策略、數據情況-AI.x社區

后訓練過程分為兩個階段，訓練模型的綜合能力。初始階段專注于建立自然圖像理解和文本交互的基礎性能，后續階段則集中于逐步增強模型的復雜推理能力。

1、無推理訓練：建立基礎性能

這一階段通過兩個連續步驟建立模型在非推理場景中的核心性能和穩定性。由sft+mpo兩步驟構成，

1.1、SFT

SFT數據候選池包含超過500萬個多模態QA樣本。為了確保任務的多樣性和數據的質量，采取了以下方法：

任務多樣性：使用TaskGalaxy框架，將數據分類為70,000種不同的多模態任務類型。
數據挑戰性：通過MLLMs生成多個推理路徑，測量每個樣本的復雜性，過濾過于簡單的樣本。
數據可靠性：人類注釋者為訓練集中的圖像和視頻精心制作字幕。

訓練策略包括動態學習率，并在訓練后期進行退火處理，以提高性能。

1.2、混合偏好優化（MPO）

MPO可以看看前期文章（《???多模態偏好數據集生成與混合偏好優化（MPO）方法??》），這里不展開。

在SFT之后，模型通過MPO進一步優化其性能。數據集包括開源樣本、重建偏好樣本、自我改進樣本、僅文本樣本和人類注釋樣本。MPO算法用于優化模型在非推理環境中的整體性能。

2、推理訓練：復雜認知

快手Kwai Keye-VL多模態大模型模型架構、訓練策略、數據情況-AI.x社區

這一階段通過引入混合模式的CoT冷啟動和強化學習機制，顯著增強模型的多模態感知、推理和“思考與圖像”能力。分下面三步：

2.1、CoT冷啟動

此步驟初始化模型的鏈式思維能力，結合長CoT數據和指示性數據，促進復雜問題的結構化思考，同時保持開放任務的風格多樣性和響應靈活性。

2.2、混合模式RL

在CoT冷啟動的基礎上，使用RL進一步增強模型的能力，特別是在多模態感知、推理和數學推理方面。通過GRPO算法，模型在短視視頻理解等任務上表現出顯著的性能提升。

2.3、迭代對齊

最后一步通過迭代對齊來解決重復崩潰和邏輯錯誤問題。使用拒絕采樣數據，通過多輪迭代優化模型，使其能夠根據任務難度自動選擇合適的推理模式。

數據概覽

快手Kwai Keye-VL多模態大模型模型架構、訓練策略、數據情況-AI.x社區

階段	子階段	數據集組成	數據類型	數據來源和構建方法
無推理訓練：建立基礎性能	監督微調（SFT）	超過500萬個多模態QA樣本	多樣化的任務類型，包括復雜的推理路徑	使用TaskGalaxy框架分類為70,000種不同的多模態任務類型；通過MLLMs生成多個推理路徑，過濾過于簡單的樣本；人類注釋者為圖像和視頻制作字幕。
	混合偏好優化（MPO）	400,000個開源樣本 50,000個重建偏好樣本 10,000個自我改進樣本 90,000個僅文本樣本 30,000個人類注釋樣本	開源數據、重建偏好數據、自我改進數據、僅文本數據和人類注釋數據	- 開源數據進行簡單去重和過濾，保留400,000個樣本。 - 重建偏好數據：使用現有多模態偏好數據集（如MM-RLHF），并使用開源大模型生成高質量負例。 - 強化微調（RFT）數據：針對SFT模型的弱點構建偏好對。 - 僅文本數據：包括90,000個內部僅文本偏好對。 - 人類注釋數據：使用MM-RLHF流程生成30,000個人類注釋偏好對。
推理訓練：復雜認知的核心突破	CoT冷啟動	330,000個非推理樣本 230,000個推理樣本 20,000個自動推理樣本 100,000個代理推理樣本	長CoT數據和指示性數據，結合推理和非推理數據	結合長CoT數據和指示性數據，促進復雜問題的結構化思考。
	混合模式RL	多模態感知數據多模態推理數據基于文本的數學推理數據代理推理數據	MMPR、MM-Eureka等數據集，DeepEyes數據集中的47,000個樣本	使用MMPR、MM-Eureka等數據集，以及DeepEyes數據集中的樣本，通過GRPO算法增強模型的能力。
	迭代對齊	來自指令跟隨、OCR、數學、圖表、計數、僅文本內容、安全和認知領域的拒絕采樣數據	拒絕采樣數據，用于選擇“好案例”和“壞案例”	通過多輪迭代，選擇“好案例”和“壞案例”來構建偏好對，使用MPO算法更新模型。

實驗

ViT的零樣本圖像分類
公共基準測試

快手Kwai Keye-VL多模態大模型模型架構、訓練策略、數據情況-AI.x社區

參考文獻：Kwai Keye-VL Technical Report，https://arxiv.org/pdf/2507.01949
repo:https://github.com/Kwai-Keye/Keye

本文轉載自???大模型自然語言處理??? 作者：余俊暉

?著作權歸作者所有，如需轉載，請注明出處，否則將追究法律責任

標簽

贊

收藏

回復

舉報

回復

相關推薦

多模態視覺-語言大模型的架構演進

angel ? 5402瀏覽 ? 0回復
多模態大模型不夠靈活，谷歌DeepMind創新架構Zipper：分開訓練再「壓縮」

輕薄滴假象 ? 2970瀏覽 ? 0回復
多模態大模型數據分析與實踐

zhcs333 ? 4770瀏覽 ? 0回復
從OmniGen的數據、模型設計與訓練策略中深度了解多模態統一生成模型

shizhi02 ? 5746瀏覽 ? 0回復
多模態大模型：基礎架構

魯班模錘1 ? 3032瀏覽 ? 0回復
南大&阿里發布多模態大模型WINGS，解決基于LLM的多模態訓練災難遺忘問題

海因斯DK ? 3527瀏覽 ? 0回復
多模態大模型數據構造方法

shizhi02 ? 3385瀏覽 ? 0回復
多模態RAG利器，帶你跑通Qwen2-VL-7B-Instruct大模型

小虎哦哦 ? 3841瀏覽 ? 0回復
多模態RAG利器，帶你跑通Qwen2-VL-7B-Instruct大模型

AI科技論談 ? 4039瀏覽 ? 0回復
OCR-free感知多模態大模型技術鏈路及訓練數據細節

大模型自然語言處理 ? 3279瀏覽 ? 0回復
英偉達NVLM多模態大模型細節和數據集

大模型自然語言處理 ? 2913瀏覽 ? 0回復
DeepSeek多模態大模型Janus、Janus-Pro模型架構及優化方法淺談

大模型自然語言處理 ? 3817瀏覽 ? 0回復
Phi-4-multimodal：圖、文、音頻統一的多模態大模型架構、訓練方法、數據細節

大模型自然語言處理 ? 2550瀏覽 ? 0回復
多模態大模型Ovis核心技術點、訓練方法、數據細節

大模型自然語言處理 ? 2279瀏覽 ? 0回復
Qwen-VL系列多模態大模型技術演進-模型架構、訓練方法、數據細節

大模型自然語言處理 ? 6287瀏覽 ? 0回復
Qwen2.5-VL-32B：多模態大模型的性能與效率新標桿

Halo咯咯 ? 2586瀏覽 ? 0回復
Kimi-VL開源多模態大模型結構、訓練方法、訓練數據淺析

大模型自然語言處理 ? 1995瀏覽 ? 0回復
Qwen3 Embedding模型架構、訓練方法、數據策略

大模型自然語言處理 ? 1701瀏覽 ? 0回復
快手開源多模態大模型Kwai Keye-VL，引領視頻理解新紀元

快手技術 ? 1300瀏覽 ? 0回復

大模型自然語言處理

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

最近發布

GRPO強化多模態大模型目標檢測能力獎勵函數代碼設計 3天前發布
將R1的思路引入多模態大模型的RL訓練配方-Skywork-R1V3 6天前發布

熱門推薦

重磅！英偉達宣布H20芯片即將恢復對華銷售，并計劃推出全新GPU 0回復

我把DeepSeek微調參數扒光了，顯存和性能優化的秘密都在這 0回復

RAG：7個檢索增強生成技術的解析（含實現代碼） 0回復

將智能植根于運動之中——從AI模型到具身智能的下一個躍遷 0回復

實測AntV Chart MCP 和DataV Atlas GIS MCP 1回復

上一篇：多模態偏好數據集生成與混合偏好優化（MPO）方法

下一篇：將R1的思路引入多模態大模型的RL訓練配方-Skywork-R1V3

社區精華內容

目錄

主站蜘蛛池模板：中文字幕国产一区 | 一片毛片 | 久草色视频 | 欧美日韩国产三级 | 成人福利在线 | 在线观看黄视频 | 免费观看一级毛片 | 久久久视| 久久精品 | 成人影院一区二区三区 | 欧美精品在欧美一区二区少妇 | 欧美精品成人一区二区三区四区 | 亚洲a视频 | 久久久久久久久久久久久久国产 | 亚洲综合五月天婷婷 | 国产一区二区免费电影 | 国产欧美日韩综合精品一区二区 | 国产91成人 | 一级片aaa| 亚洲欧美日韩中文在线 | 色婷婷精品国产一区二区三区 | 欧美激情欧美激情在线五月 | 成人性视频免费网站 | 国产欧美一区二区三区在线看蜜臀 | caoporn国产精品免费公开 | a久久久久久 | 中文字幕一区在线观看视频 | 欧美在线激情 | 成人在线精品 | 天天看天天操 | 91啪影院| 午夜天堂精品久久久久 | 国产高清免费视频 | 亚洲精品99999 | 亚洲国产一区二区三区在线观看 | 欧美激情精品久久久久 | 久久久久久高潮国产精品视 | 国产成人免费视频 | 国产精品国产成人国产三级 | 中文字幕日韩在线观看 | 国产欧美日韩一区 |