成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

快手開源多模態大模型Kwai Keye-VL,引領視頻理解新紀元 精華

發布于 2025-6-27 15:39
瀏覽
0收藏

導讀:近日,快手發布并開源其最新自研的多模態大語言模型 Kwai Keye-VL。Kwai Key-VL采用 VisionEncoder-Projector-LLM 架構,集成了文本、圖像、視頻信息的混合輸入處理能力,旨在為用戶帶來更智能、更全面的多模態交互體驗



如果有人突然問你:「這張圖片中有幾顆草莓」?你會如何快速回復?


面對五彩繽紛的果盤,我們往往需要反復端詳,放大圖片再逐一清點,耗費不少時間才能得到答案。


然而,AI大模型正讓這種復雜視覺識別變得簡單——在快手最新發布的Kwai Keye-VL-8B的試用體驗中,它自動解析圖像細節,執行圖像區域裁剪,放大相關的計算代碼以增強感知效果,在短短幾秒內給出精準答案,一共20顆。

快手開源多模態大模型Kwai Keye-VL,引領視頻理解新紀元-AI.x社區


Kwai Keye-VL是快手自主研發的多模態大語言模型。該模型以 Qwen3-8B 語言模型為基礎,引入了基于開源 SigLIP 初始化的 VisionEncoder,Kwai Keye-VL 能夠深度融合并處理文本、圖像、視頻等多模態信息,憑借其創新的自適應交互機制與動態推理能力,旨在為用戶提供更智能、全面的多模態交互體驗。在視覺理解與邏輯推理能力方面,Kwai Keye-VL 的綜合感知能力媲美同規模頂尖模型,并在復雜推理任務中展現出顯著優勢!值得一提的是,其在邏輯推理上的優異表現:在最新的2025年高考全國數學卷中取得了140分的成績。目前,Kwai Keye-VL 已正式開源。

快手開源多模態大模型Kwai Keye-VL,引領視頻理解新紀元-AI.x社區

[?? Homepage] : ??https://kwai-keye.github.io/??

[??Github Repo] :???https://github.com/Kwai-Keye/Keye??

 [?? Model Weight] :???https://huggingface.co/Kwai-Keye/Keye-VL-8B-Preview??

 [??KC-MMBench] :???https://huggingface.co/datasets/Kwai-Keye/KC-MMbench??


「核心技術架構全公開」

?

Kwai Keye-VL 基于 Qwen3-8B 語言模型,并整合了 SigLIP 初始化的視覺編碼器。Kwai Keye-VL 支持動態分辨率輸入,按原始比例將圖像切分為 14x14  patch 序列,由一個 MLP 層將視覺 Token 進行映射與合并。模型采用 3D RoPE (旋轉位置編碼)統一處理文本、圖像和視頻,并通過位置編碼與時間戳對齊,精準捕捉視頻時序變化。

快手開源多模態大模型Kwai Keye-VL,引領視頻理解新紀元-AI.x社區

一、Pre-Train:構建多模態基座能力

一、Pre-Train:構建多模態基座能力

Kwai Keye-VL 的預訓練階段核心目標是構建強大的圖文和視頻理解能力(即視覺-語言對齊)。為支撐這一目標,模型使用了總量高達 600B 的大規模多模態預訓練數據集,包含圖文、視頻及純文本數據。此外,Kwai Keye-VL 通過自建高質量中文 OCR 系統和精細化描述數據,有效突破了開源數據的局限,專門服務于模型圖文/視頻理解能力的訓練。


訓練流程采用四階段漸進式優化策略:

?

快手開源多模態大模型Kwai Keye-VL,引領視頻理解新紀元-AI.x社區


  • 視覺預訓練:持續預訓練視覺編碼器,使其適配內部數據分布并支持動態分辨率輸入。
  • 跨模態對齊:凍結主干模型,僅訓練輕量級 MLP 適配器,以極低成本高效建立魯棒的圖文/視頻-文本對齊關系。
  • 多任務預訓練:解鎖全部模型參數,進行多任務聯合訓練,全面提升模型的綜合視覺理解能力。
  • 退火訓練:使用精選高質量數據進行精調,進一步提升模型的精細理解和判別能力。

最后,Kwai Keye-VL 探索了同構異質融合技術,通過參數平均融合不同數據配比的退火訓練模型,在保留多維度能力的同時,減小模型偏差,增強了模型的魯棒性。

?

二、Post-Train:兩階段精細微調,突破性強化推理能力

?

Kwai Keye-VL 的后訓練階段經過精心設計,旨在全面提升模型的性能,尤其是其在復雜任務中的推理能力,這一部分是模型實現高級認知功能的關鍵突破。

Stage I. 非推理訓練 (No-Reasoning Training):夯實基礎性能

Kwai Keye-VL 首先進行監督精調 (SFT),使用 500 萬條高質量多模態VQA數據,數據多樣性由自研TaskGalaxy方案建立的任務體系(包含7W種任務)保證,數據質量經AI 篩選困難樣本及人工標注保障。


隨后進行混合偏好優化 (MPO),結合開源數據與自建的偏好數據,后者通過收集 SFT 錯誤樣本作提問素材、Qwen2.5VL 72B 與 SFT 模型生成答案對、人工排序獲得。

?

快手開源多模態大模型Kwai Keye-VL,引領視頻理解新紀元-AI.x社區


Stage II. 推理訓練 (Reasoning Training):核心突破,賦能復雜認知

此階段是 Kwai Keye-VL 訓練流程的最大亮點與貢獻,通過引入Mix-mode的思維鏈(CoT)和多思考模式強化學習(RL)機制,顯著提升模型的多模態感知、推理和think with image能力,使其能夠處理更復雜、需要多步思考的任務。


具體來說:

Step 1 :思維鏈冷啟動階段(CoT Cold-Start):通過混合四種推理模式的訓練數據(非推理數據、推理數據 、自動推理數據 和智能體 (agentic) 推理數據),實現對模型思維鏈能力的零基礎激活,使其初步掌握人類分步思考的推理范式。

Step 2:混合強化學習階段(CoT-Mix RL):在冷啟動基礎上,采用GRPO算法進行混合模式強化學習,通過創新的雙軌獎勵機制(同步評估結果正確性與過程一致性)深度優化多模態感知、數學推理、短視頻理解及智能體協同等綜合能力,顯著提升模型的推理能力。

Step 3:多輪迭代對齊階段(Iterative Alignment): 利用MPO算法對優/劣數據對進行多輪迭代,根治內容重復崩潰與邏輯斷層問題,最終賦予模型根據問題復雜度智能選擇深度推理模式的自適應能力,實現性能與穩定性的雙重突破。

?

快手開源多模態大模型Kwai Keye-VL,引領視頻理解新紀元-AI.x社區

?

Kwai Keye-VL 通過分階段、精細化的預訓練與后訓練策略,特別是對推理能力的深度強化與創新性突破,確保了模型在多種復雜場景下都能提供高質量、邏輯嚴謹且穩定的輸出。

三、訓練架構優化:高效穩定的千億參數模型訓練


為實現百億參數模型的高效穩定訓練,Kwai Keye-VL 通過混合并行策略(整合數據并行/序列并行/ZeRO技術)顯著提升訓練吞吐量,既利用顯存分片降低壓力,又通過計算通信重疊隱藏延遲。


不同于純文本模型訓練,多模態輸入分辨率差異很大,不同顯卡計算負載不均會導致整體利用率降低,Kwai Keye-VL在訓練框架中實現了全局負載均衡策略,依據樣本FLOPS動態分發樣本,盡可能消除硬件閑置,顯著提高了多模態訓練的MFU。同時構建了樣本級自動容錯機制,依托聯合檢查點技術使訓練意外中斷后可自動精準續訓,保證了模型迭代的穩定性。


后訓練階段則通過升級vLLM框架加速采樣,并部署多獎勵模型隨機分發策略,大幅壓縮強化學習的計算耗時,系統性保障了大規模訓練的穩定性與效率。

?

四、模型評估


視覺理解/邏輯推理benchmark


Kwai Keye-VL 在綜合感知能力比肩同規模頂尖模型的同時,在復雜推理任務中展現出顯著領先優勢。


評測數據顯示:其基礎感知達行業一流水準;而在MMMU、MMStar等通用Benchmark及MathVista、OlympiadBench等推理Benchmark上,該模型性能曲線大幅領跑業界,尤其在需要高階邏輯推理與數學解題的挑戰性任務中,凸顯出卓越的復雜問題解決能力。

快手開源多模態大模型Kwai Keye-VL,引領視頻理解新紀元-AI.x社區


視頻理解benchmar

Kwai Keye-VL 通過公開與自建評測雙驗證,在學術標準與真實短視頻場景中均展現出全面領先優勢。


為突破公開數據集的數據污染、語言覆蓋局限及任務單一性等問題,快手構建了內部評測集KC-MMBench。


結果顯示:該模型在VideoMME等權威公開Benchmark中以67.4分超越Qwen2.5-VL-7B(62.7)與InternVL-3-8B(65.5);在內部短視頻場景評測中優勢進一步擴大,綜合得分領先SOTA模型超10%,尤其在熱點聚合、內容合集、廣告價值等核心場景表現卓越,實證其學術與產業雙維競爭力。

五、應用案例


實際測試中,Kwai Keye在多種模態下均表現出驚艷的內容理解與創作能力。


問題:請你為視頻中的商品寫一份推銷方案。


??視頻??

00:11

Kwai Keye-VL給出了一份推銷方案:

快手開源多模態大模型Kwai Keye-VL,引領視頻理解新紀元-AI.x社區

快手開源多模態大模型Kwai Keye-VL,引領視頻理解新紀元-AI.x社區

?

問題:結合如下這張圖片,寫一首詩

快手開源多模態大模型Kwai Keye-VL,引領視頻理解新紀元-AI.x社區

?

Kwai Keye-VL給出的詩詞:

六、未來展

快手開源多模態大模型Kwai Keye-VL,引領視頻理解新紀元-AI.x社區


六、未來展望

展望未來,依托快手在短視頻領域深厚的技術積累,Kwai Keye-VL 在視頻理解方面具備獨特優勢。該模型的發布與開源,標志著多模態大語言模型在視頻理解新紀元的探索邁出了堅實一步。


收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 久久久91精品国产一区二区三区 | 日韩电影中文字幕 | 性一交一乱一透一a级 | 亚洲精品68久久久一区 | 极品销魂美女一区二区 | 国产精品国产a级 | 久久国产精品偷 | 中文字幕一区二区三 | 欧美精品网站 | 黄色精品| 免费黄色的视频 | 天堂一区在线观看 | 超黄视频网站 | 日韩2020狼一二三 | 黄色在线观看网站 | 日韩视频一区二区 | 亚洲精品一区在线观看 | 日韩欧美综合 | 欧美成人免费在线 | 一区二区三区在线 | 国产91在线播放 | 成人欧美一区二区三区黑人孕妇 | 亚洲欧美精品国产一级在线 | 国产a视频| 欧美偷偷操 | 中文字幕高清免费日韩视频在线 | 草久免费视频 | 国产精品美女久久久久久久网站 | 国产精品久久久久久久久久久久 | 精国产品一区二区三区 | 成人免费视频观看视频 | av中文字幕在线播放 | 久久夜夜 | 成人小视频在线观看 | 精品少妇一区二区三区在线播放 | 日韩一区二区在线观看 | 成人在线观看免费 | 久久亚洲一区二区三区四区 | 国产激情福利 | 91超碰caoporn97人人 | 日韩欧美精品在线播放 |