Seed1.5-VL技術(shù)報(bào)告解讀 原創(chuàng)
字節(jié)最新發(fā)布了一個(gè)強(qiáng)悍的閉源多模態(tài)大語(yǔ)言模型Seed1.5-VL,其技術(shù)報(bào)告內(nèi)容簡(jiǎn)非常坦誠(chéng),值得一讀。筆者將在本文帶大家按文章的寫(xiě)作順序,一步步精讀這篇技術(shù)報(bào)告。
概述
??https://arxiv.org/abs/2505.07062??
Seed1.5-VL由一個(gè)擁有532M參數(shù)的視覺(jué)編碼器和一個(gè)擁有20B活躍參數(shù)的MoE LLM構(gòu)成,在60個(gè)多模態(tài)視覺(jué)語(yǔ)言模型的Benchmark中有38個(gè)達(dá)到了SOTA。在GUI、視頻理解、視覺(jué)推理中表現(xiàn)出了極強(qiáng)的性能。目前Seed1.5-VL是一個(gè)商用模型,已經(jīng)開(kāi)放收費(fèi)API使用,但并不開(kāi)源。
模型結(jié)構(gòu)
首先Seed1.5-VL的模型結(jié)構(gòu)依然是典型的VLM構(gòu)造,一個(gè)原生動(dòng)態(tài)分辨率的Seed-ViT作為圖像編碼器,與Qwen2-VL類(lèi)似,使用2D RoPE位置編碼,接著是一個(gè)MLP Adapter,最后連接到一個(gè)自回歸的LLM。(關(guān)于視覺(jué)編碼器的輸入分辨率問(wèn)題,可參考本號(hào)的高分辨率MLLM系列:???通向高分辨率VLM (11): VILA-HD??)
固定的分辨率在實(shí)際應(yīng)用中面臨諸多問(wèn)題,尤其是OCR等需要圖像細(xì)節(jié)的任務(wù)性能會(huì)受到巨大影響,為應(yīng)對(duì)圖像輸入分辨率的挑戰(zhàn),本文開(kāi)發(fā)了原生分辨率的視覺(jué)編碼器Seed-ViT。
Seed-ViT預(yù)訓(xùn)練流程分為三個(gè)階段:(1)帶有2D RoPE的掩碼圖像建模(Masked Image Modeling,MIM),(2)原生分辨率對(duì)比學(xué)習(xí),以及(3)全模態(tài)預(yù)訓(xùn)練(Omni-modal Pre-training)
在第一階段,訓(xùn)練目標(biāo)是通過(guò)MIM增強(qiáng)對(duì)視覺(jué)幾何和結(jié)構(gòu)意識(shí)的視覺(jué)感知能力。我們利用EVA02-CLIP-E作為教師模型,學(xué)生模型則按照表1中定義的架構(gòu)隨機(jī)初始化。在訓(xùn)練過(guò)程中,隨機(jī)掩蓋75%的圖像塊以及相應(yīng)的RoPE位置編碼,并使用教師產(chǎn)生的CLIP特征作為重建目標(biāo)。這一過(guò)程通過(guò)學(xué)生和教師輸出的余弦相似性損失進(jìn)行優(yōu)化。作者發(fā)現(xiàn),學(xué)生和教師模型之間在視覺(jué)位置嵌入上的差異并不會(huì)損害性能,因?yàn)榻處熓褂每蓪W(xué)習(xí)的位置嵌入,而學(xué)生使用2D RoPE。相反,2D RoPE賦予學(xué)生強(qiáng)大的原生動(dòng)態(tài)分辨率識(shí)別能力。隨著我們擴(kuò)大這一MIM過(guò)程的規(guī)模,VLM在圖表/文檔理解和OCR方面的能力得到了顯著提升。
在對(duì)比學(xué)習(xí)階段,視覺(jué)編碼器使用我們經(jīng)過(guò)MIM訓(xùn)練的學(xué)生模型進(jìn)行初始化,而文本編碼器則使用EVA-02-CLIP-E中的文本編碼器進(jìn)行初始化。對(duì)于每一對(duì)給定的圖像-文本對(duì),我們使用注意力池化將視覺(jué)編碼器提取的塊特征pooling成一個(gè)1280d的圖像embedding。然后通過(guò)聯(lián)合優(yōu)化SigLIP Loss和SuperClass Loss來(lái)實(shí)現(xiàn)圖像和文本嵌入之間的對(duì)齊。
最后一個(gè)全模態(tài)預(yù)訓(xùn)練階段,采用了MiCo框架,從視頻數(shù)據(jù)中構(gòu)建包含視頻幀、音頻、視覺(jué)字幕和音頻字幕的對(duì)齊元組。ViT對(duì)視頻幀和音頻進(jìn)行編碼,而一個(gè)單獨(dú)的文本編碼器處理字幕。通過(guò)對(duì)這些嵌入進(jìn)行對(duì)齊,ViT學(xué)習(xí)統(tǒng)一的全模態(tài)表示。盡管這一階段僅消耗了整個(gè)ViT預(yù)訓(xùn)練過(guò)程中訓(xùn)練數(shù)據(jù)token量的4.8%,但它顯著提高了ViT在圖像和視頻理解任務(wù)上的性能。
在對(duì)視頻輸入的處理中,Seed1.5-VL引入了動(dòng)態(tài)采樣分辨率,來(lái)高效處理不同長(zhǎng)度和信息密度的視頻,最大預(yù)算為每段視頻81920個(gè)token,可以靈活使用更高分辨率處理較少的幀,或者使用更低分辨率以容納更長(zhǎng)視頻中的更多幀。
預(yù)訓(xùn)練數(shù)據(jù)工程
我們都知道,除了Infra之外,大模型算法的核心在于“數(shù)據(jù)工程”,雖然常被貶低為“洗數(shù)據(jù)”,被精通公式推導(dǎo)和電路圖繪制的學(xué)者們看不起。但不可否認(rèn)的是,數(shù)據(jù)工程直接決定了模型的能力上下限。讓我們先看一下Seed1.5-VL在預(yù)訓(xùn)練階段是如何做數(shù)據(jù)工程的。
Seed1.5-VL的預(yù)訓(xùn)練語(yǔ)料庫(kù)用到了3萬(wàn)億(3T)token數(shù),要知道,頂尖的大語(yǔ)言模型的預(yù)訓(xùn)練一般也才10-30T的token數(shù)目,對(duì)于下游多模態(tài)預(yù)訓(xùn)練而言,3T的token數(shù)非常的驚人。
通用任務(wù)的圖像文本對(duì),用于注入視覺(jué)知識(shí),通過(guò)對(duì)知識(shí)長(zhǎng)尾分布進(jìn)行一定的平衡,確保稀有視覺(jué)概念有足夠的訓(xùn)練迭代。這個(gè)重平衡策略在預(yù)訓(xùn)練中非常關(guān)鍵。
為驗(yàn)證這一觀察,研究者使用Biotrove數(shù)據(jù)集進(jìn)行了沙盒實(shí)驗(yàn)
- Random-46M:從訓(xùn)練集中隨機(jī)選擇4600萬(wàn)樣本。
- Max1k-46M:選擇4600萬(wàn)樣本,每個(gè)物種最多1000個(gè)樣本,確保包含稀有物種。
- Max100-15M:選擇1500萬(wàn)樣本,每個(gè)物種最多100個(gè)樣本,增加稀有物種的相對(duì)曝光。
實(shí)驗(yàn)結(jié)果表明,Random-46M配置在稀有物種識(shí)別上表現(xiàn)不佳。相比之下,限制常見(jiàn)物種的最大樣本數(shù)(Max1k-46M)顯著提高了稀有物種的性能。進(jìn)一步限制常見(jiàn)物種的代表性(Max100-15M)增強(qiáng)了對(duì)稀有物種
的記憶,但對(duì)常見(jiàn)物種的識(shí)別產(chǎn)生了不利影響。因此,有效地獲取視覺(jué)知識(shí)需要在保持常見(jiàn)視覺(jué)概念的多樣化示例的同時(shí),確保稀有視覺(jué)概念有足夠的訓(xùn)練迭代。
OCR數(shù)據(jù)。OCR任務(wù)已經(jīng)成為了多模態(tài)大模型的兵家必爭(zhēng)之地,能極大擴(kuò)展MLLM的應(yīng)用場(chǎng)景。在訓(xùn)練Seed1.5-VL時(shí)采用了大量的OCR標(biāo)注數(shù)據(jù)和合成數(shù)據(jù)。
作者構(gòu)建了一個(gè)包含超過(guò)10億樣本的OCR訓(xùn)練數(shù)據(jù)集,涵蓋文檔、場(chǎng)景文本、表格、圖表和流程圖,如上圖所示。
Grounding(定位)和計(jì)數(shù)任務(wù)數(shù)據(jù)。主要利用了三種數(shù)據(jù)類(lèi)型:邊界框標(biāo)注、點(diǎn)標(biāo)注和計(jì)數(shù)數(shù)據(jù)。
3D空間稀疏理解類(lèi)的數(shù)據(jù)。為了使模型能夠從單張圖像中理解三維空間,構(gòu)建了針對(duì)以下三個(gè)任務(wù)的數(shù)據(jù):相對(duì)深度排序、絕對(duì)深度估計(jì)和三維定位。
視頻數(shù)據(jù)。包含通用視頻理解數(shù)據(jù)、時(shí)間定位和檢索數(shù)據(jù)、視頻流數(shù)據(jù)(交錯(cuò)問(wèn)答和實(shí)時(shí)評(píng)論等)
STEM數(shù)據(jù)(科學(xué)、技術(shù)、工程、數(shù)學(xué))。收集了320萬(wàn)高質(zhì)量教育定位樣本,涵蓋數(shù)學(xué)、物理、化學(xué)、生物等300個(gè)類(lèi)別。合成1000萬(wàn)張不同格式的結(jié)構(gòu)化表格,生成450萬(wàn)張化學(xué)結(jié)構(gòu)圖,制作150萬(wàn)張合成坐標(biāo)系圖(包括函數(shù)圖和位置圖)。特定子集K12描述數(shù)據(jù):10萬(wàn)張教育圖像的人工標(biāo)注描述,100萬(wàn)對(duì)視覺(jué)問(wèn)答(VQA)對(duì),100萬(wàn)張機(jī)器生成描述,數(shù)十萬(wàn)張幾何描述。處理了超過(guò)1億的K12水平練習(xí)題。補(bǔ)充了數(shù)千萬(wàn)中國(guó)成人教育問(wèn)題和數(shù)百萬(wàn)圖像相關(guān)問(wèn)題。采用混合采集策略:人工標(biāo)注、自動(dòng)化合成、嚴(yán)格質(zhì)量控制。確保多模態(tài)覆蓋(文本、視覺(jué)、圖表),涵蓋數(shù)學(xué)、物理、化學(xué)等核心STEM領(lǐng)域。
GUI數(shù)據(jù)。也是MLLM最常見(jiàn)的應(yīng)用場(chǎng)景,即GUI操控。為了支持強(qiáng)大的GUI感知、基礎(chǔ)和推理,作者制作了一個(gè)跨web、應(yīng)用程序和桌面環(huán)境的大規(guī)模數(shù)據(jù)集。每個(gè)截圖都與通過(guò)自動(dòng)解析和人工輔助探索收集的結(jié)構(gòu)化元數(shù)據(jù)元素類(lèi)型、邊界框、文本和深度配對(duì)。
預(yù)訓(xùn)練配方
模型包含三個(gè)主要模塊:視覺(jué)編碼器、MLP適配器和語(yǔ)言模型。在視覺(jué)語(yǔ)言模型(VLM)預(yù)訓(xùn)練階段之前,視覺(jué)編碼器會(huì)進(jìn)行獨(dú)立訓(xùn)練。語(yǔ)言模型初始化自一個(gè)內(nèi)部預(yù)訓(xùn)練模型,該模型擁有大約200億活躍參數(shù)。該語(yǔ)言模型采用僅解碼器的MoE架構(gòu),并已在包含數(shù)萬(wàn)億高質(zhì)量純文本標(biāo)記的大型語(yǔ)料庫(kù)上進(jìn)行訓(xùn)練。我們的VLM預(yù)訓(xùn)練方法分為三個(gè)不同的階段
- 階段0:通過(guò)僅訓(xùn)練MLP適配器,同時(shí)凍結(jié)視覺(jué)編碼器和語(yǔ)言模型,來(lái)使視覺(jué)編碼器與語(yǔ)言模型對(duì)齊。跳過(guò)這一階段會(huì)導(dǎo)致?lián)p失略高,性能稍差。
- 階段1:所有模型參數(shù)均可訓(xùn)練。這一階段專(zhuān)注于知識(shí)積累,通過(guò)在包含3萬(wàn)億標(biāo)記的多模態(tài)語(yǔ)料庫(kù)上進(jìn)行訓(xùn)練,掌握模型的視覺(jué)定位和OCR能力,該語(yǔ)料庫(kù)主要由標(biāo)題、交錯(cuò)的圖像-文本、視覺(jué)定位和OCR數(shù)據(jù)組成。經(jīng)實(shí)證發(fā)現(xiàn),添加少量純文本標(biāo)記(例如5%)可以保持模型的語(yǔ)言能力。此外,添加少量指令跟隨數(shù)據(jù)可獲得更可靠的評(píng)估結(jié)果,從而將預(yù)訓(xùn)練開(kāi)發(fā)與后訓(xùn)練分開(kāi)。
- 階段2:我們?cè)诓煌蝿?wù)之間創(chuàng)建更平衡的數(shù)據(jù)混合,并添加來(lái)自新領(lǐng)域(如視頻理解、編程和3D空間理解)的數(shù)據(jù)。此外,我們將序列長(zhǎng)度從32,768增加到131,072,以便更好地適應(yīng)視頻中的長(zhǎng)依賴(lài)關(guān)系和復(fù)雜推理問(wèn)題的建模。與階段1一樣,所有模型參數(shù)均可訓(xùn)練。
后訓(xùn)練
后訓(xùn)練階段通過(guò)監(jiān)督微調(diào)(Supervised Fine-tuning, SFT)和強(qiáng)化學(xué)習(xí)(Reinforcement Learning, RL)的結(jié)合,為Seed1.5-VL賦予了強(qiáng)大的指令跟隨和推理能力。這一過(guò)程從一個(gè)在冷啟動(dòng)數(shù)據(jù)上訓(xùn)練的SFT模型開(kāi)始。一個(gè)關(guān)鍵組成部分是數(shù)據(jù)管道,它持續(xù)收集困難且多樣化的提示,這些提示通過(guò)拒絕采樣改善SFT數(shù)據(jù)并輸入到RL中。后訓(xùn)練以迭代的方式進(jìn)行:SFT模型通過(guò)提煉RL模型在多樣化提示上的學(xué)習(xí)成果而逐步得到增強(qiáng)。這種迭代改進(jìn)持續(xù)進(jìn)行,直到提示池耗盡且性能指標(biāo)收斂為止。最終,這一過(guò)程產(chǎn)生了Seed1.5-VL,它既能生成快速簡(jiǎn)潔的回復(fù),也能生成具有長(zhǎng)鏈推理(Long Chain-of-Thought, LongCoT)的深入回答。
監(jiān)督微調(diào)(SFT)階段是為Seed1.5-VL在強(qiáng)化學(xué)習(xí)之前配備基礎(chǔ)的指令跟隨和推理能力的關(guān)鍵。SFT數(shù)據(jù)集包含兩個(gè)主要部分,分別針對(duì)不同的能力。第一部分是通用指令數(shù)據(jù),訓(xùn)練Seed1.5-VL處理多樣化和復(fù)雜的指令,重點(diǎn)是生成簡(jiǎn)潔準(zhǔn)確的回復(fù)。第二部分是長(zhǎng)鏈推理(LongCoT)數(shù)據(jù),專(zhuān)注于生成詳細(xì)、逐步的推理過(guò)程。這些數(shù)據(jù)通過(guò)提示工程和拒絕采樣生成。
在SFT數(shù)據(jù)構(gòu)建的初始階段,我們的目標(biāo)是使模型能夠應(yīng)對(duì)廣泛的應(yīng)用場(chǎng)景。為此,我們根據(jù)傳統(tǒng)視覺(jué)任務(wù)的分類(lèi)和視覺(jué)語(yǔ)言模型的實(shí)際應(yīng)用需求,開(kāi)發(fā)了一個(gè)模型能力分類(lèi)體系。基于這個(gè)分類(lèi)體系,我們通過(guò)眾包從互聯(lián)網(wǎng)收集圖像,并生成約1.3萬(wàn)條高質(zhì)量的指令調(diào)整數(shù)據(jù),每條數(shù)據(jù)包括一個(gè)提示和相應(yīng)的回復(fù)。這些初始回復(fù)旨在與人類(lèi)偏好高度一致。
為了進(jìn)一步提升模型的性能,我們還納入了額外的3萬(wàn)條高質(zhì)量數(shù)據(jù)樣本,這些樣本來(lái)自研究社區(qū)。這些樣本是從我們精心收集的包含約150萬(wàn)條條目的開(kāi)源庫(kù)中篩選出來(lái)的。最初,我們使用專(zhuān)有的圖像-文本嵌入模型將圖像-文本對(duì)聚類(lèi)到特定任務(wù)的類(lèi)別中。這種聚類(lèi)使得數(shù)據(jù)集能夠在各種任務(wù)中保持高度的多樣性。隨后,我們利用與人類(lèi)偏好對(duì)齊的訓(xùn)練有素的SFT模型,在這個(gè)采樣子集上進(jìn)行多次模擬。生成的回復(fù)通過(guò)LLM作為評(píng)判進(jìn)行過(guò)濾,以原始真實(shí)值為參考,判斷模型生成的回復(fù)的正確性。在此基礎(chǔ)上,我們進(jìn)一步采用獎(jiǎng)勵(lì)模型從保留的結(jié)果中篩選出最符合人類(lèi)偏好的回復(fù),從而獲得最終的拒絕采樣微調(diào)數(shù)據(jù)。最終,我們將SFT數(shù)據(jù)中的開(kāi)源數(shù)據(jù)量從150萬(wàn)壓縮到大約3萬(wàn)條高質(zhì)量數(shù)據(jù)。其余的開(kāi)源數(shù)據(jù)則在預(yù)訓(xùn)練階段提前使用。
對(duì)于RLHF階段,為訓(xùn)練獎(jiǎng)勵(lì)模型,收集了人類(lèi)標(biāo)注的偏好數(shù)據(jù),使用5級(jí)評(píng)分系統(tǒng)比較候選模型響應(yīng),并使用偏好強(qiáng)度細(xì)化合成數(shù)據(jù)。
我們的在線強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)采用PPO算法變體,獎(jiǎng)勵(lì)信號(hào)來(lái)自獎(jiǎng)勵(lì)模型對(duì)生成答案token的概率。在PPO訓(xùn)練期間,獎(jiǎng)勵(lì)模型參考真實(shí)答案或SFT模型的最佳N個(gè)答案。
評(píng)測(cè)
Seed-VIT是一個(gè)體積小且性能優(yōu)異的視覺(jué)編碼器
Seed1.5-VL最終取得了非常多VQA榜單的SOTA
本文轉(zhuǎn)載自??思源數(shù)據(jù)科學(xué)?? 作者:思源Source
