成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

Phi-4-multimodal:圖、文、音頻統一的多模態大模型架構、訓練方法、數據細節

人工智能
Phi-4-Multimodal 是一種參數高效的多模態模型,通過 LoRA 適配器和模式特定路由器實現文本、視覺和語音/音頻的無縫集成。訓練過程包括多階段優化,確保在不同模式和任務上的性能,數據來源多樣,覆蓋高質量合成數據。它的設計體現了小型語言模型在多模態任務上的潛力。

Phi-4-Multimodal 是一種參數高效的多模態模型,通過 LoRA 適配器和模式特定路由器實現文本、視覺和語音/音頻的無縫集成。訓練過程包括多階段優化,確保在不同模式和任務上的性能,數據來源多樣,覆蓋高質量合成數據。它的設計體現了小型語言模型在多模態任務上的潛力。

模型架構

模型架構模型架構

Phi-4-Multimodal 的基礎是Phi-4-Mini語言模型,這是一個 3.8 億參數的模型,設計為高效處理文本任務。架構包括:

  • Transformer層和維度:32 層Transformer,隱藏狀態大小為 3072。
  • 效率技術:使用分組查詢注意力(GQA),通過 24 個查詢頭和 8 個鍵/值頭減少 KV 緩存大小至標準模型的三分之一,提升計算效率。
  • 分詞器:使用 o200k 基礎 tiktoken,分詞表大小為 200,064,支持多語言和多模態輸入。

為了擴展到多模態功能,模型通過 LoRA 適配器和模式特定路由器集成視覺和音頻模式:

  • 視覺模式:

a.圖像編碼器:使用 SigLIP-400M,結合 LLM2CLIP 在圖像-文本對上微調,分辨率為 448x448。SigLIP-400M 是一個視覺-語言模型,專門為圖像理解優化。

b.項目器:一個 2 層 MLP,將視覺特征映射到文本嵌入維度 3072,確保視覺輸入與語言模型的嵌入空間兼容。

c.LoRA 適配器(LoRA_V):添加到語言解碼器的所有線性層,參數約 3.7 億,用于監督微調階段。LoRA 是一種參數高效的微調技術,通過低秩更新適配模型。

d.動態多裁剪策略:在訓練中處理不同圖像大小,裁剪數量計算為 ?H/C? × ?W/C?,預訓練最多 16 個裁剪,監督微調最多 36 個,必要時調整大小。

  • 語音/音頻模式:

a.輸入特征:80 維 log-Mel 濾波器組特征,幀率為 10ms,標記率為 80ms(每分鐘 750 個標記),適合高效音頻處理。

b.音頻編碼器:包括 3 個卷積層和 24 個符合塊,注意維度為 1024,前饋維度為 1536,16 個注意頭,子采樣率為 8。符合塊結合了自注意力機制和卷積,適合捕獲音頻的時序和頻率特征。

c.項目器:一個 2 層 MLP,將 1024 維語音特征映射到 3072 維文本嵌入,確保音頻輸入與語言模型的嵌入空間兼容。

d.LoRA 適配器(LoRA_A):應用于所有注意和 MLP 層,秩為 320,參數約 4.6 億,通過低秩更新適配音頻處理。

  • 多模態集成:模型采用 LoRA 適配器的混合設計,通過模式特定路由器選擇適當的適配器,處理文本、視覺和語音/音頻輸入,無干擾地支持多模態推理。這是一種參數高效的方法,保持基礎語言模型的完整性,同時添加新功能。

總參數量為 5.6 億,相比 Phi-4-Mini 的 3.8 億,增加了約 1.8 億參數,主要用于視覺和音頻編碼器及 LoRA 適配器。上下文長度為 128K 標記,受益于 GQA 和其他效率技術,適合處理長序列輸入。

訓練方法

Phi-4-Multimodal 的訓練過程分多個階段,針對不同模式和任務優化,確保模型在多模態任務上的性能。訓練步驟如下:

  • 基礎語言模型預訓練:

a.在 5 萬億個高質量標記上預訓練,包括網絡數據和合成數據。數據來源經過精心挑選,確保覆蓋多種語言和任務,如功能調用、總結和指令跟隨。

  • 視覺訓練:

a.階段 1:項目器對齊- 使用標題數據訓練項目器,確保視覺特征與語言模型嵌入空間的對齊。

b.階段 2:聯合視覺訓練- 在完整數據集上訓練項目器和編碼器,針對 OCR 和密集理解任務,數據集包括圖像-文本對、OCR PDF 和現實圖像。

c.階段 3:生成視覺-語言訓練- 在解碼器上訓練 LoRA,使用單幀 SFT 數據,開發生成能力,數據集包括公共和內部多模態數據集,如通用圖像、圖表/表格/圖表、PowerPoint、OCR、多圖像和視頻。

d.階段 4:多幀訓練- 視覺編碼器凍結,在多幀 SFT 數據上訓練,上下文長度為 64k,適合處理多幀場景。

  • 語音/音頻訓練:

a.預訓練:使用 200 萬小時匿名語音-文本對,覆蓋 8 種語言(中文、英語、法語、德語、意大利語、日語、葡萄牙語、西班牙語),訓練音頻編碼器和項目器,解碼器凍結,初始化為自動編碼解碼(AED)ASR 模型。

b.后訓練:使用 1 億個精選 SFT 樣本更新項目器和 LoRA_A,50,000 步。最大音頻長度為總結的 30 分鐘(22,500 個標記),其他任務的 30 秒(375 個標記),包括 ASR(40,000 小時,2,800 萬 SFT 示例)、AST(30,000 小時,2,800 萬 SFT 示例,7 種語言到/從英語,CoT)、SQA/SQQA(2,600 萬 SFT 示例,合成 QA 對,TTS 生成查詢)、總結(100 萬 SFT 示例,英語,多說話者,GPT-4 查詢)和音頻理解(1,700 萬 SFT 示例,公共音頻/音樂,GPT-4 Q&A)。

  • 視覺-語音聯合訓練:

a.在視覺和語音單獨訓練后,凍結語言基礎、音頻編碼器和項目器,微調視覺適配器 LoRA_V、編碼器和項目器,使用視覺-語音 SFT 數據加上語言/視覺后訓練數據,確保多模態協同工作。

  • 推理訓練:

a.階段 1:預訓練- 在 600 億推理鏈式思維 CoT 標記上預訓練,從前沿 LLM 中提取,通過拒絕采樣過濾錯誤輸出,確保數據質量。

b.階段 2:微調- 在 20 萬個高質量 CoT 樣本上微調,覆蓋不同領域,如數學、編碼和邏輯推理。

c.階段 3:直接偏好優化(DPO)訓練- 在 30 萬個偏好樣本上應用,將錯誤輸出標記為“非首選”,糾正輸出為“首選”,通過人類反饋進一步對齊模型。

訓練數據細節

Phi-4-Multimodal 是一種由 Microsoft 開發的先進多模態大模型,能夠處理文本、圖像和音頻輸入并生成文本輸出。其訓練數據細節涵蓋語言、視覺-語言、視覺-語音和語音/音頻四個主要類別,數據來源包括網絡、合成和真實數據,數據量龐大且經過精心優化。

語言訓練數據

語言訓練是 Phi-4-Multimodal 的基礎,基于 Phi-4-Mini 語言模型的預訓練和后訓練數據:

  • 預訓練數據:

a.數據來源:高質量網絡數據和合成數據,特別強調數學和編碼數據集以提升復雜推理能力。

b.數據量:5 萬億個標記(tokens)。

c.描述:合成數據通過精心策劃,確保覆蓋高價值的任務,如數學競賽問題和編碼任務,顯著提升模型在這些領域的表現。

  • 后訓練數據:

a.功能調用、總結和代碼完成:使用額外數據進行后訓練,具體數量未公開,但涉及多種任務。

b.推理訓練:使用 600 億個推理鏈式思維(CoT)標記,從前沿大型語言模型(LLM)中提取,通過拒絕采樣過濾錯誤輸出,確保數據質量。

c.微調:在 20 萬個高質量 CoT 樣本上微調,覆蓋數學、編碼和邏輯推理等不同領域。

d.直接偏好優化(DPO):在 30 萬個偏好樣本上應用,將錯誤輸出標記為“非首選”,糾正輸出為“首選”,通過人類反饋進一步對齊模型。

視覺-語言訓練數據

視覺-語言訓練擴展了模型處理圖像和相關文本的能力,分為預訓練和監督微調(SFT)兩個階段:

  • 預訓練數據:

a.數據類型:包括圖像-文本對、圖像接地數據、OCR PDF、現實圖像和圖表理解數據。

b.數據量:文本部分約 0.5 萬億標記,具體圖像數量未公開。

c.描述:數據覆蓋廣泛,包括公共和內部多模態數據集,最高圖像分辨率達 1344x1344,適合 OCR 和密集理解任務。

  • 監督微調(SFT)數據:

a.數據類型:通用圖像、圖表/表格/圖表、PowerPoint、OCR、多圖像、視頻和安全數據集。

b.數據量:文本部分約 0.3 萬億標記。

c.描述:數據來源包括公共和內部數據集,確保生成能力和多模態任務性能。

視覺-語音訓練數據

視覺-語音訓練數據是合成生成的,基于視覺-語言 SFT 數據:

  • 數據創建方法:復用視覺-語言 SFT 數據,通過文本轉語音(TTS)引擎生成語音查詢,基于詞錯誤率(WER)過濾質量。
  • 數據量:具體數量未公開,但依賴于視覺-語言 SFT 數據規模(約 0.3 萬億標記文本部分)。

語音/音頻訓練數據

語音/音頻訓練數據分為預訓練和后訓練兩個階段,數據量巨大,覆蓋多種任務:

  • 預訓練數據:

a.數據來源:200 萬小時匿名語音-文本對,覆蓋 8 種語言:中文、英語、法語、德語、意大利語、日語、葡萄牙語、西班牙語。

b.描述:用于訓練音頻編碼器和項目器,確保語音特征與語言模型嵌入空間對齊,初始化為自動編碼解碼(AED)ASR 模型。

  • 后訓練數據:

a.SFT 示例:1.7 百萬(公共音頻/音樂,GPT-4 Q&A)。

b.SFT 示例:100,000(英語,多說話者,GPT-4 查詢)。

c.SFT 示例:2.6 百萬(合成 QA 對,TTS 生成查詢)。

d.數據量:30,000 小時。

e.SFT 示例:2.8 百萬(7 種語言到/從英語,包含 CoT)。

f.數據量:40,000 小時。

g.SFT 示例:2.8 百萬。

h.自動語音識別(ASR):

i.自動語音翻譯(AST):

j.語音問答(SQA/SQQA):

k.總結(SSUM):

m.音頻理解(AU):

訓練數據匯總表:

圖片

一個意想不到的細節是,語音預訓練數據高達 200 萬小時,相當于連續錄音 228 年。

性能

圖片

參考文獻:

  • Phi-4-Mini Technical Report: Compact yet Powerful Multimodal Language Models via Mixture-of-LoRAs,https://arxiv.org/pdf/2503.01743
責任編輯:武曉燕 來源: 大模型自然語言處理
相關推薦

2025-04-28 02:03:00

多模態大模型EVEv2

2025-02-27 09:51:04

2024-12-18 18:57:58

2024-12-12 00:25:09

2024-07-23 10:34:57

2024-11-13 09:39:13

2025-05-14 08:51:00

2025-01-08 08:21:16

2025-04-07 00:00:00

多模態大模型

2025-02-27 13:45:00

2025-02-28 09:32:00

2023-11-23 18:19:15

騰訊騰訊混元Angel

2023-08-14 08:46:54

AI論文

2024-06-03 06:49:53

2024-09-13 17:02:29

2025-02-10 07:10:00

多模態embeddingsAI

2024-12-30 00:01:00

多模態大模型Python

2022-02-28 10:31:22

人工智能視覺檢測

2024-10-14 13:20:00

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 欧美日韩精品亚洲 | 羞羞网站在线观看 | 国产精品久久久久久久久久免费看 | 日日夜夜影院 | 欧美日韩一区二区三区四区五区 | 一级特黄色毛片 | 91精品久久久久久久久 | 欧美成人精品二区三区99精品 | 午夜视频在线免费观看 | 免费爱爱视频 | 高清色| 国产精品麻 | 亚洲一区视频在线 | 色婷婷在线视频 | 91久久国产综合久久 | 久热中文字幕 | 国产成人午夜精品影院游乐网 | 777毛片| 国产精品福利在线观看 | 久久99久久99精品免视看婷婷 | 我想看一级黄色毛片 | 国产福利网站 | 91精品国产91久久久久久不卞 | 国产在线中文 | 一本色道久久综合亚洲精品高清 | 91精品麻豆日日躁夜夜躁 | 午夜电影在线播放 | 欧日韩在线 | 一级做a爰片性色毛片视频停止 | 最新超碰| h视频在线免费 | 中国大陆高清aⅴ毛片 | 91夜色在线观看 | k8久久久一区二区三区 | 午夜精品影院 | 99精品久久 | 久久久久国产精品一区二区 | av免费网站在线观看 | 超碰在线97国产 | 国产精品美女 | 成人国产精品免费观看 |