看聽讀全都會的六邊形戰士MiniCPM,來啦
作者:哎呀AIYA
MiniCPM-o 2.6是一個端側多模態大模型,具有8B參數量。它基于SigLip-400M、Whisper-medium-300M、ChatTTS-200M和Qwen2.5-7B構建,通過端到端的方式訓練和推理。
MiniCPM-o 2.6開源啦,該模型視覺、語音和多模態流式能力達到了 GPT-4o-202405 級別。
圖片
簡介
MiniCPM-o 2.6是一個端側多模態大模型,具有8B參數量。它基于SigLip-400M、Whisper-medium-300M、ChatTTS-200M和Qwen2.5-7B構建,通過端到端的方式訓練和推理。模型的主要特點包括:
- 領先的視覺能力在OpenCompass榜單上,MiniCPM-o 2.6以8B量級的大小在單圖理解方面超越了GPT-4o-202405、Gemini 1.5 Pro和Claude 3.5 Sonnet等主流商用閉源多模態大模型。
- 出色的語音能力支持可配置聲音的中英雙語實時對話,語音理解任務表現優于GPT-4o-realtime,并在語音對話的語義和聲學評估中展現了開源模型中最高的語音生成性能。
- 強大的多模態流式交互能力能夠接受連續的視頻和音頻流,并與用戶進行實時語音交互,在StreamingBench綜合評測基準中取得開源社區最佳水平。
- 強大的OCR能力及其他功能進一步優化了MiniCPM-V 2.6的視覺理解能力,支持多種語言,并具備可信的多模態行為。
模型架構
圖片
- 端到端全模態架構。 通過端到端的方式連接和訓練不同模態的編/解碼模塊以充分利用豐富的多模態知識。模型完全使用 CE 損失端到端訓練。
- 全模態流式機制。 (1) 我們將不同模態的離線編/解碼器改造為適用于流式輸入/輸出的在線模塊。 (2) 我們針對大語言模型基座設計了時分復用的全模態流式信息處理機制,將平行的不同模態的信息流拆分重組為周期性時間片序列。
- 可配置的聲音方案。 我們設計了新的多模態系統提示,包含傳統文本系統提示詞,和用于指定模型聲音的語音系統提示詞。模型可在推理時靈活地通過文字或語音樣例控制聲音風格,并支持端到端聲音克隆和音色創建等高級能力。
實力表現
圖片
指標表現實力不俗,不輸一眾大size的模型:
圖片
使用簡介
MiniCPM-o 2.6可以通過多種方式輕松使用,包括:
- llama.cpp:支持在本地設備上進行高效的CPU推理。
- int4和GGUF格式的量化模型:有16種尺寸,適用于不同設備。
- vLLM:支持高吞吐量和內存高效的推理。
- LLaMA-Factory框架:針對新領域和任務進行微調。
- Gradio:快速設置本地WebUI演示。
資源傳送:
項目地址:https://github.com/OpenBMB/MiniCPM-o
模型地址:https://huggingface.co/openbmb/MiniCPM-o-2_6
如果對內容有什么疑問和建議可以私信和留言,也可以添加我加入大模型交流群,一起討論大模型在創作、RAG和agent中的應用。
責任編輯:武曉燕
來源:
哎呀AIYA