成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線教育平臺(tái)

數(shù)據(jù)高效和計(jì)算高效全都要！中科大&微信等提出多模態(tài)大語言模型EE-MLLM

發(fā)布于 2024-8-30 09:39

瀏覽

0收藏

數(shù)據(jù)高效和計(jì)算高效全都要！中科大&微信等提出多模態(tài)大語言模型EE-MLLM-AI.x社區(qū)

論文鏈接：https://arxiv.org/pdf/2408.11795

亮點(diǎn)直擊

本文重新審視了多模態(tài)大型語言模型中的模態(tài)對齊問題，指出了基于自注意力和交叉注意力方法的效率和效果問題。
本文為EE-MLLM提出了一種復(fù)合注意力機(jī)制，以提高數(shù)據(jù)和計(jì)算效率。
本文的EE-MLLM在各種基準(zhǔn)測試中表現(xiàn)出色，同時(shí)推理速度得到了很大提升。

數(shù)據(jù)高效和計(jì)算高效全都要！中科大&微信等提出多模態(tài)大語言模型EE-MLLM-AI.x社區(qū)

在多模態(tài)研究領(lǐng)域，許多研究利用大量圖文對進(jìn)行模態(tài)對齊學(xué)習(xí)，將大型語言模型（LLMs）轉(zhuǎn)變?yōu)槎嗄B(tài)LLMs，并在各種視覺語言任務(wù)中表現(xiàn)出色?，F(xiàn)有的方法主要分為兩類：基于自注意力的方法和基于交叉注意力的方法。雖然基于自注意力的方法由于其簡單的MLP架構(gòu)具有較高的數(shù)據(jù)效率，但由于將視覺和文本token連接為LLM的輸入，通常在計(jì)算效率上較低。相反，基于交叉注意力的方法雖然由于額外的可學(xué)習(xí)參數(shù)而數(shù)據(jù)效率較低，但通過避免LLM的長序列輸入表現(xiàn)出較高的計(jì)算效率。為解決這些權(quán)衡，本文引入了數(shù)據(jù)高效和計(jì)算高效的多模態(tài)大型語言模型（EE-MLLM）。在不引入額外模塊或可學(xué)習(xí)參數(shù)的情況下，EE-MLLM實(shí)現(xiàn)了數(shù)據(jù)和計(jì)算效率。具體來說，本文將MLLM中的原始自注意力機(jī)制修改為復(fù)合注意力機(jī)制。該機(jī)制有兩個(gè)關(guān)鍵特征：1）消除視覺token內(nèi)部自注意力的計(jì)算開銷以實(shí)現(xiàn)計(jì)算效率，2）重用LLM每一層的權(quán)重以促進(jìn)視覺和語言之間的有效模態(tài)對齊，實(shí)現(xiàn)數(shù)據(jù)效率。實(shí)驗(yàn)結(jié)果表明，EE-MLLM在一系列基準(zhǔn)測試中表現(xiàn)出色，包括諸如MMBench和SeedBench等通用數(shù)據(jù)集，以及如TextVQA和DocVQA等細(xì)粒度任務(wù)。

方法

模型結(jié)構(gòu)

EE-MLLM 包括一個(gè)視覺編碼器、一個(gè)作為投影器的兩層 MLP，以及帶有復(fù)合解碼層的大型語言模型（LLM）。本文提出了一種復(fù)合注意力機(jī)制，并為 EE-MLLM 設(shè)計(jì)了一個(gè)復(fù)合解碼層，以實(shí)現(xiàn)數(shù)據(jù)效率和計(jì)算效率。復(fù)合解碼層由一個(gè)對齊器和一個(gè)復(fù)合注意力模塊組成。

復(fù)合注意力模塊。 原始的自注意力機(jī)制包括視覺token之間的自注意力、文本token之間的自注意力，以及文本token和視覺token之間的交叉注意力。本文觀察到視覺token之間的自注意力是多余的，原因有兩個(gè)：

視覺token之間的交互已經(jīng)在視覺編碼器中得到了良好的學(xué)習(xí)；
大型語言模型（LLM）可以通過信息聚合特性實(shí)現(xiàn)視覺token之間的隱式交互。

數(shù)據(jù)高效和計(jì)算高效全都要！中科大&微信等提出多模態(tài)大語言模型EE-MLLM-AI.x社區(qū)

數(shù)據(jù)高效和計(jì)算高效全都要！中科大&微信等提出多模態(tài)大語言模型EE-MLLM-AI.x社區(qū)

數(shù)據(jù)高效和計(jì)算高效全都要！中科大&微信等提出多模態(tài)大語言模型EE-MLLM-AI.x社區(qū)

數(shù)據(jù)高效和計(jì)算高效全都要！中科大&微信等提出多模態(tài)大語言模型EE-MLLM-AI.x社區(qū)

這可以被視為一個(gè)沒有注意力機(jī)制的解碼器塊。

計(jì)算開銷分析

數(shù)據(jù)高效和計(jì)算高效全都要！中科大&微信等提出多模態(tài)大語言模型EE-MLLM-AI.x社區(qū)

實(shí)驗(yàn)

實(shí)驗(yàn)細(xì)節(jié)

模型配置。 本文采用 Vicuna-7b-v1.5作為本文的 LLM，并使用 SigLIP作為視覺編碼器。具體來說，SigLIP 從 Idefics2 初始化，該模型支持動(dòng)態(tài)分辨率，最大可達(dá)980X980 。投影器由一個(gè)兩層的 MLP 組成，與 LLaVA 相同。

數(shù)據(jù)高效和計(jì)算高效全都要！中科大&微信等提出多模態(tài)大語言模型EE-MLLM-AI.x社區(qū)

評(píng)估基準(zhǔn)

本文使用VLMEvalKit 進(jìn)行評(píng)估，其他最新模型的結(jié)果也來自同一來源。

通用基準(zhǔn)

MMBench-EN 是一個(gè)綜合的多模態(tài)基準(zhǔn)，專門設(shè)計(jì)用于評(píng)估多模態(tài)語言模型（MLLMs）的性能。它包含超過3,000個(gè)多項(xiàng)選擇題，涵蓋20個(gè)能力類別。本文在MMBench-ENV1.1上評(píng)估了EE-MLLM。
MME 評(píng)估高級(jí)MLLMs的感知和認(rèn)知能力，總共包括14個(gè)子任務(wù)。為了盡量減少提示工程對MLLMs的影響，MME的指令設(shè)計(jì)為引導(dǎo)簡單的二元回答，例如“請回答是或否”。本文報(bào)告了MME的感知部分的結(jié)果。
ScienceQA 來源于小學(xué)和高中的科學(xué)課程。ScienceQA中的問題涵蓋三門學(xué)科：自然科學(xué)、語言科學(xué)和社會(huì)科學(xué)。
HallusionBench 旨在評(píng)估圖像-上下文推理，包含346張圖像和1,129個(gè)由人類專家制作的問題。HallusionBench考慮了語言幻覺和視覺錯(cuò)覺，涉及多種主題。
MMMU (Yue et al. 2023) 收集了來自大學(xué)考試、測驗(yàn)和教科書的11,500個(gè)多模態(tài)問題，涵蓋六個(gè)核心學(xué)科，跨越30個(gè)主題和183個(gè)子領(lǐng)域，包括30種異構(gòu)圖像類型。
CCBench 由MMBench團(tuán)隊(duì)開發(fā)，專門用于評(píng)估MLLMs在中國文化領(lǐng)域的表現(xiàn)。
SeedBench 包含19,000個(gè)多項(xiàng)選擇題，涵蓋12個(gè)評(píng)估維度，包括圖像和視頻。本文僅使用帶有圖像的問題進(jìn)行評(píng)估。
BLINK 包含14個(gè)視覺感知任務(wù)，對當(dāng)前的多模態(tài)LLMs構(gòu)成重大挑戰(zhàn)。

細(xì)粒度基準(zhǔn)

AI2D 強(qiáng)調(diào)圖解的解釋和推理，包含5,000個(gè)圖解和15,000個(gè)問答。
OCRBench 旨在促進(jìn)對MLLM OCR能力的評(píng)估，包括29個(gè)數(shù)據(jù)集。
TextVQA 包含45,336個(gè)問題和28,408張需要通過文本推理回答的圖像。本文使用包含5,000張圖像的驗(yàn)證集進(jìn)行評(píng)估。
ChartQA 是一個(gè)大規(guī)模基準(zhǔn)，包含20,882個(gè)圖表，問題集中于邏輯和視覺推理。
DocVQA 專注于文檔圖像理解，包含50,000個(gè)問題和超過12,000張圖像。本文使用包含5,349個(gè)問題和1,286張圖像的驗(yàn)證集進(jìn)行評(píng)估。
Seed2 Plus 專門為MLLMs的文本豐富視覺理解評(píng)估設(shè)計(jì)，包括2,300個(gè)多項(xiàng)選擇題，涵蓋圖表、地圖和網(wǎng)頁。

與最先進(jìn)模型的比較

通用基準(zhǔn)測試。 在下表2中，本文將EE-MLLM與各種最先進(jìn)的MLLM 在八個(gè)通用基準(zhǔn)上進(jìn)行了比較。這些基準(zhǔn)測試評(píng)估了MLLM的綜合能力，包括理解和感知，以及幻覺的嚴(yán)重程度。這些因素共同反映了MLLM在現(xiàn)實(shí)場景中的泛化能力和適用性。EE-MLLM在通用基準(zhǔn)測試中與最先進(jìn)的MLLM表現(xiàn)相當(dāng)。具體來說，EE-MLLM在MMBench中獲得了70.4的得分，在MME中獲得了1528.1的得分，這些分?jǐn)?shù)明顯高于同樣支持高分辨率圖像輸入的LLaVA-v1.6。這表明EE-MLLM具備綜合的感知和推理能力。此外，EE-MLLM在CCBench和SeedBench上也取得了可喜的成績。

數(shù)據(jù)高效和計(jì)算高效全都要！中科大&微信等提出多模態(tài)大語言模型EE-MLLM-AI.x社區(qū)

細(xì)粒度基準(zhǔn)測試。 在下表3中，本文在七個(gè)細(xì)粒度基準(zhǔn)上進(jìn)行了評(píng)估。這些基準(zhǔn)測試要求MLLM具備出色的視覺感知能力，因?yàn)樗鼈冃枰剿鲌D像中的細(xì)粒度信息來回答問題。在傳統(tǒng)的VQA基準(zhǔn)測試中，例如TextVQA、ChartQA和DocVQA，EE-MLLM表現(xiàn)非常出色，相較于同樣支持高分辨率的LLaVA-v1.6，在TextVQA上高出4.6分，在ChartQA上高出13.0分。在專門設(shè)計(jì)用于評(píng)估MLLM OCR能力的OCRBench中，EE-MLLM比LLaVA-v1.6高出4.2分。這些結(jié)果表明，盡管EE-MLLM顯著減少了與視覺token相關(guān)的計(jì)算開銷，但它仍然有效地保持了模型的細(xì)粒度能力。

數(shù)據(jù)高效和計(jì)算高效全都要！中科大&微信等提出多模態(tài)大語言模型EE-MLLM-AI.x社區(qū)

推理速度比較

盡管EE-MLLM在FLOPs方面表現(xiàn)出了顯著的減少，但在實(shí)際場景中，通常會(huì)在部署時(shí)采用KVCache和Batch Inference等先進(jìn)技術(shù)。因此，有必要在這些技術(shù)下進(jìn)行推理速度的比較。本文在單個(gè)NVIDIA H800上進(jìn)行了推理速度的比較。輸入圖像的分辨率設(shè)置為980X980，生成的tokens數(shù)量從2到256不等。本文在下圖4中展示了EE-MLLM與LLaVA的速度比。本文的研究發(fā)現(xiàn)，當(dāng)生成8個(gè)tokens時(shí)，EE-MLLM的推理速度是LLaVA的三倍。然而，隨著生成tokens數(shù)量的增加，速度比下降。當(dāng)生成64個(gè)tokens時(shí)，EE-MLLM的推理速度是LLaVA的1.6倍。出現(xiàn)這種現(xiàn)象的原因在于本文的EE-MLLM主要在預(yù)填充階段減少了計(jì)算成本，該階段計(jì)算視覺tokens的KV緩存。第一個(gè)token的生成比基于自注意力的方法（如LLaVA）更快。然而，推理速度的優(yōu)勢在第一個(gè)token之后減小。具體來說，對于兩個(gè)輸入圖像，EE-MLLM的推理速度幾乎是LLaVA的四倍。這清楚地表明，EE-MLLM在多圖像輸入場景中（包括交錯(cuò)的圖像-文本對話和多模態(tài)上下文學(xué)習(xí)）顯著更高效。

數(shù)據(jù)高效和計(jì)算高效全都要！中科大&微信等提出多模態(tài)大語言模型EE-MLLM-AI.x社區(qū)

EE-MLLM 的 GPU 內(nèi)存開銷

本文評(píng)估了EE-MLLM在預(yù)訓(xùn)練和微調(diào)階段的GPU內(nèi)存開銷。同樣，本文在分辨率為336X336時(shí)，將EE-MLLM與LLaVA進(jìn)行了比較。本文在8×H800上進(jìn)行實(shí)驗(yàn)，預(yù)訓(xùn)練的全局批量大小為256，微調(diào)時(shí)為128。

內(nèi)存使用情況的比較詳見下表5。在預(yù)訓(xùn)練階段，EE-MLLM的內(nèi)存使用顯著較低，為32G，而LLaVA的內(nèi)存使用為75G。在微調(diào)階段，由于主要內(nèi)存使用集中在可訓(xùn)練的LLM上，內(nèi)存使用優(yōu)勢變得不太明顯，EE-MLLM消耗66G，而LLaVA-v1.6使用69G。

數(shù)據(jù)高效和計(jì)算高效全都要！中科大&微信等提出多模態(tài)大語言模型EE-MLLM-AI.x社區(qū)

消融研究

實(shí)施細(xì)節(jié)

根據(jù)LLaVA-v1.5，本文采用Vicuna-7b-v1.5 作為本文的基礎(chǔ)LLM。訓(xùn)練數(shù)據(jù)與LLaVA-v1.5一致，包括預(yù)訓(xùn)練數(shù)據(jù)和監(jiān)督微調(diào)數(shù)據(jù)。

與LLaVA的比較

在下表4中，本文在相同的設(shè)置下比較了EE-MLLM和LLaVA在一般和細(xì)粒度基準(zhǔn)測試中的表現(xiàn)。對于分辨率為336X336的情況，本文使用CLIP-ViT-L-14作為視覺編碼器，確保與LLaVA-v1.5完全對齊。EE-MLLM在一般基準(zhǔn)測試中表現(xiàn)與LLaVA相當(dāng)。在細(xì)粒度基準(zhǔn)測試中，EE-MLLM在分辨率為336X336時(shí)在AI2D和ChartQA上表現(xiàn)出色，但在OCRBench和TextVQA上略遜于LLaVA。對于336X336分辨率的平均得分為47.1，是LLaVA的48.1的98%。對于分辨率為672X672的情況，本文使用SigLIP作為視覺編碼器。如表4所示，EE-MLLM在AI2D和TextVQA上獲得了相當(dāng)?shù)慕Y(jié)果，平均得分保持在LLaVA性能的98%。

數(shù)據(jù)高效和計(jì)算高效全都要！中科大&微信等提出多模態(tài)大語言模型EE-MLLM-AI.x社區(qū)

對齊器的消融實(shí)驗(yàn)

在下表6中，本文評(píng)估了具有不同映射權(quán)重的對齊器變體。本文使用從Idefics2（Lauren?on等人，2024）初始化的SigLIP在不同的輸入分辨率下進(jìn)行實(shí)驗(yàn)。本文移除了對齊器中的不同權(quán)重，并在分辨率為336X336下訓(xùn)練模型。對勾token表示在對齊器中使用的權(quán)重。

數(shù)據(jù)高效和計(jì)算高效全都要！中科大&微信等提出多模態(tài)大語言模型EE-MLLM-AI.x社區(qū)

本文有三個(gè)發(fā)現(xiàn)：1）如第一行所示，移除整個(gè)對齊器會(huì)顯著降低多個(gè)基準(zhǔn)測試的性能。具體而言，TextVQA的得分從46.1降至44.8，五個(gè)基準(zhǔn)測試的平均得分從34.5降至33.5。這個(gè)結(jié)果突顯了對齊器在將視覺特征與LLM特征空間對齊方面的有效性，使文本tokens能夠通過因果交叉注意模塊捕捉關(guān)鍵的視覺信息并解決問題。2）當(dāng)消融對齊器中的個(gè)別權(quán)重時(shí)，本文發(fā)現(xiàn)保持結(jié)構(gòu)更為重要。缺少V或O對低分辨率輸入的影響相對較小，甚至在缺少V時(shí)表現(xiàn)略有提升。然而，當(dāng)缺少FFN時(shí)，對齊器的結(jié)構(gòu)不再類似于transformer塊，導(dǎo)致顯著的性能損失。3）本文直接將輸入圖像分辨率提高到672X672，而無需額外訓(xùn)練，并比較具有不同對齊器類型的變體。本文觀察到，在高分辨率輸入下，缺少V或O權(quán)重會(huì)導(dǎo)致細(xì)粒度基準(zhǔn)測試（如TextVQA、ChartQA和DocVQA）出現(xiàn)顯著下降。這個(gè)發(fā)現(xiàn)表明在應(yīng)用于高分辨率圖像時(shí)，完整的對齊器是多么重要。

可視化

本文從BLINK 和RealWorldQA 中采樣了四個(gè)示例，以評(píng)估下圖3中架構(gòu)變化的影響。第一個(gè)示例展示了EE-MLLM能夠感知圖像中的細(xì)粒度視覺上下文，例如交通信號(hào)燈的顏色。第二和第三個(gè)示例強(qiáng)調(diào)了EE-MLLM理解物體位置的能力。具體而言，EE-MLLM可以準(zhǔn)確識(shí)別吉他相對于桌子的位置以及狗的位置。最后一個(gè)示例揭示了EE-MLLM能夠區(qū)分視覺內(nèi)容中的細(xì)微差別。

數(shù)據(jù)高效和計(jì)算高效全都要！中科大&微信等提出多模態(tài)大語言模型EE-MLLM-AI.x社區(qū)

結(jié)論

在本文中，本文重新審視了多模態(tài)大語言模型的先前研究，并將其分為兩類：基于自注意力的方法和基于交叉注意力的方法。前者數(shù)據(jù)效率高但計(jì)算效率低，而后者計(jì)算效率高但數(shù)據(jù)效率低。為了在保持計(jì)算效率的同時(shí)確保數(shù)據(jù)效率，本文為EE-MLLM提出了復(fù)合注意力機(jī)制，該機(jī)制結(jié)合了復(fù)合注意力模塊以提高計(jì)算效率，以及對齊器以提高數(shù)據(jù)效率。本文在一般基準(zhǔn)和細(xì)粒度基準(zhǔn)上進(jìn)行了全面實(shí)驗(yàn)，發(fā)現(xiàn)EE-MLLM在大多數(shù)基準(zhǔn)上實(shí)現(xiàn)了最先進(jìn)的性能。本文還評(píng)估了EE-MLLM在實(shí)際場景中的推理速度，結(jié)果表明EE-MLLM在推理方面具有顯著優(yōu)勢。

本文轉(zhuǎn)自AI生成未來，作者：Feipeng Ma等

原文鏈接:??https://mp.weixin.qq.com/s/MyId76rf7UpiskK_jUR87A??

標(biāo)簽

數(shù)據(jù)

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

中科大等意外發(fā)現(xiàn)：大模型不看圖也能正確回答視覺問題！

Crystalcxt ? 2501瀏覽 ? 0回復(fù)
大語言模型高效推理知多少？三萬字長文帶你揭開神秘面紗（數(shù)據(jù)級(jí)、模型級(jí)和系統(tǒng)級(jí)）

angel ? 1.3w瀏覽 ? 0回復(fù)
百萬級(jí)高質(zhì)量視頻數(shù)據(jù)集發(fā)布，登頂抱抱臉數(shù)據(jù)集排行榜，中科大&上海AI Lab等出品

Crystalcxt ? 3066瀏覽 ? 0回復(fù)
多模態(tài)大型語言模型（MLLM）綜述

AIRoobt ? 5977瀏覽 ? 0回復(fù)
電子科大、同濟(jì)大學(xué)、新加坡國立大學(xué)等發(fā)表的Math-LLaVA：引導(dǎo)多模態(tài)大語言模型的數(shù)學(xué)推理能力

sbf_2000 ? 5211瀏覽 ? 0回復(fù)
中科大聯(lián)合華為諾亞提出Entropy Law，揭秘大模型性能、數(shù)據(jù)壓縮率以及訓(xùn)練損失關(guān)系

輕薄滴假象 ? 2903瀏覽 ? 0回復(fù)
中科大提出UniMEL框架 | 革新知識(shí)圖譜，引領(lǐng)多模態(tài)實(shí)體鏈接新紀(jì)元

AI論文解讀 ? 4660瀏覽 ? 0回復(fù)
Google:我全都要！

探索AGI ? 2527瀏覽 ? 0回復(fù)
中科大&科大訊飛重磅開源OpenMusic：音樂生成更高質(zhì)量，更有樂感

angel ? 3845瀏覽 ? 0回復(fù)
科大訊飛等提出MiLoRA：新穎且高效的LoRA變體

angel ? 3104瀏覽 ? 0回復(fù)
多模態(tài)RAG-ColPali：使用視覺語言模型實(shí)現(xiàn)高效的文檔檢索

大模型自然語言處理 ? 3100瀏覽 ? 0回復(fù)
Infinigence AI 發(fā)布 Megrez-3B-Omni：3B 設(shè)備上開源多模態(tài)大語言模型 MLLM

Halo咯咯 ? 2478瀏覽 ? 0回復(fù)
2025 年 10 大 AI 方向：高效推理、多模態(tài)等

云原生AI百寶箱 ? 3392瀏覽 ? 0回復(fù)
中科大揭秘微調(diào)大模型的秘訣：如何精準(zhǔn)選擇數(shù)據(jù)提升AI性能

AI論文解讀 ? 3206瀏覽 ? 0回復(fù)
計(jì)算效率和性能雙贏！南大聯(lián)合中移動(dòng)發(fā)布高效多模態(tài)大模型新范式—— p-MoD

angel ? 2397瀏覽 ? 0回復(fù)
多模態(tài)大語言模型（MLLMs）如何重塑和變革計(jì)算機(jī)視覺？

angel ? 4059瀏覽 ? 0回復(fù)
有感于微信接入DeepSeek

ceesoft ? 1926瀏覽 ? 0回復(fù)
中科院、百度提出新架構(gòu)：突破參數(shù)限制，實(shí)現(xiàn)高效推理

Aceryt ? 1925瀏覽 ? 0回復(fù)
字節(jié) TileLink：編譯生成高效的計(jì)算和通信 Overlap Kernel

amei2000go ? 2610瀏覽 ? 0回復(fù)

這個(gè)用戶很懶，還沒有個(gè)人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

多領(lǐng)域SOTA誕生！Vid2World：打通視頻擴(kuò)散到世界模型的“任督二脈”｜清華、重大 2025-05-23 10:17:32發(fā)布
多模態(tài)終極大一統(tǒng)！字節(jié)開源BAGEL爆火：圖文生成理解雙冠王，竟能預(yù)測未來畫面？ 2025-05-22 09:33:05發(fā)布

熱門推薦

從原理到調(diào)參，小白也能讀懂的大模型微調(diào)LoRA，不懂線性代數(shù)也沒問題 0回復(fù)

本命周！MiniMax M1有多猛？網(wǎng)友：僅用40k思考預(yù)算就干翻Gemini，實(shí)測：真·超DS！ 1回復(fù)

AI Agents開源工具棧全解析~ 0回復(fù)

效果&成本雙突破！快手提出端到端生成式推薦系統(tǒng)OneRec！ 0回復(fù)

我把DeepSeek微調(diào)參數(shù)扒光了，顯存和性能優(yōu)化的秘密都在這 0回復(fù)

上一篇： Meta最新成果：前所未有的加速Emu推理 | Imagine Flash：新型蒸餾框架發(fā)布

下一篇：史上最強(qiáng)文生圖模型？谷歌Imagen3內(nèi)部詳細(xì)評(píng)估資料解讀

社區(qū)精華內(nèi)容

目錄

主站蜘蛛池模板：一区二区在线 | 午夜免费福利电影 | 国产成人99久久亚洲综合精品 | 国产三区四区 | 999久久| 久久久久成人精品 | 五月婷婷激情网 | 亚洲欧美第一视频 | 国产特级毛片aaaaaa | 亚洲综合一区二区三区 | 天天操天天摸天天干 | 午夜av电影 | 97国产精品视频人人做人人爱 | 日日摸日日碰夜夜爽亚洲精品蜜乳 | 欧美一级特黄aaa大片在线观看 | 在线中文字幕亚洲 | 中文字幕中文字幕 | 久久久久se | 在线观看第一页 | 亚洲欧美在线观看 | 国产综合精品一区二区三区 | 国产精品日韩欧美一区二区 | 国产欧美在线 | 日韩成人高清 | 一级毛片免费看 | 久久久久久久久久久久久久久久久久久久 | 国产一区二区在线免费播放 | 中文字幕乱码一区二区三区 | 欧美成人免费电影 | 91中文字幕在线观看 | 欧美色影院 | 91色视频在线观看 | 欧美国产日韩在线 | 亚洲午夜精品 | av在线播放一区二区 | 亚洲一区二区在线视频 | 久精品久久 | 毛片一区二区 | 日韩av成人在线 | 日韩在线中文 | 中文二区|