成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

賈佳亞團隊新模型對標ChatGPT+DALL-E 3王炸組合!讀懂梗圖刷爆榜單,代碼復現數學函數

人工智能
賈佳亞團隊提出VLM模型Mini-Gemini,堪比GPT-4+DALL-E 3王炸組合,一上線就刷爆了多模態任務榜單!讀得懂梗圖,做得了學術,用代碼就能復現數學函數圖。

刷爆多模態任務榜單,超強視覺語言模型Mini-Gemini來了!

效果堪稱是開源社區版的GPT-4+DALL-E 3王炸組合。

不僅如此,這款由港中文終身教授賈佳亞團隊提出的多模態模型,一經發布便登上了PaperWithCode熱榜。

圖片圖片

Demo地址: http://103.170.5.190:7860/

論文地址:https://arxiv.org/pdf/2403.18814.pdf

具體來說,Mini-Gemini提供了2B小杯到34B的超大杯的不同選擇。

憑借超強的圖文理解力,Mini-Gemini在多個指標上,直接媲美Gemini Pro,GPT-4V。

圖片圖片

目前,研究團隊將Mini-Gemini的代碼、模型、數據全部開源。

更有意思的是,超會玩梗的Mini-Gemini線上Demo已經發布,人人皆可上手試玩。

Mini-Gemini Demo放出后受到廣大網友關注,一番「嘗鮮」后,有人認為:Mini-Gemini跟商業模型差不了多少!

圖片圖片

為何這么說?

圖片理解天花板

當前,絕大多數多模態模型僅支持低分辨率圖像輸入和文字輸出。

而在實際場景中,許多任務都需要對高清圖像進行解析,并用圖像的形式進行展現。

舉個例子,Mini-Gemini能夠看懂面包九宮格圖片教程,并進行手把手教學。

圖片圖片

拍一張蘋果店Mac電腦信息圖,Mini-Gemini能夠將兩種尺寸的Mac不同參數進行對比。

有網友看過后表示,「媽媽再也不用擔心我的生活了」。

圖片

更重要的是,Mini-Gemini在保留超強的圖像理解和推理能力的同時,還解鎖了圖像的生成能力,就如同ChatGPT和生成模型的結合。

下面,讓我們通過幾個例子來更直觀地感受這種能力:

推理再生成,更精準了

還記得谷歌Gemini的官方演示視頻么?

當用戶給出兩個毛線團并問出能用它們做什么時,Gemini可以識別出圖片內容并給出相應的建議。

圖片圖片

圖片

圖片

當我們把相似的輸入給到Mini-Gemini,它會怎么回答呢?

圖片圖片

可以發現,Mini-Gemini也可以識別出圖片中的元素,并且合理地建議,同時生成了一只對應的毛線小熊。

圖片圖片

通過一些抽象的多模態指令來讓模型給出推理,并生成合適的圖片,這個操作就很像是ChatGPT和DALLE3的聯動了!

接下來讓Mini-Gemini做自己最擅長的推理和圖片理解,看看它表現。

比如,理解圖片中的矛盾點并舉一反三。

輸入冰川中的仙人掌,它會解釋其中的矛盾并生成一張熱帶雨林中北極熊的圖片:

圖片圖片

圖片呈現了仙人掌的典型棲息地與冰的存在之間的視覺矛盾,因為在沙漠環境中自然不會出現冰。

Mini-Gemini正是理解了這種矛盾點,才生成了一張北極熊出現在熱帶雨林的圖片。

這種并置創造了一個引人注目且超現實的視覺效果,挑戰觀眾的期待,并可能引發人們對氣候變化、環境適應或不同生態系統融合的思考。

同時,正如ChatGPT+DALLE3的夢幻結合一樣,Mini-Gemini的「推理生成」功能還可以在多輪對話中通過簡單指令生成連環小故事。

比方說,讓它根據用戶輸入講一個貴族小老鼠的故事。

Mini-Gemini會根據前文的文字生成結果和用戶輸入進行推理,在保持一致性的情況下對圖片進行修改,使其更符合用戶的要求。

圖片圖片

圖片

當然,Mini-Gemini對于多模態模型的傳統技能圖片理解也不在話下。

比方讓模型理解輸入曲線圖的數學意義(高斯分布),并讓它使用代碼復現這張圖。

通過運行生成的代碼,模型可以高質量地還原曲線圖,節省了復現的時間。

圖片圖片

圖片圖片

超會玩梗

又或者讓Mini-Gemini理解梗圖,通過其強大的OCR和推理能力,也可以準確指出笑點。

一張將麥當勞P成GYM表情包,外加對話圖,搞笑點在哪?

圖片圖片

Mini-Gemini可以準確理解圖中諷刺含義,并給出了正確的解釋。

圖片圖片

圖片圖片

還有這張「當某媒體說AI將接管世界,實際上我的神經網絡連貓未能識別」的梗圖。

圖片圖片

Mini-Gemini也是可以理解,是在說AI犯錯的例子,并且與公眾接受到的預期并不一樣。

圖片圖片

圖中細節的幽默之處,它都能get得明明白白。

圖片圖片

高清復雜的多圖表理解和歸納也是小菜一碟,Mini-Gemini直接秒變打工人效率提升的超級外掛。

圖片圖片

圖片圖片

英文圖表太復雜,讀起來太費腦子?它直觀地用中文整理出了內容——「比較不同籠養系統中母雞所承受的平均疼痛天數」。

圖片圖片

技術細節

如上演示中,Mini-Gemini是怎樣做到這種驚艷的效果呢?

圖片圖片

論文地址:https://arxiv.org/pdf/2403.18814.pdf

Github地址:https://github.com/dvlab-research/MiniGemini

模型地址:https://huggingface.co/collections/YanweiLi/mini-gemini-6603c50b9b43d044171d0854

數據地址:https://huggingface.co/collections/YanweiLi/mini-gemini-data-660463ea895a01d8f367624e

大道至簡,Mini-Gemini的整體思路并不復雜。其中的Gemini(雙子座)表達的是使用視覺雙分支的信息挖掘(Miraing-Info in Gemini)解決高清圖像理解問題。

而其中的核心在于三點:

(1)用于高清圖像的雙編碼器機制;

(2)更高質量的數據;

(3)訓練階段結合生成模型數據拓展。

詳細來說,Mini-Gemini將傳統所使用的ViT當做低分辨率的Query,而使用卷積網絡(ConvNet)將高分辨率的圖像編碼成Key和Value。

使用Transformer中常用的Attention機制,來挖掘每個低分辨率Query所對應的高分辨率區域。

從而在保持最終視覺Token數目不變的情況下去提升對高清圖像的響應,保證了在大語言模型(LLM)中對于高清圖像的高效編碼。

值得一提的是,由于高分辨率分支卷積網絡的使用,可以根據需要對圖像所需的分辨率自適應調整,能夠遇強則強。

對于圖像的生成部分,Mini-Gemini借助了SDXL,使用LLM推理后所生成的文本鏈接兩個模型,類似于DALLE3的流程。

圖片圖片

而對于數據這個「萬金油」,Mini-Gemini進一步收集并優化了訓練數據的質量,并加入了跟生成模型結合的文本數據進行訓練。

在僅使用2-3M數據的情況下,實現了對圖像理解、推理、和生成的統一流程。

Mini-Gemini在各種Zero-shot的榜單上毫不遜色于各種大廠用大量數據訓練出來的模型,可謂是「平、靚、正」 !

媲美Gemini Pro和GPT-4V

可以看出,Mini-Gemini提供了多種普通和高清版本的模型,并且覆蓋了2B的小杯到34B的超大杯。

各個版本都取得了相似參數量下領先的效果,在許多指標上甚至超越Gemini Pro和GPT-4V。

圖片圖片

人人在線可玩

值得一提的是,Mini-Gemini的圖像理解和生成能力已經出了Demo,可以在線跟自定義圖像對話的那種。

操作也極其簡單,直接跟輸入圖像或文字進行對話即可,歡迎來撩!

圖片圖片

Demo地址:http://103.170.5.190:7860/

參考資料:

https://arxiv.org/pdf/2403.18814.pdf

https://github.com/dvlab-research/MiniGemini

https://huggingface.co/collections/YanweiLi/mini-gemini-6603c50b9b43d044171d0854

https://huggingface.co/collections/YanweiLi/mini-gemini-data-660463ea895a01d8f367624e

http://103.170.5.190:7860/

責任編輯:武曉燕 來源: 新智元
相關推薦

2024-04-15 12:28:00

AI模型

2023-09-21 10:31:06

人工智能模型

2023-10-04 18:30:52

MetaAI

2024-07-18 12:56:29

2024-07-08 08:38:00

模型推理

2023-05-06 08:23:36

ChatGPT自然語言技術

2025-01-24 14:14:35

模型框架視頻

2023-10-04 10:38:38

模型方法

2023-08-09 17:38:47

模型AI

2024-04-03 13:33:43

2022-09-29 13:52:55

WindowsPython代碼

2023-03-01 16:29:51

ChatGPT人工智能

2023-10-09 12:36:08

人工智能數據

2023-12-06 13:59:00

數據訓練

2023-10-09 12:44:19

2023-12-10 15:05:47

AI模型

2023-10-23 09:25:08

模型AI

2023-10-20 08:26:50

2025-04-03 11:16:10

2023-10-09 14:17:00

AI模型
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 欧美一级黄色片 | 在线国产视频观看 | 婷婷久久精品一区二区 | 日韩视频―中文字幕 | 99久久精品免费看国产四区 | 欧美成年黄网站色视频 | 日本网站在线看 | 久久综合一区 | 亚洲国产一区二区三区在线观看 | 久久久精品| 夜夜爽99久久国产综合精品女不卡 | 91社区视频 | 国产一区二区久久 | 久久久精品一区二区三区 | 国产一区二区精品在线观看 | 在线观看中文字幕av | 日韩中文字幕在线 | 中文字幕国产 | 欧美在线观看一区 | 国产一区二区在线播放 | 欧美aⅴ片| 国产丝袜一区二区三区免费视频 | 亚洲精品在线播放 | 欧美成年人视频在线观看 | 一区二区三区四区在线 | 中文字幕日韩欧美 | 国产成人久久久 | 亚洲精品免费在线观看 | 日韩在线一区二区三区 | 午夜性视频 | 久热免费 | 中文字幕在线观看日韩 | 九九99靖品| 欧美日韩高清一区二区三区 | 久久99精品久久久 | 久久91| 黄色网址在线免费观看 | 久久久久91| 日韩精品一二三 | 久久青青 | www.久久久久久久久 |