谷歌最強大模型免費開放了！長音頻理解功能獨一份，100萬上下文敞開用

Crystalcxt

發布于 2024-4-10 13:18

瀏覽

0收藏

谷歌最強大模型Gemini 1.5 Pro今天起，“全面”對外開放。

目前完全免費，開發者可以通過API調用的方式使用，普通玩家也可以在谷歌AI Studio中直接體驗。

谷歌最強大模型免費開放了！長音頻理解功能獨一份，100萬上下文敞開用-AI.x社區

（Ps. 發布這則消息的谷歌工程師Logan Kilpatrick正是原來OpenAI開發者關系的負責人，剛剛跳槽到谷歌。）

最讓人期待的是，Gemini 1.5 Pro API首次增加了音頻理解功能。

無論是財報電話會、電視節目還是大神演講，不需要我們再提供字幕文檔它就可以直接解讀了。

如下圖所示：

上傳Jeff Dean長約117000+token的演講錄音，Gemini 1.5 Pro在30.8s內就完成了解析。

谷歌最強大模型免費開放了！長音頻理解功能獨一份，100萬上下文敞開用-AI.x社區

而由于Gemini 1.5 Pro100萬的上下文窗口這次也直接對外開放，因此它可以處理的最長音頻約為11小時，最長視頻則為1小時，相當夠用。

我們也趕緊實測了一把，結果是真香。

Gemini 1.5 Pro開放API了

谷歌官方給這次免費開放的Gemini 1.5 Pro版本定義為“公開預覽版”。

它主要面向開發者，可在谷歌AI Studio中獲得API密鑰：

谷歌最強大模型免費開放了！長音頻理解功能獨一份，100萬上下文敞開用-AI.x社區

目前最引人注目的音頻理解功能還沒添加到API中，但據說很快就會補上。

問題不大，我們可以先在Google AI Studio中直接體驗：

谷歌最強大模型免費開放了！長音頻理解功能獨一份，100萬上下文敞開用-AI.x社區

在實測中，我們上傳了比爾蓋茨1995年做客Late Show節目的一段音頻，時長1分鐘。

谷歌最強大模型免費開放了！長音頻理解功能獨一份，100萬上下文敞開用-AI.x社區

我們沒有提示這段音頻的任何背景信息，Gemini 1.5 Pro直接就聽出來了是誰。

并在10s左右精準整理出了全對話的精華部分，一點“正確的廢話”都沒有：

谷歌最強大模型免費開放了！長音頻理解功能獨一份，100萬上下文敞開用-AI.x社區

表現令人折服。

接下來，來個更具挑戰的，Andrej Karpathy1小時長的大模型科普教程。

谷歌最強大模型免費開放了！長音頻理解功能獨一份，100萬上下文敞開用-AI.x社區

我們提取音頻文件，足足10萬多個token（這種在UI里直接顯示當前消耗token數量的方法也廣受好評）。

谷歌最強大模型免費開放了！長音頻理解功能獨一份，100萬上下文敞開用-AI.x社區

Gemini 1.5 Pro最終在53s內按要求給出了10個亮點分析：

可以說一分鐘就讓我們對1小時的演講內容有了整體認知，再也不用費勁扒字幕文件了。

谷歌最強大模型免費開放了！長音頻理解功能獨一份，100萬上下文敞開用-AI.x社區

繼續回到API本身。

除了音頻理解，為了讓開發者更好地控制模型輸出，Gemini 1.5 Pro還提供了另外3項新功能/改進：

首先是系統指令。

我們可以自定義一些特殊用例，包括它們的角色、輸出格式/風格/語氣、目標和規則等等。

谷歌最強大模型免費開放了！長音頻理解功能獨一份，100萬上下文敞開用-AI.x社區

設置完成后，這個指令就會應用于接下來的整個請求。

示例如下：

谷歌最強大模型免費開放了！長音頻理解功能獨一份，100萬上下文敞開用-AI.x社區

其次，JSON模式。

也就是可以指示模型僅輸出JSON對象了，非常方便我們從文本或圖像中提取結構化數據。

第三，函數調用上也有改進。

為了提高可靠性，Gemini 1.5 Pro也可以選擇不同模式來限制模型的輸出了。

可以是文本模式，將生成文本作為輸出；也可以是函數調用模式，或者干脆只輸出函數本身（不帶任何參數或其他信息）。

最后，還沒完，從今天起，開發者還能通過該API調用谷歌的下一代文本嵌入模型：

text-embedding-004（又名“Gecko”）。

該模型在MTEB基準上實現了非常強大的檢索性能，優于可比維度的所有對手。

谷歌最強大模型免費開放了！長音頻理解功能獨一份，100萬上下文敞開用-AI.x社區

兩個月前誕生的谷歌最強大模型

Gemini 1.5 Pro于2月15日發布，距今還不到兩個月。

它是Gemini Pro的升級版，多模態多語言，最大的亮點無疑是上下文窗口長度：

從128k到最多100萬。

100萬個token相當于可處理70萬個單詞或約3萬行代碼，折合成音頻就是約11小時，視頻約1小時。

無疑是很大的一個量級了（現在則完全在API中開放）。

谷歌最強大模型免費開放了！長音頻理解功能獨一份，100萬上下文敞開用-AI.x社區

當時官方的演示包括用它搜索阿波羅11號登月的電視轉播信息，一共402頁文字記錄。

模型的響應時間大約在20s到1分鐘。稍微有點慢，但谷歌承諾會優化延遲時間。

而Gemini 1.5 Pro發布之后，網友也很快分享了一些還不錯的內測結果，包括：

鑒別Sora視頻是否AI生成，給出關鍵證據；

谷歌最強大模型免費開放了！長音頻理解功能獨一份，100萬上下文敞開用-AI.x社區

在一場14分鐘的NBA扣籃視頻中，判斷出哪個扣籃得分最高，并給出其中扣籃細節；

谷歌最強大模型免費開放了！長音頻理解功能獨一份，100萬上下文敞開用-AI.x社區

還有分析比較《星際穿越》和《星際探索》兩個完整的電影腳本，合起來接近10萬token，結果三十幾秒內就給出了完整詳盡的報告。

谷歌最強大模型免費開放了！長音頻理解功能獨一份，100萬上下文敞開用-AI.x社區

可以說，這次谷歌整體是沒有讓大伙失望的。

最高能的是，它還能看錄像改BUG：

有網友在編寫一個網頁的代碼時故意留了3個bug，并分別錄制了3個bug視頻，外加代碼庫打包成文件一同丟給Gemini 1.5 Pro，結果全部分分鐘給出正確代碼。

谷歌最強大模型免費開放了！長音頻理解功能獨一份，100萬上下文敞開用-AI.x社區

這位網友當時就表示：這“小伙子”前途不可限量啊。

而在今天，隨著Gemini 1.5 Pro API的“全面”開放，大伙可以更進一步地感受其厲害了。

咳咳，就是目前速率限制還有點高：

每分鐘請求量為5次，每分鐘token為1000萬個，每日請求量為2000個～

谷歌最強大模型免費開放了！長音頻理解功能獨一份，100萬上下文敞開用-AI.x社區

友情鏈接：???https://aistudio.google.com/app/prompts/new_chat??

本文轉自量子位，作者：量子位

原文鏈接:??https://mp.weixin.qq.com/s/R7zSua2C0c1oKGmkQr9pKA??

標簽

谷歌

模型

贊

回復

舉報

回復

相關推薦

蘋果發超強上下文理解模型，聰明版Siri馬上就來

duhorse ? 2922瀏覽 ? 0回復
首個開源世界模型！百萬級上下文，長視頻理解吊打GPT-4，UC伯克利華人一作

duhorse ? 3379瀏覽 ? 0回復
LLM超長上下文查詢-性能評估實戰

ermulong ? 3249瀏覽 ? 0回復
直接擴展到無限長，谷歌Infini-Transformer終結上下文長度之爭

輕薄滴假象 ? 2642瀏覽 ? 0回復
讓大模型不再「巨無霸」，這是一份最新的大模型參數高效微調綜述

輕薄滴假象 ? 2770瀏覽 ? 0回復
LLM上下文窗口突破200萬！無需架構變化+復雜微調，輕松擴展8倍

duhorse ? 3662瀏覽 ? 0回復
百萬上下文RAG，Agent還能這么玩

ermulong ? 3737瀏覽 ? 0回復
LLM超長上下文查詢-性能評估實戰

ermulong ? 3096瀏覽 ? 0回復
長上下文能力只是吹牛？最強GPT-4o正確率僅55.8%，開源模型不如瞎蒙

duhorse ? 3315瀏覽 ? 0回復
長上下文 還是 RAG？ Google:我全都要！

探索AGI ? 2522瀏覽 ? 0回復
長上下文語言模型評估體系探析

Baihai_IDP ? 2973瀏覽 ? 0回復
大模型超長窗口上下文與檢索增強生成——RAG

AI探索時代 ? 2847瀏覽 ? 0回復
Claude的MCP（模型上下文協議）簡介

Halo咯咯 ? 5476瀏覽 ? 0回復
AI 編程必備：用 Cline 的四個命令實現無縫上下文管理

凝固的雨_1 ? 7904瀏覽 ? 0回復
谷歌提出Titans：突破算力限制，擴展上下文

Aceryt ? 2082瀏覽 ? 0回復
基于多模態大語言模型的上下文目標檢測

AIRoobt ? 2601瀏覽 ? 0回復
模型上下文協議（MCP）開發實戰——構建LangChain代理客戶端

51CTO內容精選 ? 4493瀏覽 ? 0回復
Llama 4 凌晨震撼發布：Meta開源最強MoE多模態模型，1000萬上下文碾壓行業！

AI博物院 ? 1815瀏覽 ? 0回復
剛剛，OpenAI發布GPT-4.1，性能暴漲、100萬上下文

Aceryt ? 1287瀏覽 ? 0回復

Crystalcxt

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

51CTO

51CTO博客

51CTO學堂

谷歌最強大模型免費開放了！長音頻理解功能獨一份，100萬上下文敞開用

Gemini 1.5 Pro開放API了

兩個月前誕生的谷歌最強大模型

目錄