成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

谷歌最強大模型免費開放了!長音頻理解功能獨一份,100萬上下文敞開用

發布于 2024-4-10 13:18
瀏覽
0收藏

谷歌最強大模型Gemini 1.5 Pro今天起,“全面”對外開放。


目前完全免費,開發者可以通過API調用的方式使用,普通玩家也可以在谷歌AI Studio中直接體驗。

谷歌最強大模型免費開放了!長音頻理解功能獨一份,100萬上下文敞開用-AI.x社區

(Ps. 發布這則消息的谷歌工程師Logan Kilpatrick正是原來OpenAI開發者關系的負責人,剛剛跳槽到谷歌。)


最讓人期待的是,Gemini 1.5 Pro API首次增加了音頻理解功能。


無論是財報電話會、電視節目還是大神演講,不需要我們再提供字幕文檔它就可以直接解讀了。


如下圖所示:


上傳Jeff Dean長約117000+token的演講錄音,Gemini 1.5 Pro在30.8s內就完成了解析。

谷歌最強大模型免費開放了!長音頻理解功能獨一份,100萬上下文敞開用-AI.x社區

而由于Gemini 1.5 Pro100萬的上下文窗口這次也直接對外開放,因此它可以處理的最長音頻約為11小時,最長視頻則為1小時,相當夠用。


我們也趕緊實測了一把,結果是真香。

Gemini 1.5 Pro開放API了

谷歌官方給這次免費開放的Gemini 1.5 Pro版本定義為“公開預覽版”


它主要面向開發者,可在谷歌AI Studio中獲得API密鑰:

谷歌最強大模型免費開放了!長音頻理解功能獨一份,100萬上下文敞開用-AI.x社區

目前最引人注目的音頻理解功能還沒添加到API中,但據說很快就會補上。


問題不大,我們可以先在Google AI Studio中直接體驗:

谷歌最強大模型免費開放了!長音頻理解功能獨一份,100萬上下文敞開用-AI.x社區

在實測中,我們上傳了比爾蓋茨1995年做客Late Show節目的一段音頻,時長1分鐘。

谷歌最強大模型免費開放了!長音頻理解功能獨一份,100萬上下文敞開用-AI.x社區

我們沒有提示這段音頻的任何背景信息,Gemini 1.5 Pro直接就聽出來了是誰。


并在10s左右精準整理出了全對話的精華部分,一點“正確的廢話”都沒有:

谷歌最強大模型免費開放了!長音頻理解功能獨一份,100萬上下文敞開用-AI.x社區

表現令人折服。


接下來,來個更具挑戰的,Andrej Karpathy1小時長的大模型科普教程。

谷歌最強大模型免費開放了!長音頻理解功能獨一份,100萬上下文敞開用-AI.x社區

我們提取音頻文件,足足10萬多個token(這種在UI里直接顯示當前消耗token數量的方法也廣受好評)。

谷歌最強大模型免費開放了!長音頻理解功能獨一份,100萬上下文敞開用-AI.x社區

Gemini 1.5 Pro最終在53s內按要求給出了10個亮點分析:


可以說一分鐘就讓我們對1小時的演講內容有了整體認知,再也不用費勁扒字幕文件了。

谷歌最強大模型免費開放了!長音頻理解功能獨一份,100萬上下文敞開用-AI.x社區

繼續回到API本身。


除了音頻理解,為了讓開發者更好地控制模型輸出,Gemini 1.5 Pro還提供了另外3項新功能/改進:


首先是系統指令


我們可以自定義一些特殊用例,包括它們的角色、輸出格式/風格/語氣、目標和規則等等。

谷歌最強大模型免費開放了!長音頻理解功能獨一份,100萬上下文敞開用-AI.x社區

設置完成后,這個指令就會應用于接下來的整個請求。

示例如下:

谷歌最強大模型免費開放了!長音頻理解功能獨一份,100萬上下文敞開用-AI.x社區

其次,JSON模式


也就是可以指示模型僅輸出JSON對象了,非常方便我們從文本或圖像中提取結構化數據。

第三,函數調用上也有改進


為了提高可靠性,Gemini 1.5 Pro也可以選擇不同模式來限制模型的輸出了。


可以是文本模式,將生成文本作為輸出;也可以是函數調用模式,或者干脆只輸出函數本身(不帶任何參數或其他信息)。


最后,還沒完,從今天起,開發者還能通過該API調用谷歌的下一代文本嵌入模型:

text-embedding-004(又名“Gecko”)。


該模型在MTEB基準上實現了非常強大的檢索性能,優于可比維度的所有對手。

谷歌最強大模型免費開放了!長音頻理解功能獨一份,100萬上下文敞開用-AI.x社區

兩個月前誕生的谷歌最強大模型

Gemini 1.5 Pro于2月15日發布,距今還不到兩個月。


它是Gemini Pro的升級版,多模態多語言,最大的亮點無疑是上下文窗口長度:

從128k到最多100萬。


100萬個token相當于可處理70萬個單詞或約3萬行代碼,折合成音頻就是約11小時,視頻約1小時。


無疑是很大的一個量級了(現在則完全在API中開放)。

谷歌最強大模型免費開放了!長音頻理解功能獨一份,100萬上下文敞開用-AI.x社區

當時官方的演示包括用它搜索阿波羅11號登月的電視轉播信息,一共402頁文字記錄。

模型的響應時間大約在20s到1分鐘。稍微有點慢,但谷歌承諾會優化延遲時間。


而Gemini 1.5 Pro發布之后,網友也很快分享了一些還不錯的內測結果,包括:


鑒別Sora視頻是否AI生成,給出關鍵證據;

谷歌最強大模型免費開放了!長音頻理解功能獨一份,100萬上下文敞開用-AI.x社區

在一場14分鐘的NBA扣籃視頻中,判斷出哪個扣籃得分最高, 并給出其中扣籃細節;

谷歌最強大模型免費開放了!長音頻理解功能獨一份,100萬上下文敞開用-AI.x社區

還有分析比較《星際穿越》和《星際探索》兩個完整的電影腳本,合起來接近10萬token,結果三十幾秒內就給出了完整詳盡的報告。

谷歌最強大模型免費開放了!長音頻理解功能獨一份,100萬上下文敞開用-AI.x社區

可以說,這次谷歌整體是沒有讓大伙失望的。


最高能的是,它還能看錄像改BUG


有網友在編寫一個網頁的代碼時故意留了3個bug,并分別錄制了3個bug視頻,外加代碼庫打包成文件一同丟給Gemini 1.5 Pro,結果全部分分鐘給出正確代碼。

谷歌最強大模型免費開放了!長音頻理解功能獨一份,100萬上下文敞開用-AI.x社區

這位網友當時就表示:這“小伙子”前途不可限量啊。


而在今天,隨著Gemini 1.5 Pro API的“全面”開放,大伙可以更進一步地感受其厲害了。

咳咳,就是目前速率限制還有點高:


每分鐘請求量為5次,每分鐘token為1000萬個,每日請求量為2000個~

谷歌最強大模型免費開放了!長音頻理解功能獨一份,100萬上下文敞開用-AI.x社區

友情鏈接:???https://aistudio.google.com/app/prompts/new_chat??


本文轉自 量子位 ,作者:量子位


原文鏈接:??https://mp.weixin.qq.com/s/R7zSua2C0c1oKGmkQr9pKA??

收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 久久久久综合 | 玖玖国产 | 超碰在线人人干 | 国产一区二区三区在线视频 | 亚洲国产精品视频 | 97精品超碰一区二区三区 | 一本一道久久a久久精品综合蜜臀 | 久久伊人影院 | 亚洲在线一区二区 | 日韩成人免费视频 | 久久只有精品 | 一区二区三区亚洲 | 一级黄a视频 | 一区二区视频在线 | 国产精品亚洲欧美日韩一区在线 | 欧美三级电影在线播放 | 日韩成人免费视频 | 91精品一区 | 91干b| 91免费观看国产 | 超碰在线人 | 波多野结衣二区 | 久久精品二区 | 欧美日韩视频 | 中文在线一区二区 | 二区欧美 | 毛片视频观看 | 精久久久 | 亚洲一级毛片 | 亚洲在线 | 欧美色性 | 日日骚av| 中文字幕国产精品 | 亚洲精品99 | 日韩在线中文 | 成人午夜在线 | 日本亚洲一区 | 日韩欧美三区 | 久久一区二区免费视频 | h视频在线播放 | 亚州影院 |