谷歌重磅發(fā)布Gemini 1.5 Pro:能自動寫影評,理解視頻!
4月10日凌晨,谷歌在官網(wǎng)正式發(fā)布了Gemini 1.5 Pro,現(xiàn)在可在180多個國家/地區(qū)使用。
除了能生成創(chuàng)意文本、代碼之外,Gemini 1.5 Pro最大的特色是能根據(jù)用戶輸入的文本提示,理解、總結(jié)上傳的視頻、音頻內(nèi)容進(jìn)行深度總結(jié),并且支持100萬tokens上下文。
目前,可以在Google AI Studio開發(fā)平臺中免費(fèi)試用Gemini 1.5 Pro,支持中文進(jìn)行提示。
此外,谷歌還對Gemini API進(jìn)行了性能優(yōu)化,包括系統(tǒng)指令、JSON模式以及函數(shù)調(diào)用優(yōu)化,可顯著提升模型的穩(wěn)定性和輸出能力。
視頻理解展示
「AIGC開放社區(qū)」通過Google AI Studio開發(fā)平臺第一時間體驗了一下最新的Gemini 1.5 Pro的多模態(tài)理解能力。使用方法非常簡單便捷,以下是教程示例。
1)登錄https://aistudio.google.com/app/prompts/new_chat然后選擇模型Gemini 1.5 Pro,以及上方的Video功能。
2)點擊Video后,選擇Upload上傳視頻。
3)由于模型對上傳視頻的解析速度過慢,所以,這里直接使用了谷歌內(nèi)置的視頻示例。需要注意的是,上傳視頻不要超過100萬tokens。
4)我們使用內(nèi)置視頻示例,然后用中文提問:“介紹一下這部影片講述了哪些內(nèi)容。”
5)Gemini 1.5 Pro正在解析,通常只需要幾十秒就能完成。
結(jié)果已經(jīng)出來了,這是一部由BusterKeaton 于 1924 年主演并導(dǎo)演的電影《福爾摩斯二世》。
6)我們繼續(xù)發(fā)問,“你能用這個視頻寫一段600字的影評嗎?”大概幾十秒后,Gemini 1.5 Pro便生成了影評。
雖然生成的內(nèi)容無法與頂級影評人的作品媲美。但整體的文章架構(gòu)、敘述方法以及詞匯的準(zhǔn)確度是超過很多小白、中級影評人的水平。只需要在這個基礎(chǔ)之上進(jìn)行稍加修改,就是一篇不錯的內(nèi)容。
值得一提的是,用戶可以一次性上傳多個視頻一起解讀,這對于視頻媒體行業(yè)來說很有幫助,可以快速理解長視頻內(nèi)容節(jié)省時間。
音頻理解展示
我們再試試音頻,基本操作與視頻差不多。這里我們上傳一份英文閱讀ESL Podcast的課程。
然后上傳MP3格式文件
2)音頻比視頻解析快了很多很多,這里我們上傳的音頻有大約12萬tokens。
3)開始發(fā)問,“總結(jié)一下這個音頻的內(nèi)容。”
4)Gemini 1.5 Pro已經(jīng)精準(zhǔn)解讀出來了,這個音頻是 ESL Podcast 系列課程“Jeff 的一天”的第一課,旨在幫助學(xué)習(xí)者掌握日常英語詞匯。
比較意外的是,Gemini 1.5 Pro還把整個可成的結(jié)構(gòu)、故事內(nèi)容和學(xué)習(xí)目標(biāo)全部都解讀了出來,看來Gemini 1.5 Pro還是更懂英文數(shù)據(jù)內(nèi)容。
Gemini 1.5 Pro的音頻理解,同樣支持多個文件一起解讀。
Gemini API改進(jìn)
為了幫助開發(fā)人員更好地控制Gemini模型,谷歌對API進(jìn)行了三個優(yōu)化。
系統(tǒng)指令:目前可以在Google AI Studio 和 Gemini API 中使用系統(tǒng)指令功能,可指導(dǎo)模型的響應(yīng)輸出。能讓用戶根據(jù)其特定需求和用例控制模型的行為。
在設(shè)置系統(tǒng)指令時,用戶需要為模型提供額外的上下文來了解任務(wù)、提供自定義程度更高的響應(yīng),并在用戶與模型的整個互動過程中遵循特定準(zhǔn)則。
而開發(fā)者通過系統(tǒng)指令能定義角色、格式、目標(biāo)和規(guī)則,以引導(dǎo)模型在特定用例中的各種行為。
JSON模式:現(xiàn)在Gemini API 提供了一個配置參數(shù),用于請求 JSON 格式的響應(yīng)。可以幫助開發(fā)者從文本或圖像中提取結(jié)構(gòu)化數(shù)據(jù)。
函數(shù)調(diào)用優(yōu)化:開發(fā)者可以使用自定義函數(shù)并將其提供給AI模型,但模型不會直接調(diào)用這些函數(shù),而是生成指定函數(shù)名稱和建議的參數(shù)的結(jié)構(gòu)化數(shù)據(jù)輸出。
該輸出支持調(diào)用外部 API,然后生成的 API 輸出可以重新合并到模型中,從而幫助開發(fā)者實現(xiàn)更全面的查詢響應(yīng)。
目前,Gemini 1.5 Pro已經(jīng)全面開放使用了,有興趣的小伙伴趕緊去試試吧。
本文轉(zhuǎn)自AIGC開放社區(qū) ,作者:AIGC開放社區(qū)
