大模型上層應用本質上是一個能力整合的過程 原創
“ 技術的應用并不是一個孤島,而是一個能力整合和串聯的過程”
很多人喜歡把大模型當做一個獨立的技術和應用,事實上各種應用場景是一個能力整合的過程,而不是獨立的技術孤島。
思考一個問題,你知道網絡上一些由AI合成的視頻是怎么生成的嗎? 它的背后隱藏著那些能力?
大模型構建上層應用
以網上爆火的AI視頻類為例,一個AI視頻使用到了哪些技術?
首先,視頻生成和處理的能力;其次,語音合成能力;再者,音畫同步的能力;最后,文字與語音轉換的能力等等。
比如說,要想做一個林黛玉大戰孫悟空,卻導致鎮關西失街亭,最后導致劉備官渡之戰大敗而歸的視頻;并配上文字和語音解說。
這樣的視頻應該怎么做?
首先,需要利用AI 視頻工具生成以上四個部分;孫悟空大戰林黛玉,鎮關西失街亭,官渡大戰;然后自己或使用自然語言處理工具做出解說文字;最后再用TTS或剪輯工具配上某個人的語音;這樣才算完成了一個基礎的視頻剪輯功能。
而這也是自媒體界常說的腳本,第一步該干啥,第二步該干啥等等。
而從大模型的應用角度來說,這個功能就屬于AIGC的功能;那如果從技術的角度來說,是否能夠利用編程技術整合多個大模型的能力,使得以上功能只需要輸入一些prompt就可以完成?
從理論上來說,這種想法是可行的;而需要的是什么?
其實需要的就是一個類似于導演和編劇的角色,而這個角色可以通過什么來實現?
以上功能可以通過Agent來實現,使用一個具備邏輯推理能力的大模型作為大腦,來指揮其它模型和調用多種工具完成以上功能。
可能每一個模型和工具的能力都不是很強,但通過一個中央大腦的整合,就可以讓這些簡單的工具變得強大無比;而這就是能力整合的能力。
AI技術發展了幾十年,雖然很多人認為它好像沒什么用;但不得不承認的是,AI可以讓一個什么都不懂的人也可以做一名剪輯師。
比如說,第一步利用文生圖生成多張圖片,然后再利用圖生視頻的能力,生成一段視頻;然后再用自然語言處理模型生成一段文字,最后通過剪輯工具或其它AI工具把視頻,文字整合到一起并配上語音旁白;這樣一個漂亮的視頻剪輯成果就出來了。
而在此之前,一個人要想學視頻剪輯,既要需要攝影攝像,拍照剪輯,還要學會各種構圖的方式以及各種拍攝和剪輯工具的使用;為了增加視頻的質量還需要絞盡腦汁地寫文案,找專業聲優配音等。
而這些現在都可以通過AI來解決,大大降低了人的學習和使用成本,提升生產效率。
還有一些人使用類似于豆包等AI工具,調配多種AI和其它工具,整合成一個私人助手,更有甚者,有人利用AI助手開起了一個人的公司。
這都是AI技術的應用,也是一種能力整合的能力。
大模型技術雖然發展的如火如荼,但大模型的應用嚴格來說還處于一個不斷摸索的過程;只要你敢想敢嘗試,那么就有無限的可能。
原文鏈接:??https://mp.weixin.qq.com/s/k7JyWGgod0CsrzbyO5ouKQ??
