推動(dòng)生成式 AI 技術(shù)的普惠化 亞馬遜云科技發(fā)布四大創(chuàng)新
原創(chuàng)如今,AIGC 無(wú)疑是最火熱的話題之一。國(guó)內(nèi)外各大科技企業(yè)紛紛追隨,推出自家的大模型以及相關(guān)應(yīng)用產(chǎn)品。近日,亞馬遜云科技推出了生成式 AI 領(lǐng)域的四大創(chuàng)新,致力于推動(dòng)技術(shù)的普惠化,希望將AIGC技術(shù)從研究和試驗(yàn)領(lǐng)域釋放,讓更多公司都可以從中受益。
亞馬遜云科技大中華區(qū)產(chǎn)品部總經(jīng)理陳曉建在采訪中表示,“我們的使命是讓各種技能水平的開(kāi)發(fā)人員和各種規(guī)模的組織都有機(jī)會(huì)使用生成式 AI 進(jìn)行創(chuàng)新。亞馬遜云科技提供的四大能力,希望可以降低各行各業(yè)的客戶使用生成式 AI 的技術(shù)門檻和資金門檻,能夠讓更多的人更容易地、更有性價(jià)比地使用生成式 AI。”
Amazon Bedrock:降低模型使用門檻
一般情況下,企業(yè)在使用大模型時(shí),需要找到最適合企業(yè)業(yè)務(wù)場(chǎng)景的大模型,并且可以和企業(yè)的業(yè)務(wù)程序無(wú)縫集成。然而,很多企業(yè)不具備能力和時(shí)間來(lái)搭建一個(gè)全新環(huán)境來(lái)訓(xùn)練自己的大模型。為此,亞馬遜云科技推出全新的生成式AI全托管服務(wù) Amazon Bedrock,用戶通過(guò)API 調(diào)用方式即可訪問(wèn)亞馬遜云科技和第三方基礎(chǔ)模型提供商的預(yù)訓(xùn)練基礎(chǔ)模型(Foundation model),從而降低用戶在大規(guī)模訓(xùn)練和部署方面的使用門檻。
據(jù)了解,Amazon Bedrock 具有四大優(yōu)勢(shì)。第一,Amazon Bedrock 是全托管的服務(wù),用戶無(wú)需擔(dān)心后端所使用的各種基礎(chǔ)資源的申請(qǐng)、管理和各種運(yùn)營(yíng)的服務(wù),這些工作都是由亞馬遜云科技來(lái)執(zhí)行。
其次,Amazon Bedrock 預(yù)設(shè)了五大模型,包括亞馬遜云科技所開(kāi)發(fā)的兩大基礎(chǔ)模型Amazon Titan Text 和 Amazon Titan Embeddings,以及三個(gè)第三方合作伙伴的模型,用戶可以為其場(chǎng)景選擇最適合自己應(yīng)用場(chǎng)景的模型。由于現(xiàn)在市場(chǎng)變化很快,各家都有大模型,客戶希望找到更加適用于他們行業(yè)和業(yè)務(wù)的模型。為此,亞馬遜云科技根據(jù)客戶的需求幫助客戶挑選行業(yè)領(lǐng)先的模型,包括 Stability AI、Anthropic 和 AI21 Labs 三個(gè)外部模型。Stability AI 模型更偏向于多模態(tài)的文生圖或者自然語(yǔ)言能生成圖片;Anthropic Claude 則更多地關(guān)注對(duì)話文字生成;AI21 Labs 模型在多語(yǔ)言支持上表現(xiàn)比較好,包括小語(yǔ)種以及文章的文本摘要等方面。
第三,Amazon Bedrock 可以幫助用戶定制模型。每個(gè)用戶的場(chǎng)景需求和業(yè)務(wù)邏輯都不同,用戶也需要通過(guò)自身積累的業(yè)務(wù)數(shù)據(jù)來(lái)訓(xùn)練一個(gè)最適合的場(chǎng)景模型。亞馬遜云科技在 Amazon Bedrock 中特意加強(qiáng)了數(shù)據(jù)訓(xùn)練的隱私和安全性,確保數(shù)據(jù)安全和隱私保護(hù)的前提下,用戶可以使用自身的數(shù)據(jù)來(lái)對(duì)模型進(jìn)行定制。
第四,在安全加密方面,所有用戶的環(huán)境都基于自身的 VPC(私有網(wǎng)絡(luò)環(huán)境),與其他客戶完全隔離,同時(shí)所有數(shù)據(jù)都進(jìn)行加密。這意味著用戶不僅可以使用 Amazon Bedrock,還可以方便且安全地使用亞馬遜云科技的各種類型云服務(wù),對(duì)整個(gè)業(yè)務(wù)進(jìn)行定制化改造。
亞馬遜云科技大中華區(qū)數(shù)據(jù)技術(shù)專家團(tuán)隊(duì)總監(jiān)王曉野表示,Amazon Bedrock 是亞馬遜云科技主導(dǎo)和運(yùn)營(yíng)的模型平臺(tái),也向業(yè)內(nèi)領(lǐng)先的其他模型提供商開(kāi)放,未來(lái)也有可能加入更多領(lǐng)先模型。但是需要強(qiáng)調(diào)的是,Amazon Bedrock 并不是一個(gè)開(kāi)放的模型市場(chǎng),亞馬遜云科技不會(huì)將其規(guī)模無(wú)限擴(kuò)大。
Titan 模型:基礎(chǔ)模型普惠化
此次亞馬遜云科技推出的 Titan 模型,包括 Titan Text 和 Titan Embeddings 兩種模型。Titan Text 是基于總結(jié)文本生成、分類、開(kāi)放式回答和信息提取等任務(wù)的生成式大語(yǔ)言模型。Titan Embeddings 是一個(gè)文本嵌入式的大語(yǔ)言模型,能夠把文本的輸入翻譯成包含語(yǔ)義的數(shù)字表達(dá)。雖然該大模型不生成文本,但是它對(duì)于個(gè)性化推薦和搜索等等應(yīng)用程序非常有幫助的。相比于文字,編碼可以幫助模型反饋更加相關(guān)、更符合情境的結(jié)果。
為了實(shí)現(xiàn)負(fù)責(zé)任的 AI 的實(shí)踐,Titan 基礎(chǔ)模型已經(jīng)預(yù)設(shè)了很多功能,用于識(shí)別和刪除用戶提交的數(shù)據(jù)中的一些有害的內(nèi)容,拒絕用戶輸入不當(dāng)?shù)膬?nèi)容,過(guò)濾模型中包括不當(dāng)內(nèi)容的輸入結(jié)果,比如說(shuō)仇恨、臟話和語(yǔ)言暴力等等。目前,已經(jīng)有客戶預(yù)覽了亞馬遜云科技全新的 Titan 基礎(chǔ)模型,未來(lái)幾個(gè)月,亞馬遜云科技會(huì)進(jìn)一步擴(kuò)展其使用范圍。王曉野強(qiáng)調(diào),Titan 模型只有通過(guò) Amazon Bedrock 才能使用。
自研芯片:降低訓(xùn)練和推理成本
日前,亞馬遜云科技宣布了 Amazon EC2 Trn1n 和 Inferentia2 兩個(gè)實(shí)例的正式可用。Trn1 是亞馬遜云科技自研的訓(xùn)練芯片 Trainium 所支持的計(jì)算實(shí)例,這次推出的 Trn1n 是一個(gè)網(wǎng)絡(luò)增強(qiáng)型的新實(shí)例,相比于 Trn1 網(wǎng)絡(luò)帶寬提升了 1 倍,達(dá)到 1.6 TB,旨在為大型的網(wǎng)絡(luò)密集型的模型訓(xùn)練來(lái)使用。
在推理芯片方面,亞馬遜云科技推出了 Inferentia2 實(shí)例,相比第一代芯片不僅吞吐量提升了 4倍、延遲降低了 10 倍,還實(shí)現(xiàn)了加速器之間的超高速網(wǎng)絡(luò)連接,并且將云中推理成本降到最低。
眾所周知,訓(xùn)練大模型需要花費(fèi)高額成本,那么亞馬遜云科技是如何提升性價(jià)比呢?陳曉建舉例道,BERT 是眾多訓(xùn)練環(huán)境中常用的一種。一個(gè)簡(jiǎn)單的 BERT 環(huán)境,如果基于英偉達(dá)的 GPU 實(shí)例并使用 16 個(gè)節(jié)點(diǎn),簡(jiǎn)單的模型訓(xùn)練可能需要 13 個(gè)小時(shí)。在亞馬遜云科技內(nèi)部測(cè)試中,基于亞馬遜云科技自研的 Trainium 訓(xùn)練芯片,同樣使用 16 個(gè)節(jié)點(diǎn),只要 5 個(gè)小時(shí)就可以完成模型訓(xùn)練。因此,自研芯片可以幫助用戶實(shí)現(xiàn)數(shù)倍的性價(jià)比提升。
同樣,針對(duì)大模型部署方面,例如基于 NLP 流行的模型,如果把同樣模型部署到基于 GPU的環(huán)境之中,需要有 8 個(gè) GPU 卡才能完成。但是如果使用 Inferentia2,同樣的負(fù)載只需要 4 個(gè) Inferentia2 芯片就可以完成。在整個(gè)硬件部署的環(huán)境、復(fù)雜性和成本資金等方面都有效降低,大大幫助用戶降低成本和復(fù)雜性,以更好地提升業(yè)務(wù)的性能。
Amazon CodeWhispere:AI編程助手
Amazon CodeWhisperer 可以實(shí)時(shí)生成代碼的建議,是目前唯一一個(gè)具備安全掃描的 AI編程助手,可以用于發(fā)現(xiàn)一些非常難以查找的漏洞,并且提出補(bǔ)救建議。目前,Amazon CodeWhisperer 針對(duì)個(gè)人開(kāi)發(fā)者完全免費(fèi)。此外,Amazon CodeWhisperer 可以過(guò)濾掉一些可能認(rèn)為有偏見(jiàn)或者不公平的代碼,并且還是唯一一個(gè)可以對(duì)可疑的開(kāi)源代碼進(jìn)行過(guò)濾和標(biāo)記的編程助手。
王曉野介紹了 Amazon CodeWhisperer 的使用方法。Amazon CodeWhisperer 相當(dāng)于一款插件,可以直接安裝在現(xiàn)有的開(kāi)發(fā)環(huán)境中,就可以享有 Amazon CodeWhisperer 的幫助?!霸谑褂玫臅r(shí)候,開(kāi)發(fā)者可以通過(guò)注釋的方式與 Amazon CodeWhisperer 交互。一般寫代碼的時(shí)候我們都會(huì)給自代碼加注釋,在注釋寫 “請(qǐng)幫我生成一段上傳圖片到云端的代碼”,它就會(huì)給出這一段代碼的建議,如果我們都接受的話,就只需要按一下Tab鍵,就相當(dāng)于接受了建議。這樣的交互體驗(yàn)使得 Amazon CodeWhisperer 更像是開(kāi)發(fā)者的智能助手。同時(shí),它也提供一些安全的掃描功能,例如檢查開(kāi)源授權(quán)等?!?/span>
大模型的未來(lái)格局
自成立之日起,人工智能一直是亞馬遜關(guān)注的焦點(diǎn),在未來(lái)將更加如此。亞馬遜云科技已經(jīng)幫助超過(guò) 10 萬(wàn)個(gè)不同規(guī)模和行業(yè)的客戶,利用行業(yè)領(lǐng)先的能力進(jìn)行機(jī)器學(xué)習(xí)和人工智能創(chuàng)新。我們現(xiàn)在將見(jiàn)證機(jī)器學(xué)習(xí)的下一波廣泛應(yīng)用,無(wú)論客戶體驗(yàn)還是應(yīng)用程序都有機(jī)會(huì)通過(guò)使用生成式 AI 進(jìn)行重塑。
陳曉建認(rèn)為,多模態(tài)的大模型肯定是未來(lái)的熱點(diǎn)。“最后大模型能夠活下來(lái),能夠成為真正可以為大家所使用,可能取決于市場(chǎng)化的情況。通過(guò)這些通用的模型,用戶在此基礎(chǔ)上發(fā)展適合自己場(chǎng)景的細(xì)分行業(yè)模型,最終可能會(huì)成為常態(tài)。”