成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

使用開源GenAI時(shí)需要注意的十個(gè)問(wèn)題

人工智能
在查看開源GenAI時(shí),排行榜是一個(gè)好的起點(diǎn),EY Americas的GenAI負(fù)責(zé)人David Guarrera說(shuō),特別是Hugging Face在基準(zhǔn)測(cè)試方面做得很好,他說(shuō)。

如今似乎任何人都可以制作AI模型。即使你沒(méi)有訓(xùn)練數(shù)據(jù)或編程技巧,你也可以選擇你喜歡的開源模型,對(duì)其進(jìn)行調(diào)整,并以新的名字發(fā)布。

根據(jù)斯坦福大學(xué)在4月發(fā)布的AI指數(shù)報(bào)告,2023年發(fā)布了149個(gè)基礎(chǔ)模型,其中三分之二是開源的,而且有大量的變體。Hugging Face目前僅跟蹤用于文本生成的LLM就超過(guò)80000個(gè),并且幸運(yùn)的是,它有一個(gè)排行榜,可以讓你快速根據(jù)各種基準(zhǔn)對(duì)模型進(jìn)行排序。盡管這些模型落后于大型商業(yè)模型,但它們正在迅速改進(jìn)。

在查看開源GenAI時(shí),排行榜是一個(gè)好的起點(diǎn),EY Americas的GenAI負(fù)責(zé)人David Guarrera說(shuō),特別是Hugging Face在基準(zhǔn)測(cè)試方面做得很好,他說(shuō)。

“但是不要低估親自嘗試這些模型的價(jià)值,”他說(shuō),“因?yàn)樗鼈兪情_源的,很容易做到這一點(diǎn)并進(jìn)行切換。”他補(bǔ)充道,開源模型和它們的閉源商業(yè)替代品之間的性能差距正在縮小。

“開源很棒,”Uber Freight的工程主管Val Marchevsky補(bǔ)充道,“我覺(jué)得開源非常有價(jià)值。”它們不僅在性能上趕上了專有模型,而且有些提供了閉源模型無(wú)法匹敵的透明度,他說(shuō)。“一些開源模型允許你查看用于推理的內(nèi)容和不用于推理的內(nèi)容,”他補(bǔ)充道,“可審核性對(duì)于防止幻覺(jué)非常重要。”

當(dāng)然,還有價(jià)格優(yōu)勢(shì)。“如果你有一個(gè)恰好有容量的數(shù)據(jù)中心,為什么要付錢給別人?”他說(shuō)。

公司已經(jīng)非常熟悉使用開源代碼。根據(jù)Synopsys在2月發(fā)布的開源安全和風(fēng)險(xiǎn)分析,96%的所有商業(yè)代碼庫(kù)包含開源組件。

由于所有這些經(jīng)驗(yàn),公司應(yīng)該知道如何確保它們使用的是適當(dāng)許可的代碼,如何檢查漏洞以及如何保持所有內(nèi)容的最新狀態(tài)。然而,一些規(guī)則和最佳實(shí)踐有一些特別的細(xì)微差別,公司可能會(huì)忽略。以下是最重要的幾點(diǎn)。

1. 奇怪的新許可條款

不同開源許可證類型的情況已經(jīng)足夠復(fù)雜了。項(xiàng)目是否可以安全用于商業(yè)用途,還是只能用于非商業(yè)用途?可以修改和分發(fā)嗎?可以安全地并入專有代碼庫(kù)嗎?現(xiàn)在,隨著GenAI的出現(xiàn),有一些新的皺褶。首先,有一些新的許可證類型,只在一個(gè)非常寬松的定義下才算開源。

例如,Llama許可證。Llama家族的模型是一些最好的開源LLM之一,但Meta正式將其描述為“一個(gè)定制的商業(yè)許可證,平衡了對(duì)模型的開放訪問(wèn)以及為幫助解決潛在的濫用而制定的責(zé)任和保護(hù)措施”。

企業(yè)被允許商業(yè)使用這些模型,開發(fā)人員可以在Llama基礎(chǔ)模型的基礎(chǔ)上創(chuàng)建和分發(fā)額外的工作,但它們不能使用Llama輸出來(lái)改進(jìn)其他LLM,除非它們本身是Llama的衍生品。而且,如果企業(yè)或其附屬公司每月有超過(guò)700個(gè)用戶,他們必須申請(qǐng)?jiān)S可證,Meta可能會(huì)也可能不會(huì)授予。如果他們使用Llama 3,他們必須在顯著位置包含“使用Llama 3構(gòu)建”的標(biāo)志。

類似地,Apple剛剛發(fā)布了OpenELM,根據(jù)“Apple示例代碼許可證”,這也是為了這個(gè)場(chǎng)合而發(fā)明的,僅涵蓋版權(quán)許可,不包括專利權(quán)。

Apple和Meta都沒(méi)有使用公認(rèn)的開源許可證,但代碼實(shí)際上是開放的。Apple實(shí)際上不僅發(fā)布了代碼,還發(fā)布了模型權(quán)重、訓(xùn)練數(shù)據(jù)集、訓(xùn)練日志和預(yù)訓(xùn)練配置。這就引出了開源許可的另一個(gè)方面。傳統(tǒng)的開源軟件就是代碼。它是開源的,意味著你可以看到它的作用以及是否存在潛在的問(wèn)題或漏洞。

然而,GenAI不僅僅是代碼。它還包括訓(xùn)練數(shù)據(jù)、模型權(quán)重和微調(diào)。所有這些都是了解模型工作原理并識(shí)別潛在偏見的關(guān)鍵。一個(gè)模型如果訓(xùn)練在地平說(shuō)陰謀論的存檔上,它將無(wú)法回答科學(xué)問(wèn)題,或者由朝鮮黑客進(jìn)行微調(diào)的模型可能無(wú)法正確識(shí)別惡意軟件。那么,開源LLM是否發(fā)布所有這些信息?這取決于模型,甚至取決于模型的特定版本,因?yàn)闆](méi)有標(biāo)準(zhǔn)。

“有時(shí)它們會(huì)提供代碼,但如果你沒(méi)有微調(diào),你可能會(huì)花費(fèi)很多錢才能達(dá)到相當(dāng)?shù)男阅埽笨▋?nèi)基梅隆大學(xué)AI教授、前普華永道全球AI負(fù)責(zé)人Anand Rao說(shuō)。

2. 技能短缺

開源通常是一種自助式的努力。公司可以下載代碼,但然后它們需要內(nèi)部專家或雇傭的顧問(wèn)來(lái)使一切正常工作。這在GenAI領(lǐng)域是一個(gè)大問(wèn)題。沒(méi)有人有多年的經(jīng)驗(yàn),因?yàn)檫@項(xiàng)技術(shù)太新了。如果一家公司剛剛開始使用GenAI,或者它想快速推進(jìn),Rao說(shuō),最好從專有平臺(tái)開始。

“下載開源版本需要專業(yè)知識(shí),”他說(shuō)。但是,一旦公司完成了概念驗(yàn)證,將模型部署到生產(chǎn)中,并開始產(chǎn)生費(fèi)用,那么就可能是時(shí)候考慮開源替代品了,他補(bǔ)充道。

行業(yè)經(jīng)驗(yàn)的缺乏也給開源GenAI領(lǐng)域帶來(lái)了另一個(gè)問(wèn)題。開源的一個(gè)關(guān)鍵優(yōu)勢(shì)是,許多人查看代碼,可以發(fā)現(xiàn)編程錯(cuò)誤、安全漏洞和其他弱點(diǎn)。但是,這種“千眼”方法只有在確實(shí)有千眼能夠理解他們看到的東西時(shí)才起作用。

3. 越獄

LLM特別容易越獄,即用戶給它一個(gè)巧妙的提示,使其違反其指南,例如生成惡意軟件。在商業(yè)項(xiàng)目中,有高度動(dòng)機(jī)的供應(yīng)商在背后支持他們,可以識(shí)別這些漏洞并在它們出現(xiàn)時(shí)關(guān)閉它們。此外,供應(yīng)商可以訪問(wèn)用戶發(fā)送給公共版本模型的提示,因此他們可以監(jiān)控是否有可疑活動(dòng)的跡象。

惡意行為者不太可能購(gòu)買在私人環(huán)境中運(yùn)行的企業(yè)版本的產(chǎn)品,這些提示不會(huì)共享給供應(yīng)商以改進(jìn)模型。對(duì)于開源項(xiàng)目,團(tuán)隊(duì)中可能沒(méi)有任何人負(fù)責(zé)尋找越獄的跡象。壞人可以免費(fèi)下載這些模型,并在他們自己的環(huán)境中運(yùn)行,以測(cè)試潛在的漏洞。壞人還可以看到模型使用的系統(tǒng)提示以及模型開發(fā)人員可能構(gòu)建的任何其他防護(hù)措施,從而在越獄時(shí)占得先機(jī)。

“這不僅僅是試驗(yàn)和錯(cuò)誤,”Rao說(shuō)。攻擊者可以分析訓(xùn)練數(shù)據(jù),例如,找出使模型誤識(shí)別圖像的方法,或者當(dāng)它遇到看似無(wú)害的提示時(shí)出錯(cuò)。

如果一個(gè)AI模型在其輸出上添加水印,惡意行為者可能會(huì)分析代碼以逆向工程過(guò)程,以去除水印。攻擊者還可以分析模型或其他支持代碼和工具,找出漏洞區(qū)域。

“你可以用請(qǐng)求淹沒(méi)基礎(chǔ)設(shè)施,這樣模型就不會(huì)工作了,”全球數(shù)字化轉(zhuǎn)型咨詢公司Nortal的高級(jí)數(shù)據(jù)科學(xué)家和能力主管Elena Sügis說(shuō)。“當(dāng)模型是更大系統(tǒng)的一部分時(shí),它的輸出被系統(tǒng)的另一個(gè)部分使用,如果我們可以攻擊模型產(chǎn)生輸出的方式,它將擾亂整個(gè)系統(tǒng),這對(duì)企業(yè)來(lái)說(shuō)可能是危險(xiǎn)的。”

4. 訓(xùn)練數(shù)據(jù)的風(fēng)險(xiǎn)

藝術(shù)家、作家和其他版權(quán)持有者正左和右地起訴大型AI公司。但是,如果他們認(rèn)為他們的知識(shí)產(chǎn)權(quán)被一個(gè)開源模型侵犯了,而唯一有深口袋的是那些將該模型納入其產(chǎn)品或服務(wù)的企業(yè)用戶呢?企業(yè)用戶會(huì)被起訴嗎?

“這是一個(gè)潛在的問(wèn)題,沒(méi)有人真正知道一些待決訴訟將如何解決,”EY的Guarrera說(shuō)。我們可能正走向一個(gè)必須對(duì)數(shù)據(jù)集進(jìn)行某種補(bǔ)償?shù)氖澜纾f(shuō)。“大科技公司更有能力花錢來(lái)應(yīng)對(duì)可能圍繞版權(quán)的風(fēng)暴。”

大型商業(yè)供應(yīng)商不僅有錢購(gòu)買訓(xùn)練數(shù)據(jù)和打官司,他們也有錢購(gòu)買策劃的數(shù)據(jù)集,Sügis說(shuō)。免費(fèi)的公共數(shù)據(jù)集不僅包含未經(jīng)許可使用的版權(quán)內(nèi)容。它們還充滿了不準(zhǔn)確和有偏見的信息、惡意軟件和其他可能降低輸出質(zhì)量的材料。

“許多模型開發(fā)者正在談?wù)撌褂貌邉澋臄?shù)據(jù),”她說(shuō)。“這比你將整個(gè)互聯(lián)網(wǎng)扔給它進(jìn)行訓(xùn)練要貴得多。”

5. 新的數(shù)據(jù)泄露渠道

由于GenAI項(xiàng)目不僅僅是代碼,還有更多潛在的數(shù)據(jù)暴露風(fēng)險(xiǎn)。LLM(大型語(yǔ)言模型)可能在多個(gè)方面受到惡意行為者的攻擊。他們可能會(huì)滲透到管理不善的項(xiàng)目開發(fā)團(tuán)隊(duì)中,在軟件中添加惡意代碼。但他們也可能會(huì)毒害訓(xùn)練數(shù)據(jù)、微調(diào)或權(quán)重,Sügis說(shuō)。

“黑客可能會(huì)用惡意代碼示例重新訓(xùn)練模型,這樣它就會(huì)侵入用戶的基礎(chǔ)設(shè)施,”她說(shuō)。“或者他們可以用假新聞和錯(cuò)誤信息訓(xùn)練它。”

另一個(gè)攻擊向量是模型的系統(tǒng)提示。

“這通常對(duì)用戶是隱藏的,”她補(bǔ)充道。“系統(tǒng)提示可能包含讓模型識(shí)別不受歡迎或不道德行為的防護(hù)措施或安全規(guī)則。”

專有模型不會(huì)公開其系統(tǒng)提示,她說(shuō),訪問(wèn)這些提示可能會(huì)讓黑客找到攻擊模型的方法。

6. 缺少防護(hù)措施

一些開源團(tuán)體可能在哲學(xué)上反對(duì)在其模型上設(shè)置防護(hù)措施,或者他們認(rèn)為模型在沒(méi)有任何限制的情況下表現(xiàn)會(huì)更好。而有些模型則專門為惡意用途而創(chuàng)建。企業(yè)在選擇LLM時(shí)可能不一定知道他們的模型屬于哪一類。Nortal的Sügis說(shuō),目前沒(méi)有獨(dú)立機(jī)構(gòu)評(píng)估開源GenAI模型的安全性。歐洲的《人工智能法案》將要求提供一些此類文件,但大部分規(guī)定要到2026年才會(huì)生效,她說(shuō)。

“我會(huì)盡可能多地獲取文檔,測(cè)試和評(píng)估模型,并在公司內(nèi)部實(shí)施一些防護(hù)措施,”她說(shuō)。

7. 缺乏標(biāo)準(zhǔn)

用戶驅(qū)動(dòng)的開源項(xiàng)目通常基于標(biāo)準(zhǔn),因?yàn)槠髽I(yè)用戶喜歡它們,并且希望實(shí)現(xiàn)互操作性。事實(shí)上,根據(jù)Linux基金會(huì)去年發(fā)布的一項(xiàng)對(duì)近500名技術(shù)專業(yè)人員的調(diào)查,71%的人更喜歡開源標(biāo)準(zhǔn),相比之下只有10%的人更喜歡封閉標(biāo)準(zhǔn)。而生產(chǎn)專有軟件的公司可能更希望將其客戶困在其生態(tài)系統(tǒng)中。但如果你認(rèn)為所有的開源GenAI都是基于標(biāo)準(zhǔn)的,那你就錯(cuò)了。

事實(shí)上,當(dāng)大多數(shù)人談?wù)揂I標(biāo)準(zhǔn)時(shí),他們談?wù)摰氖莻惱怼㈦[私和可解釋性等內(nèi)容。而在這一領(lǐng)域確實(shí)有一些工作正在進(jìn)行,例如去年12月發(fā)布的ISO/IEC 42001人工智能管理系統(tǒng)標(biāo)準(zhǔn)。4月29日,NIST發(fā)布了一個(gè)AI標(biāo)準(zhǔn)草案,涵蓋了很多內(nèi)容,從創(chuàng)建一個(gè)關(guān)于AI的通用語(yǔ)言開始,也主要關(guān)注風(fēng)險(xiǎn)和治理問(wèn)題。但在技術(shù)標(biāo)準(zhǔn)方面,進(jìn)展不大。

“這是一個(gè)非常初期的領(lǐng)域,”云原生計(jì)算基金會(huì)的CIO兼生態(tài)系統(tǒng)負(fù)責(zé)人Taylor Dolezal說(shuō)。“我看到一些關(guān)于數(shù)據(jù)分類的好對(duì)話,討論為訓(xùn)練數(shù)據(jù)、API和提示設(shè)置標(biāo)準(zhǔn)格式。”但到目前為止,這些只是對(duì)話。

他說(shuō),目前已經(jīng)有一個(gè)向量數(shù)據(jù)庫(kù)的通用數(shù)據(jù)標(biāo)準(zhǔn),但沒(méi)有標(biāo)準(zhǔn)查詢語(yǔ)言。關(guān)于自主代理的標(biāo)準(zhǔn)呢?

“我還沒(méi)有看到,但我希望看到,”他說(shuō)。“找出不僅讓代理執(zhí)行特定任務(wù)的方法,還要把這些任務(wù)聯(lián)系在一起。”

用于創(chuàng)建代理的最常見工具LangChain更像是一個(gè)框架而不是標(biāo)準(zhǔn),他說(shuō)。而用戶公司,即那些對(duì)標(biāo)準(zhǔn)有需求的公司,還沒(méi)有準(zhǔn)備好,“大多數(shù)最終用戶在實(shí)際操作之前并不知道他們想要什么。”

相反,他說(shuō),人們更有可能將大供應(yīng)商的API和接口視為潛在的事實(shí)標(biāo)準(zhǔn)。“這就是我看到人們?cè)谧龅氖拢彼f(shuō)。

8. 缺乏透明度

你可能認(rèn)為開源模型本質(zhì)上更透明,但情況可能并非總是如此。大型商業(yè)項(xiàng)目可能有更多資源來(lái)創(chuàng)建文檔,BI軟件供應(yīng)商Vero AI的CEO Eric Sydell說(shuō)。該公司最近發(fā)布了一份報(bào)告,基于可見性、完整性、立法準(zhǔn)備情況和透明度等方面對(duì)主要的GenAI模型進(jìn)行了評(píng)分。Google的Gemini和OpenAI的GPT-4排名最高。

“僅僅因?yàn)樗鼈兪情_源的,并不意味著它們提供相同的信息,關(guān)于模型的背景和開發(fā)方式,”Sydell說(shuō)。“目前,大型商業(yè)模型在這方面做得更好。”

以偏見為例。

“我們發(fā)現(xiàn)我們的排名中前兩名的閉源模型在這方面有相當(dāng)多的文檔,并投入時(shí)間探討這個(gè)問(wèn)題,”他說(shuō)。

9. 源代碼問(wèn)題

開源項(xiàng)目經(jīng)常被分叉,但當(dāng)這種情況發(fā)生在GenAI時(shí),你會(huì)面臨傳統(tǒng)軟件中不存在的風(fēng)險(xiǎn)。比如,一個(gè)基礎(chǔ)模型使用了有問(wèn)題的訓(xùn)練數(shù)據(jù)集,有人從中創(chuàng)建了一個(gè)新模型,那么它將繼承這些問(wèn)題,Sonatype的產(chǎn)品高級(jí)副總裁Tyler Warden說(shuō)。

“在權(quán)重和調(diào)優(yōu)方面有很多黑箱操作,”他說(shuō)。

事實(shí)上,這些問(wèn)題可能追溯到好幾級(jí)代碼,最終模型的代碼中不會(huì)顯示出來(lái)。當(dāng)公司下載一個(gè)模型供自己使用時(shí),這個(gè)模型與原始來(lái)源的距離越來(lái)越遠(yuǎn)。原始基礎(chǔ)模型可能已經(jīng)修復(fù)了這些問(wèn)題,但根據(jù)上下鏈的透明度和溝通量,最后一個(gè)模型的開發(fā)人員可能甚至不知道這些修復(fù)。

10. 新的影子IT

使用開源組件作為軟件開發(fā)過(guò)程一部分的公司,通常會(huì)有相應(yīng)的流程來(lái)審核庫(kù)并確保組件是最新的。他們會(huì)確保項(xiàng)目有良好的支持,安全問(wèn)題得到處理,并且軟件具有適當(dāng)?shù)脑S可證條款。

然而,對(duì)于GenAI,負(fù)責(zé)審核的人可能不知道要查找什么。此外,GenAI項(xiàng)目有時(shí)會(huì)脫離標(biāo)準(zhǔn)的軟件開發(fā)流程。它們可能來(lái)自數(shù)據(jù)科學(xué)團(tuán)隊(duì)或秘密項(xiàng)目。開發(fā)人員可能會(huì)下載模型來(lái)試驗(yàn),最終被更廣泛地使用。或者業(yè)務(wù)用戶自己可能會(huì)按照在線教程設(shè)置他們自己的GenAI,完全繞過(guò)IT部門。

GenAI的最新發(fā)展,自治代理,有可能將巨大的力量交到這些系統(tǒng)手中,從而將這種類型的影子IT的風(fēng)險(xiǎn)提升到新的高度。

“如果你要進(jìn)行實(shí)驗(yàn),創(chuàng)建一個(gè)容器,以一種對(duì)組織安全的方式進(jìn)行,”Corelight開源高級(jí)總監(jiān)Kelley Misata說(shuō)。她表示,這應(yīng)該由公司的風(fēng)險(xiǎn)管理團(tuán)隊(duì)負(fù)責(zé),并且確保開發(fā)人員以及整個(gè)業(yè)務(wù)理解有一個(gè)流程的是CIO的責(zé)任。

“他們是最適合設(shè)定文化的人,”她說(shuō)。“讓我們利用開源提供的創(chuàng)新和所有偉大之處,但要睜大眼睛進(jìn)入。”

兩全其美的方式

一些公司在尋找開源的低成本、透明度、隱私和控制,但希望有一個(gè)供應(yīng)商來(lái)提供治理、長(zhǎng)期可持續(xù)性和支持。在傳統(tǒng)的開源世界中,有很多供應(yīng)商可以做到這一點(diǎn),比如Red Hat、MariaDB、Docker、Automattic等。

“它們?yōu)榇笮推髽I(yè)提供了一定程度的安全性和保障,”AArete數(shù)據(jù)科學(xué)和分析副總裁Priya Iragavarapu說(shuō)。“這幾乎是一種降低風(fēng)險(xiǎn)的方式。”

她說(shuō),在GenAI領(lǐng)域,這樣的供應(yīng)商還不多,但情況正在開始改變。

責(zé)任編輯:姜華 來(lái)源: 企業(yè)網(wǎng)D1Net
相關(guān)推薦

2023-10-04 00:03:00

SQL數(shù)據(jù)庫(kù)

2022-09-13 10:09:23

IT 領(lǐng)導(dǎo)者招聘

2021-10-15 10:04:37

云計(jì)算安全云服務(wù)

2012-07-04 14:40:37

Ajax

2016-11-24 15:54:06

androidJSONObject

2016-12-26 18:51:34

AndroidJavascriptJSONObject

2024-01-29 15:44:20

人工智能GenAI

2015-10-08 10:07:29

游戲開發(fā)內(nèi)存使用

2021-02-24 07:40:38

React Hooks閉包

2021-10-15 16:37:45

云計(jì)算KubernetesApache

2018-06-11 11:03:09

2011-12-21 09:54:15

項(xiàng)目經(jīng)理

2010-06-29 15:54:36

UML建模

2018-07-12 14:16:35

PHP7代碼SQL

2013-09-29 10:36:08

VMware虛擬化

2009-04-23 14:30:19

UML建模

2020-10-26 14:01:22

Java泛型

2021-02-05 17:35:07

數(shù)據(jù)高管CIO技術(shù)

2022-09-30 09:04:29

開源開發(fā)

2015-09-20 16:23:27

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 亚洲免费观看视频网站 | 91私密视频| 亚洲综合色站 | 亚洲一区二区 | 国产黄色大片网站 | 欧美精品一区三区 | 国产免费一区 | 麻豆视频国产在线观看 | 亚洲精品一 | 九九伊人sl水蜜桃色推荐 | 国产一级成人 | 欧美一级免费观看 | 91精品国产色综合久久不卡98 | 日韩欧美国产电影 | 日本免费网 | 日日夜夜天天 | 日操操 | www.亚洲成人网 | 亚州av | 永久www成人看片 | 久久激情视频 | 日韩影院一区 | 欧美一区二区在线免费观看 | 日日干日日色 | 久久99视频这里只有精品 | 欧美一级片在线看 | 天天艹天天干天天 | 日韩电影免费观看中文字幕 | 欧美视频1| 瑟瑟视频在线看 | 亚洲国产精品va在线看黑人 | 天堂久久av | 国产一区二区三区在线 | 91久久精品一区二区二区 | 国产一区二区影院 | a免费视频| 久久99这里只有精品 | 亚洲国产精品一区 | 欧美视频免费在线 | 中文字幕国产 | 欧美精品在线一区二区三区 |