模型極簡主義:為企業節省數百萬的新型AI策略
大型語言模型(LLM)的出現使企業更容易構想出它們可以承擔的項目類型,從而推動了試點項目向部署階段的迅猛發展。
然而,隨著這些項目的推進,企業意識到之前使用的大型語言模型不僅笨重,而且成本高昂。
于是,小型語言模型和模型蒸餾技術應運而生。像Google的Gemma系列、Microsoft的Phi以及Mistral的Small 3.1等模型,讓企業能夠選擇快速且準確、適用于特定任務的模型。企業可以為特定用例選擇更小的模型,從而降低運行AI應用的成本,并可能獲得更高的投資回報率。
LinkedIn的杰出工程師Karthik Ramgopal告訴記者,公司選擇小型模型有幾個原因。“小型模型需要更少的計算資源、內存,并且推理速度更快,這直接轉化為更低的基礎設施運營支出(OPEX)和資本支出(CAPEX),考慮到GPU成本、可用性和電力需求,”Ramgopal說,“特定任務的模型范圍更窄,使得它們的行為隨時間推移更加一致且易于維護,而無需復雜的提示工程。”
模型開發者對小型模型的定價也相應調整。OpenAI的o4-mini輸入每百萬token收費1.1美元,輸出每百萬token收費4.4美元,而完整版o3的輸入和輸出費用則分別為10美元和40美元。
如今,企業擁有更多的小型模型、特定任務模型和蒸餾模型可供選擇。如今,大多數旗艦模型都提供多種尺寸選擇。例如,Anthropic的Claude系列模型包括最大的Claude Opus、全能的Claude Sonnet和最小的Claude Haiku。這些模型足夠緊湊,可以在便攜式設備上運行,如筆記本電腦或手機。
投資回報率問題
然而,在討論投資回報率時,問題總是:ROI究竟是什么樣的?它應該是對所發生成本的回報,還是最終意味著節省時間從而在線下節省資金的時間節省?專家表示,ROI很難判斷,因為有些公司認為通過減少任務耗時就已經實現了ROI,而其他公司則等待實際節省的資金或帶來的更多業務來說明AI投資是否真正有效。
通常,企業通過Cognizant首席技術官Ravi Naarla在一篇文章中描述的簡單公式來計算ROI:ROI =(收益-成本)/成本。但對于AI項目,收益并不立即顯現。他建議企業明確預期達到的收益,基于歷史數據進行估算,對AI的整體成本(包括招聘、實施和維護)保持現實態度,并理解這是一項長期投資。
專家認為,小型模型降低了實施和維護成本,特別是在對模型進行微調以提供更多企業上下文時。Aible的創始人兼首席執行官Arijit Sengupta表示,人們如何為模型提供上下文決定了他們能節省多少成本。對于需要額外上下文提示(如冗長復雜的指令)的用戶來說,這可能會導致更高的token成本。
“你總得通過某種方式給模型提供上下文,天下沒有免費的午餐,但對于大型模型,這通常是通過提示來完成的,”他說,“將微調和后訓練視為為模型提供上下文的另一種方式。我可能會產生100美元的后訓練成本,但這并不是天文數字。”
Sengupta表示,他們僅通過后訓練就看到了約100倍的成本降低,經常將模型使用成本從數百萬美元降至約3萬美元。他指出,這個數字包括軟件運營費用和模型及向量數據庫的持續成本。
“就維護成本而言,如果手動使用人類專家進行,可能會很昂貴,因為小型模型需要后訓練才能產生與大型模型相當的結果。”他說。
Aible進行的實驗表明,針對特定任務的微調模型在某些用例中表現良好,就像大型語言模型一樣,這使得部署多個針對特定用例的模型比使用一個大型模型來完成所有任務更具成本效益。
該公司比較了后訓練版本的Llama-3.3-70B-Instruct與同一模型的80億參數較小版本。經過11.30美元后訓練的700億參數模型在自動化評估中準確率為84%,在手動評估中為92%。而經過4.58美元微調的80億參數模型在手動評估中準確率為82%,適用于更次要、更具體的用例。
適合用途的成本因素
正確調整模型尺寸并不一定要以犧牲性能為代價。如今,企業明白模型選擇不僅僅意味著在GPT-4o或Llama-3.1之間選擇,而是要知道某些用例,如摘要生成或代碼生成,更適合使用小型模型。
聯系中心AI產品提供商Cresta的首席技術官Daniel Hoske表示,從大型語言模型開始開發能更好地預測潛在成本節省。“你應該從最大的模型開始,看看你所構想的是否可行,因為如果最大的模型都不行,那更小的模型也不太可能。”他說。
Ramgopal表示LinkedIn也遵循類似的模式,因為原型設計是這些問題開始顯現的唯一途徑。“我們對于代理用例的典型方法始于通用大型語言模型,因為它們的廣泛泛化能力使我們能夠快速原型設計、驗證假設并評估產品市場契合度,”LinkedIn的Ramgopal說,“隨著產品成熟,當我們遇到質量、成本或延遲方面的限制時,我們會轉向更定制化的解決方案。”
在實驗階段,企業可以確定他們從AI應用中最看重什么。弄清楚這一點后,開發者可以更好地規劃他們想要節省的內容,并選擇最適合其目的和預算的模型尺寸。
專家警告說,雖然為正在開發的內容使用最合適的模型很重要,但高參數的大型語言模型總是會更昂貴。大型模型總是需要大量的計算能力。
然而,過度使用小型和特定任務模型也會帶來問題。AWS的數據和AI GTM副總裁Rahul Pathak在博客中表示,成本優化不僅僅來自于使用計算需求低的模型,而是來自于將模型與任務相匹配。小型模型可能沒有足夠大的上下文窗口來理解更復雜的指令,導致人類員工的工作量增加和成本上升。
Sengupta也警告說,一些蒸餾模型可能很脆弱,因此長期使用可能不會帶來節省。
持續評估
無論模型大小如何,業內人士都強調了解決任何潛在問題或新用例的靈活性。因此,如果他們從大型模型開始,然后找到一個性能相似或更好且成本更低的小型模型,企業就不能對他們選擇的模型過于固執。
品牌營銷公司Mod Op的首席技術官兼創新主管Tessa Burg告訴記者,企業必須明白,他們現在構建的任何東西都將被更好的版本所取代。“我們一開始就抱著這樣的心態:我們正在創建的工作流程和技術基礎下的流程將發生變化。我們知道,無論我們使用什么模型,都將是模型中最差的版本。”
Burg表示,小型模型幫助她的公司和客戶節省了研究和開發概念的時間。她說,節省的時間確實會隨著時間的推移帶來預算節省。她補充說,將高成本、高頻次的用例分解出來使用輕量級模型是個好主意。
Sengupta指出,供應商現在正在使模型之間的自動切換變得更加容易,但他警告用戶要找到也促進微調的平臺,以避免產生額外成本。