簡介
生成類似人類的文本和語音曾經只有在科幻小說中才成為可能。但是,GPT-3和PaLM等大型語言模型(LLM)的快速發展使這一愿景更接近現實,并且相應地出現一系列基于它們的從聊天機器人到內容創建等領域頗有前景的商業應用程序。
然而,通用的基礎模型往往無法滿足特定行業場景的具體需求。企業對其生成型人工智能應用程序有不同的要求,涉及到從性能、成本、延遲性乃至到可解釋性等諸多方面。此外,可用于模型訓練的數據的性質和數量也可能存在顯著差異。因此,產品團隊必須為其生成式人工智能應用程序構建關鍵業務標準,并選擇合適的優化技術工具包來滿足這些需求。
在這篇文章中,我們將向您展示一種框架,用于為您的生成型人工智能應用程序確定和優先考慮戰略重點領域。我們還將探索一些流行的優化方法,并討論它們各自的獨特優勢、理想的應用程序以及在滿足應用程序需求方面的權衡。通過以明確的商業目標為指導的正確優化戰略,公司便可以開發定制的人工智能解決方案,平衡對其成功至關重要的優先事項。接下來,就讓我們一起開始這一探索吧!
評估業務需求和限制的框架
為了有效地調整優化LLM的策略,產品團隊應該從深入了解業務目標和運營限制開始。為您的業務場景評估并確定以下關鍵維度的優先級:
1.績效目標
(Performance Goal):定義人工智能需要實現的績效指標和水平。這可以是事實準確性、與人類價值觀的一致性或其他特定任務指標的組合。
需要考慮的問題:衡量績效的最佳維度是什么?可接受的最低性能標準是多少?您所在行業的性能如何與用戶期望保持一致?
2.延遲目標
(Latency Targets):確定應用程序能夠承受的最長響應時間,而不會對用戶體驗產生負面影響。當LLM部署在時間敏感或資源受限的場景(例如,語音助手、邊緣設備)中時,這一點可能尤為重要。
需要考慮的問題:延遲如何影響用戶滿意度和保留率?響應時間的行業標準是什么?
3.成本效率
(Cost Efficiency):根據預期ROI(投資回報率)評估人工智能的運營成本。當更高的初始成本帶來可觀的節約、收入增長或超過投資的戰略效益時,這些成本可能是合理的。
需要考慮的問題:LLM的運營成本如何影響您的預算?投資回報率與人工智能部署成本相比如何?
4.可解釋性和信任
(Explainability & Trust):確定是否需要確保人工智能決策易于被用戶理解,這對于建立信任至關重要,尤其是在監管要求嚴格的領域。
需要考慮的問題:您所在的行業是否受到監管,要求人工智能決策的透明度?可解釋性如何影響用戶的信任和采用?
5.外部知識
(External Knowledge):評估您的人工智能是否需要訪問外部數據源以保持相關性并提供準確的響應。
需要考慮的問題:您的人工智能是否需要實時數據來做出決策?
6.數據可用性
(Data Availability):可用于訓練人工智能的數據的性質和數量可能會廣泛影響優化策略。
需要考慮的問題:您是否可以訪問大型數據集進行訓練,或者是否需要使用合成或增強的數據?您需要多久更新一次訓練數據以保持人工智能的相關性?
下表概述了生成式人工智能應用程序的三個不同用例,并對框架內每個維度的優先級進行了相應評估:
正如您從上表中所看到的,優先級和約束在不同的用例中可能有很大的差異。
例如,考慮一家旨在開發客戶支持聊天機器人以減輕員工工作量的公司。在這種情況下,準確性性能和外部數據集成是優先需要考慮的事項,以便提供既正確又最及時的響應。雖然延遲具有一定的意義,但用戶可能愿意容忍短暫的延遲。通常,這樣的公司可以訪問可用于訓練模型的非常廣泛的檔案——這些數據都是與老客戶交互過程產生的。
相比之下,人工智能在評估軟件代碼質量和風險方面的關鍵應用需要更加關注人工智能見解的事實準確性和可解釋性,這通常是由于潛在的錯誤后果所致。在這種情況下,成本和延遲就成為次要考慮因素。在某些情況下,此用例可能受益于外部數據集成,并且這通常面臨豐富的訓練數據集的可用性方面的限制。
如果對與用例相關的戰略優先級和限制有深入的了解,就可以幫助團隊制定量身定制的戰略來優化LLM,以滿足用戶的獨特需求。
深入研究LLM優化技術
本節將深入研究各種優化技術,強調它們的目標、理想的使用場景和固有的權衡,特別是在平衡上述業務目標的情況下。
技術表格細分如下所示:
1.提示工程(Prompt Engineering)
執行復雜度:低
何時使用:適用于在不改變模型的情況下提高響應時間與迅速改進。在嘗試更復雜的優化方法之前,可以先從這項技術開始,從而最大限度地提高預訓練模型的有效性。
需要付出的代價:提示工程包括以一種能夠獲得所需輸出的方式,精心制作對模型的輸入查詢。它需要了解模型如何響應不同類型的指令,但不需要重新訓練模型或更改其體系結構。這種方法只是優化了現有模型訪問和應用其預先訓練的知識的方式,并沒有增強模型的內在能力。
“這就像調整你向知識淵博的朋友提問的方式,以獲得盡可能好的答案。”
示例:
- 要求語言模型“以莎士比亞的風格寫詩(Write a poem in the style of Shakespeare)”與“寫詩(Write a poem)”,以特定的文學風格引發反應。
- 提供一個詳細的場景,提示對話式人工智能,以確保模型了解其作為客戶服務代理的角色。
利弊 權衡:
試錯:設計最有效的提示需要多次迭代,因為提示和人工智能輸出之間的關系并不總是直觀的。
輸出質量:輸出的質量在很大程度上取決于提示的設計,并且通過這種方法可以實現的改進程度也是有限的。
2.微調(Fine-Tuning)
執行復雜性:中等
何時使用:當您需要模型適應基礎預訓練模型可能無法很好地涵蓋特定的領域或任務時,應考慮進行微調。這是朝著提高特定領域的準確性和創建一個可以處理特定領域數據和術語的更專業的模型邁出的一步。
需要付出的代價:微調是在代表目標任務或領域的新數據集上繼續訓練預訓練模型的過程。這個新的數據集由輸入輸出對組成,它們提供了所需行為的示例。在微調過程中,更新模型的權重以最大限度地減少新數據集上的損失,從而有效地使模型適應新的領域。
“可以把它想象成給你的朋友上一堂關于你希望他們成為專家的主題的速成課程;向他們展示測試中可能出現的多個問題示例以及他們應該回答的樣本答案。”
示例:
通用語言模型可以對法律文檔進行微調,以提高其審查此類文檔的性能。
圖像識別模型可以與醫學成像數據集進行微調,以更好地識別X射線或MRI中的特定疾病。
利弊 權衡:
數據要求:微調需要一個與任務相關的標記數據集,創建該數據集可能需要耗費大量資源。
過度擬合風險:存在模型對微調數據過于專業化的潛在風險,這可能會降低其推廣到其他上下文或數據集的能力。
3.檢索增強生成(RAG)
執行復雜性:高
何時使用:當人工智能模型需要訪問和整合外部信息以生成響應時,應考慮使用RAG。當期望模型提供未包含在其預先訓練的知識庫中的最新或高度特定的信息時,這一點尤其重要。
需要付出的代價:RAG將LLM的生成能力與檢索系統相結合。檢索系統查詢數據庫、知識庫或互聯網以查找與輸入提示相關的信息。然后,將檢索到的信息提供給語言模型,語言模型結合了該上下文以生成更豐富、更準確的響應。通過引用RAG系統用于生成響應的來源,生成型人工智能應用程序可以增強對用戶的解釋能力。
在未來幾年,隨著越來越多的產品尋求利用其最新的商業數據為客戶量身定制體驗,這種優化技術預計將廣受歡迎。
“這就像你的朋友可以在網上查找信息,回答他們直接專業知識之外的問題。這是一種開卷考試。”
示例:
在基于RAG的在線聊天機器人中,檢索器可以從數據庫或互聯網中提取相關信息,以提供最新答案。
家庭作業助理AI可以使用RAG獲取最新的科學數據,以回答學生關于氣候變化的問題。
利弊 權衡:
復雜的實現:RAG系統需要一個集成良好的檢索系統,這在設置和維護方面可能具有挑戰性。
信息質量:生成的回復的有用性在很大程度上取決于檢索到的信息的相關性和準確性。如果檢索系統的來源過時或不正確,則回復將反映這一點。
響應時間慢:從外部源檢索信息以生成響應可能會增加延遲。
4.從人的反饋中強化學習(RLHF)
執行復雜性:非常高
何時使用:當模型的輸出需要與復雜的人類判斷和偏好緊密一致時,應使用RLHF。
需要付出的代價:RLHF是一種復雜的強化學習技術,通過將人類評估直接納入訓練過程來細化模型的行為。該過程通常包括從人工操作員那里收集數據,操作員根據各種質量指標(如相關性、有用性、語氣等)對人工智能的輸出進行排名。然后,這些數據信號被用于訓練獎勵模型,該模型指導強化學習過程,以產生更符合人類偏好的輸出。
“這類似于你的朋友從過去的對話中學習是什么讓討論變得愉快,并利用這些知識來改善未來的互動。”
示例:
社交媒體平臺可以使用RLHF來訓練一個審核機器人,該機器人不僅可以識別不合適的內容,還可以以建設性和對上下文敏感的方式對用戶做出回應。
可以使用RLHF對虛擬助理進行微調,以提供對用戶請求的更個性化和上下文感知的響應。
利弊 權衡:
高復雜性:RLHF涉及復雜的資源密集型過程,包括人類反饋收集、獎勵建模和強化學習。
質量風險:反饋數據存在偏差的風險,這可能會影響模型質量。確保人類反饋的質量一致并使獎勵模型與期望的結果保持一致可能很困難。
5.知識蒸餾(Knowledge Distillation)
執行復雜性:中等到高
何時使用:當您需要在計算能力有限的設備上或在響應時間至關重要的應用程序中部署復雜的模型時,會使用知識蒸餾。
需要付出的代價:這是一種壓縮技術,訓練一個更小、更高效的模型(稱為學生)來復制一個更大、更復雜的模型(教師)的性能。訓練不僅僅是學習正確的答案(硬目標),還包括學生試圖產生與老師預測相似的概率(軟目標)。這種方法使學生模型能夠捕捉到教師模型所學到的細微的模式和見解。
“這類似于將經驗豐富的專家的智慧提煉成一本簡明的指南,新手無需多年的經驗就可以用它來做出專家級的決策。”
示例:
一個大規模的語言模型可以被蒸餾成一個較小的模型,該模型可以在智能手機上高效運行,用于實時語言翻譯。
自動駕駛汽車中使用的圖像識別系統可以蒸餾成一個可以在汽車車載計算機上運行的輕型模型。
利弊 權衡:
性能與規模:提取的模型可能并不總是與教師模型的性能相匹配,這可能會導致準確性或質量下降。
訓練復雜性:蒸餾過程非常耗時,需要仔細的實驗來確保學生模型有效地學習。它需要對模型的體系結構有深入的理解,并有能力將知識從一個模型轉換到另一個模型。
現在,讓我們來看一個實際應用中的示例。
示例:客戶支持型聊天機器人
讓我們重新審視構建客戶支持型聊天機器人的用例,以減少人力支持人員的工作量。
要求/限制包括:
- 性能:高優先級(強調事實準確性)
- 外部知識:高度優先
- 延遲目標:中等優先級
- 成本效率:低優先級
- 可解釋性和可信度:中等優先級
數據可用性:充足(過去的對話數據)
有了對業務背景和優先級的清晰理解,產品開發者就可以制定出最有效的優化策略。
LLM優化決策步驟:
提示工程應作為提高聊天機器人初始理解和響應能力的第一步。然而,僅憑這一點不太可能滿足專業領域的準確性。
利用歷史客戶對話數據對模型進行微調,對于提高聊天機器人的準確性性能,并使模型擅長處理細微的行業特定查詢至關重要。
合并檢索增強生成(RAG)對于向用戶提供最新的產品信息和相關的網絡鏈接至關重要。
雖然一定程度的延遲是可以容忍的,但監控并潛在地優化響應時間仍然是可取的。這里的優化策略可以包括緩存常見查詢以加快響應,以及戰略性地使用即時工程來減少不必要的外部數據檢索。
正如您所看到的,為了滿足用例的特定需求,策略的組合通常是必要的。優化策略的靈活性至關重要,因為需求可能會隨著時間的推移而變化,系統需要同時平衡多個需求。
結論
為業務用例優化LLM既是一門藝術,也是一門科學,需要深入了解底層技術和當前的目標。隨著人工智能的不斷發展,優化技術的選擇將變得越來越具有戰略意義,不僅會影響單個應用程序的性能,還會影響人工智能在社會中作用的整體軌跡。
無論您是在速度、準確性、成本還是透明度方面進行優化,上述技術都提供了一個增強LLM的工具包,以滿足未來生成型人工智能商業應用程序的需求。通過深思熟慮地應用這些方法,我們可以創造出不僅有效而且負責任的人工智能,還能適應用戶的細微需求。
譯者介紹
朱先忠,51CTO社區編輯,51CTO專家博客、講師,濰坊一所高校計算機教師,自由編程界老兵一枚。
原文標題:Framework for Optimizing Generative AI to Meet Business Needs,作者:Sarthak Handa