生產(chǎn)環(huán)境測試模型的四種方法

魚蟲子

發(fā)布于 2024-11-15 11:22

瀏覽

0收藏

盡管在本地（通過驗證集和測試集）對機器學習模型進行了嚴格測試，但立即用新模型替換舊模型仍不是一個好想法。

生產(chǎn)環(huán)境測試模型的四種方法-AI.x社區(qū)

一種更可靠的策略是在生產(chǎn)環(huán)境中測試模型（基于真實的實時數(shù)據(jù)）。雖然這聽起來有些冒險，但現(xiàn)實中經(jīng)常這么做，而且并不復雜。下圖展示了四種常見策略：

生產(chǎn)環(huán)境測試模型的四種方法-AI.x社區(qū)

● 當前模型稱為“舊模型”（legacy model）。

● 新模型稱為“候選模型”（candidate model）。

#1）A/B測試

生產(chǎn)環(huán)境測試模型的四種方法-AI.x社區(qū)

● 將傳入的請求不均勻地分配給舊模型和候選模型。

● 故意限制候選模型的暴露程度，以避免潛在風險。因此，發(fā)送到候選模型的請求數(shù)量一定要少。

2#）金絲雀測試（Canary Testing）

生產(chǎn)環(huán)境測試模型的四種方法-AI.x社區(qū)

● 在 A/B 測試中，由于流量被隨機重定向到任一模型，而不考慮用戶特征，因此可能會影響所有用戶。

● 在金絲雀測試中，候選模型首先向生產(chǎn)環(huán)境中的一小部分用戶發(fā)布，并逐步向更多用戶推廣。

像OpenAI發(fā)布新模型時就采用這種策略。

3#）交錯測試

生產(chǎn)環(huán)境測試模型的四種方法-AI.x社區(qū)

● 這涉及將多個模型的預測結(jié)果混合在響應中。

● 以亞馬遜的推薦引擎為例。在交錯部署中，主頁上顯示的推薦一部分可能來自舊模型，而另一部分則來自候選模型。

4#）影子測試（Shadow Testing）

生產(chǎn)環(huán)境測試模型的四種方法-AI.x社區(qū)

● 以上所有技術(shù)都會影響一些（或所有）用戶。

● 影子測試（或暗啟動）讓我們在不影響用戶體驗的情況下，在生產(chǎn)環(huán)境中測試新模型。

● 候選模型與現(xiàn)有的舊模型一起部署，并像舊模型一樣處理請求。然而，輸出不會發(fā)送回用戶，而是被記錄下來，供稍后使用，以便與舊模型進行性能對比。

● 我們明確地部署候選模型，而不是離線測試，因為生產(chǎn)環(huán)境很難在離線環(huán)境中復制。

影子測試提供了在生產(chǎn)環(huán)境中無風險測試候選模型的機會。

本文轉(zhuǎn)載自公眾號人工智能大講堂

原文鏈接：??https://mp.weixin.qq.com/s/1GkbH4P_mQ76trphKLMBrA??

標簽

模型

贊

回復

舉報

回復

相關(guān)推薦

這28種方法值得一看

51CTO技術(shù)棧 ? 3103瀏覽 ? 0回復
除了RAG，還有這五種方法消除大模型幻覺

51CTO技術(shù)棧 ? 5562瀏覽 ? 0回復
利用大語言模型增強網(wǎng)絡(luò)抓取：一種現(xiàn)代化的方法

51CTO內(nèi)容精選 ? 4955瀏覽 ? 0回復
LLM 預訓練加速的新方法：八種模型增長方案總結(jié)

amei2000go ? 4892瀏覽 ? 0回復
好萊塢級視頻模型：4種混合模型，顛覆傳統(tǒng)生成方法

Aceryt ? 2677瀏覽 ? 0回復
使用 OpenAI o1 的五種方法「詳細指南」

51CTO技術(shù)棧 ? 5919瀏覽 ? 0回復
Binary Block Masking：加快稀疏 Attention 的一種新方法

amei2000go ? 4485瀏覽 ? 0回復
關(guān)于大模型在企業(yè)生產(chǎn)環(huán)境中的獨立部署問題

AI探索時代 ? 3029瀏覽 ? 0回復
為什么將RAG擴展到生產(chǎn)環(huán)境如此困難？

丟翅膀的魚 ? 2302瀏覽 ? 0回復
改進RAG管道檢索文檔質(zhì)量的五種方法

51CTO內(nèi)容精選 ? 2824瀏覽 ? 0回復
提高深度學習模型效率的三種模型壓縮方法

51CTO內(nèi)容精選 ? 2914瀏覽 ? 0回復
一文看懂：四種多Agent范式哪種最好

大語言模型論文跟蹤 ? 4097瀏覽 ? 0回復
三種文本相似計算方法：規(guī)則、向量與大模型裁判

AI悠閑區(qū) ? 2826瀏覽 ? 0回復
三種文本相似計算方法：規(guī)則、向量與大模型裁判

AI悠閑區(qū) ? 2614瀏覽 ? 0回復
S1：簡單高效的測試時推理能力擴展方法

上堵吟1 ? 2290瀏覽 ? 0回復
DeepSeek的三種接入使用方法

一起AI技術(shù) ? 4191瀏覽 ? 0回復
【模型測試】大模型評測工具OpenCompass使用方法總結(jié)

一起AI技術(shù) ? 3846瀏覽 ? 0回復
ZeroHSI-一種零樣本的四維人類-場景交互合成方法

shizhi02 ? 1448瀏覽 ? 0回復
這十種方法你一定要知道

Halo咯咯 ? 1863瀏覽 ? 0回復

魚蟲子

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

51CTO

51CTO博客

51CTO學堂

生產(chǎn)環(huán)境測試模型的四種方法

目錄