三個臭皮匠頂個諸葛亮?可能是真的,已證實混合多個小模型性能比肩GPT3.5
在對話型人工智能(AI)研究中,存在趨勢即朝著開發(fā)參數(shù)更多的模型方向發(fā)展,如 ChatGPT 等為代表的模型。盡管這些龐大的模型能夠生成越來越好的對話響應(yīng),但它們同時也需要大量的計算資源和內(nèi)存。本文研究探討的問題是:一組小模型是否能夠協(xié)同達(dá)到與單一大模型相當(dāng)或更好的性能?
本文介紹了一種創(chuàng)新而簡單的方法:混合。
作者展示了如果從一組小規(guī)模的對話型人工智能中隨機選擇回復(fù),生成的對話型人工智能具有很強的性能和吸引力,可以勝過參數(shù)數(shù)量級大很多的系統(tǒng)。作者觀察到混合模型似乎具有 “最優(yōu)” 的特征,通過在對話歷史上進行條件化響應(yīng),一個具有特定屬性的單一模型能夠?qū)W習(xí)其他系統(tǒng)的能力。可以為用戶提供更引人入勝和多樣化的回復(fù)和使用體驗。
作者通過在 CHAI 平臺上進行大規(guī)模 A/B 測試,證明了混合模型的有效性。在真實用戶的測試中,包含三個 6-13B 參數(shù) LLM 的混合模型,勝過了 OpenAI 的 175B + 參數(shù) ChatGPT。并且混合模型的用戶留存率顯著高于基于 ChatGPT 的對話型人工智能,說明用戶認(rèn)為混合對話型人工智能更具吸引力、娛樂性和實用性,盡管混合模型僅需要消耗少量的推理成本和內(nèi)存開銷。
- 論文:Blending Is All You Need: Cheaper, Better Alternative to Trillion-Parameters LLM
- 論文鏈接:https://arxiv.org/pdf/2401.02994.pdf
- 模型鏈接:https://huggingface.co/ChaiML
混合模型
對話型 AI
對話型人工智能的目標(biāo)是設(shè)計一個能夠生成引人入勝、富有娛樂性的對話系統(tǒng),供人們進行交互。設(shè) uk 表示用戶的第 k 輪對話,其中每個用戶輪次是一個單詞序列,uk = (w (k) 1 . . . , w (k) |uk| )。同樣地,設(shè) rk 表示系統(tǒng)生成的第 k 個響應(yīng),也是一個單詞序列,rk = (w (k) 1 , . . . , w (k) |rk| )。作為一種隱式語言模型,一個特定的對話型人工智能,參數(shù)化為 θ,在給定先前對話歷史的情況下,建模預(yù)測下一個響應(yīng)出現(xiàn)的概率。
在訓(xùn)練過程中,系統(tǒng)隱式學(xué)習(xí)將更高的概率分配給流暢、引人入勝和高質(zhì)量的響應(yīng)。因此,可以通過從其分布中隨機采樣輸出,無論是通過隨機方法,還是通過像波束搜索這樣的近似搜索過程。
受 InstructGPT 的啟發(fā),最先進的對話型人工智能通常遵循三階段的流程。首先,對預(yù)訓(xùn)練語言模型 (PrLM) 進行微調(diào),該模型在相關(guān)的文本領(lǐng)域進行訓(xùn)練,例如,在設(shè)計引人入勝的聊天機器人時使用有趣的文學(xué)作品。其次,使用明確的人類反饋來訓(xùn)練獎勵模型。最后,使用獎勵模型改進原始的 PrLM,可以采用近端策略優(yōu)化或者采用簡單的拒絕抽樣策略。
在開發(fā)特定的對話型人工智能時,存在許多設(shè)計選擇,如基礎(chǔ) PrLM、用于微調(diào)的對話數(shù)據(jù)以及用于更新系統(tǒng)的人類反饋。人們可能期望不同的方法和訓(xùn)練數(shù)據(jù)能產(chǎn)生高度多樣的系統(tǒng),每個系統(tǒng)都展示出獨特的優(yōu)勢和特征。然后,可以考慮如何將一組對話型人工智能組合起來,形成具有總體更好特性的系統(tǒng)。
集成
根據(jù)貝葉斯統(tǒng)計原理,分配給特定響應(yīng)的概率可以被概念化為對所有合理的對話型人工智能參數(shù)取邊際期望,
在實踐中,當(dāng)只能訪問有限的一組對話型人工智能系統(tǒng) {θ1, θ2...θN} 時,可以將連續(xù)積分近似為離散求和。此外可以假設(shè) PΘ(θ) 在這些系統(tǒng)上均勻分布,即 PΘ(θn) = 1/N,如果該集合包含性能相似的模型,這是一個有效的假設(shè),可以得到下面的近似式:
混合
作者提出的方法目標(biāo)是從真實的集成分布 (方程 8) 中近似抽樣。為了實現(xiàn)這種近似,在每一輪對話混合模型都會隨機 (均勻地) 選擇生成當(dāng)前響應(yīng)的對話型人工智能 θ。這個過程在下面的算法 1 中有詳細(xì)描述。需要注意的是,在對話過程中,特定對話型人工智能生成的響應(yīng)是在先前選擇的對話型人工智能生成的所有先前響應(yīng)的條件下進行的。這意味著不同的對話型人工智能能夠隱式地影響當(dāng)前響應(yīng)的輸出。因此當(dāng)前響應(yīng)是個體對話型人工智能優(yōu)勢的混合,它們共同合作以創(chuàng)建整體更吸引人的對話。
實驗
對于在 Chai Research 平臺上部署的每個對話型人工智能,作者根據(jù) A/B 測試設(shè)置中的 (文章 4.2 節(jié)的公式 15) 計算每一天 k 的用戶參與度。通過考慮第 20 天 (k=20),圖 1 顯示了混合模型、其組成的對話型人工智能以及 OpenAI 的 GPT-3.5 的參與度比例。作者觀察到中等大小的對話型人工智能 (Pygmillion、Vicuna 和 ChaiLLM) 的參與度明顯低于 GPT3.5,這是在預(yù)期內(nèi)的,因為 GPT3.5 的參數(shù)數(shù)量要高一個數(shù)量級。然而,混合這三個基本對話型人工智能,混合模型的結(jié)果不僅比每個組成系統(tǒng)都具有更高的參與度,而且性能提升顯著,以至于混合模型可以勝過 OpenAI 的 GPT3.5。與其他對話型人工智能相比,混合模型的成功也可以通過比較 k=20 的用戶留存比 (文章 4.1 節(jié)的公式 10) 來計算,結(jié)果如圖 1 所示。
混合模型總共有 25 億參數(shù),而 OpenAI 有 1750 億參數(shù)。此外,由于混合模型的響應(yīng)是從單個對話型人工智能中隨機抽樣的,因此推理成本等同于單個 6B/13B 系統(tǒng)的成本。在圖 2 和圖 3 中,可以看出推理速度的顯著差異,可以觀察到混合模型在參與度和用戶留存方面有顯著的性能提升,而速度與小型對話型人工智能相當(dāng)。這具有重要意義:與其擴大系統(tǒng)規(guī)模以提高質(zhì)量,不如簡單地混合多個較小的開源系統(tǒng),而且在不增加任何推理成本的情況下,可以極大地改善用戶的對話體驗。這證明了在設(shè)計引人入勝且成功的對話型人工智能時,模型協(xié)作比簡單的模型參數(shù)擴展更為重要。
作為客觀比較,表 1 報告了單一指標(biāo)摘要 (論文 3.3 節(jié))。以 Pygmillion 為控制組,作者提供了測試相對于控制組的參與度比率指標(biāo)?α 和?γ,以及測試相對于控制組的留存比率指標(biāo)?ζ 和?β?;旌夏P途哂凶罡叩南鄬Τ跏紖⑴c度,?α,以及最佳的參與度比率衰減率,?γ。盡管 Vicuna 的留存比率衰減率?β 優(yōu)于混合模型,但 Vicuna 的初始留存比率?ζ 明顯較低,說明 Vicuna 需要更長的時間來達(dá)到混合模型的留存分?jǐn)?shù) 6,如前面圖 2 和 3 所示??傮w而言,很明顯,混合模型通過協(xié)作多個較小的對話型人工智能,在提供比單個更大的對話型人工智能 (OpenAI 的 GPT3.5) 更高質(zhì)量的對話方面是有效的。