ACL 2025 | Revisiting Self-Consistency: 動態分布對齊視角下的大模型投票策略
思維鏈(Chain of Thought, CoT)作為大規模語言模型推理能力的關鍵技術,其性能在很大程度上取決于解碼策略的設計。自洽性(Self-Consistency, SC)方法通過對同一輸入生成多條推理軌跡,并以多數投票的方式選取最終答案,從而在無需額外模塊的前提下顯著提升了模型的推理準確性和魯棒性。然而,關于SC機制的深層次原理尚未得以充分闡明,其中多樣性采樣參數對SC效果的影響也常被忽視。
在ACL 2025會議上,小紅書搜索團隊從動態分布對齊的視角出發,系統性地考察了SC采樣過程中的溫度調整機制,并提出了一種基于置信度驅動的動態溫度校準方法。該方法能夠根據生成推理答案的置信度動態調節采樣溫度,以實現推理路徑多樣性與答案分布收斂速度的平衡。
隨后,北京理工大學與小紅書的研究者在數學推理任務上對該方法進行了大規模評估,涵蓋多種主流基座模型。實驗結果顯示,與固定多樣性參數的對照方法相比,置信度驅動的動態采樣策略在有限樣本環境下具有更優的性能表現,無需額外訓練數據或模塊支撐,即可實現推理效果的穩步提升。這一現象揭示了SC方法實質上是動態采樣機制與漸進演化答案分布之間的同步優化問題,為進一步理論分析與實踐應用奠定了基礎。
論文標題:
Revisiting Self-Consistency from Dynamic Distributional Alignment Perspective on Answer Aggregation
論文地址:
https://www.arxiv.org/abs/2502.19830
01、背景
自洽性方法(Self-Consistency, SC)是一種經過長期驗證的解碼策略,通過對同一輸入進行多次采樣并以多數投票方式聚合結果,從而提升模型性能。大量研究表明,SC在多種任務中均能顯著增強語言模型的推理能力,但其潛在機制迄今尚未得到深入探究。
近期研究表明,通過對多條推理軌跡進行多數投票,SC方法能夠有效避免陷入局部最優并減少單次采樣所引入的高方差,從而使聚合結果逐步逼近模型的潛在真實答案分布(參見圖1(a))。基于此見解,本文首次從形式化層面給出SC方法的收斂性定義,并設計了對應的采樣過程收斂判據。系統性分析表明,傳統觀點中對“固定真實分布”的假設在實際解碼過程中并不成立,而解碼參數(如溫度設置)對SC的收斂行為具有關鍵影響(參見圖1(b))。
基于上述發現,本文圍繞以下兩個關鍵問題展開研究:
- 在可用樣本數量受限的情況下,不同采樣多樣性策略如何影響采樣分布與潛在真實答案分布之間的對齊?
- 能否通過主動校準解碼參數以加速并穩健收斂,而非依賴漸近收斂?
為此,我們對溫度參數在SC過程中的作用進行了深入探討。
研究結果表明,溫度不僅調節采樣隨機性,而且直接塑造潛在答案分布。當樣本數量趨于無窮大時,較高溫度有助于獲得更理想的真實分布;然而在樣本有限的情況下,最佳采樣溫度會隨樣本量減少而降低。該現象揭示了一種權衡:低多樣性采樣可迅速集中投票結果并抑制噪聲,但存在放大模型固有偏差的風險;高多樣性采樣雖然分散結果、需更多樣本以實現穩定,卻有助于探索潛在的更優分布,從而在總體上提升SC方法的性能。
言而總之,我們的分析表明,SC的有效性取決于采樣分布的置信度與真實答案分布的內在不確定性之間的動態對齊——這種關系受樣本數量的影響。理想情況下,應該控制采樣分布,以便多數投票結果與真實分布緊密匹配,并在此基礎上探索更優的真實分布。
基于以上分析,我們提出了一種置信度驅動的采樣溫度優化機制,該機制根據答案分布計算實時置信度從而動態調整溫度。當早期樣本在前兩次投票答案之間僅顯示出很小的概率差距時,我們的機制銳化采樣分布,以更好地將其與真實分布對齊。相反,當置信度較高時,升高溫度以探索潛在的更優分布。我們推導出一個置信度閾值來確定溫度調整的方向,為這一過程提供理論支持。這種閉環控制動態地將采樣分布與潛在答案分布對齊,確保高效收斂,同時積極追求更好的分布。
02、SC原理分析
2.1 分布視角下的SC有效性分析
從概率的角度來看,SC可以看作是真實答案分布p(y | x) 的蒙特卡羅估計。隨著樣本數量的增加,樣本形成的經驗分布近似于真實分布,最高頻的答案與真實分布下采樣概率最高的答案一致:
隨著采樣樣本數量的增加,聚合估計的可靠性顯著提升,多數投票機制亦逐步收斂于模型的潛在真實答案。為驗證該見解,我們考察了top-1答案匹配率隨樣本規模變化的曲線特性。真實top-1答案,指通過從大規模采樣結果中構造的近似真實分布中抽取所得的最優答案。
圖2 的結果表明隨著樣本量的增加,top-1 答案匹配率逐漸接近 100%,準確率不斷提高。這給予我們一個見解:SC性能的提高源于采樣分布中的top-1 答案逐漸與真實分布對齊的事實,最終達到了真實分布水平的準確性。
2.2 SC收斂性分析
根據以上觀察和見解,由于真實分布的準確性是固定的,因此保證SC的答案收斂。為了進一步研究,我們根據柯西收斂準則提供以下定義:
基于定義2.1,我們證明了SC在數據集上準確率也收斂:
最后,我們給出在在實際采樣過程中SC的收斂判別準則:
圖3 描述了各種模型在GSM8K數據集上的收斂行為,準確率曲線根據定義2.3 繪制到收斂點,從中我們可以得到:
- 收斂速度與準確率呈正相關。
- 收斂速度與溫度成反比。
- 最終收斂的準確率在不同的溫度設置下是不同的。
基于它們,我們得出了:采樣多樣性會影響真實分布,影響SC的收斂效果和收斂速度。
2.3 多樣性解碼策略對SC的影響
為了更深入地了解多樣性對SC的影響,我們研究了準確率隨溫度變化的關系。
收斂條件下
圖4 展示了在采樣至SC收斂情況下溫度和準確率的變化曲線,這結果表明隨著溫度升高,單個樣本的準確率呈下降趨勢,收斂后SC的準確率呈上升趨勢(最佳點通常接近1.0)。集成學習中的分歧消解定理提供了一定的解釋性,這表明集成的整體性能是由單個模型的準確性與其多樣性之間的權衡決定的。
我們獲得了結論:當樣本量足夠時,應該增加溫度以更好地探索具有更高準確度的真實分布。
有限采樣
圖5 表示在有限采樣的情況下溫度和準確率的熱力圖。我們發現:當樣本量有限時,隨著樣本量的減小,最佳溫度逐漸向較低的值移動。根據以上分析,我們得出:樣本量決定了能可靠建模最大top-1 的置信水平。置信度較低的真實分布需要更大的數據量,以確保采樣的top-1 答案與收斂結果一致。
根據不同情況下的溫度和準確率分析,我們推導出:SC的有效性取決于采樣分布的置信度與真實答案分布的內在不確定性的動態對齊。
03、方法
部分的分析,我們提出了自適應置信分布對齊機制,以克服傳統SC在固定樣本大小與溫度下的局限性。具體而言,我們根據實時計算的樣本分布置信度動態調整采樣溫度:當置信度偏低且樣本量有限時,降低溫度以提高聚合決策的穩定性;而在置信度較高的情形下,適當升高溫度以促進對潛在真實分布的探索。該機制通過主動收斂和探索的平衡,使SC在有限樣本條件下亦能迅速逼近真實答案,同時在必要時保持多樣性以發掘更優解,從而顯著提升整體準確性與魯棒性。
3.1 多樣性控制策略
動態溫度調整
我們引入了一種置信度驅動的多樣性優化機制,將采樣分布與潛在答案分布動態對齊。FSD被用作置信度度量來量化Top-1答案和Top-2答案之間的差距。形式上,在解碼步驟t,有:
為了確保穩定的優化,我們設計了一個保守的調整規則,其不變區間在置信閾值 τ 附近。溫度 T 通過FSD進行更新:
其中 ε 是穩定性余量,為簡單起見,我們將其設置為 0.05。溫度 T 被限制在 [0.1, 1.0] 的區間以避免極值。
階段采樣策略
為了平衡探索和效率,我們設計了三階段抽樣規則:
- 探索階段:以預設 收集少量樣本 作為估計初始 的窗口。
- 自適應階段:通過等式7 調整,然后生成(N : 總采樣數)個樣本。
- 利用階段:通過等式7 獲得最終并生成剩余的個樣本。
階段性方法逐漸從廣泛的探索轉向集中利用。最后,準確度由 N 個樣本總數的多數投票計算。
3.2 理論推導
為了確保 FSD 閾值 τ 的合理有效選擇,我們構建了一個單邊 z 檢驗進行分析。該測試采用零假設如下:
H0:當前采樣的top-1 答案不是無限采樣下給定問題的真實答案。
為了簡化這個問題,我們假設只有當前的top-2 答案可能會在無限采樣下成為真實答案。因此,我們很自然地關注FSD 和置信度之間的關系。因此,這個單邊 z 檢驗可以描述為:
假設當前樣本量接近無窮大,并且根據多項式分布和 Jensen 不等式,我們得到檢驗量z的下界為:
當時,其對應的值約為 0.05。在此情形下,我們可以以較高置信度認為模型輸出的最可能答案即為真實答案分布下的 top-1 答案。因此,可將 FSD 閾值設定為:
04、實驗
4.1 主實驗
實驗設置
- 數據集及模型:我們在兩個廣泛使用的數學推理基準上評估我們的方法:GSM8K和 MATH。實驗使用多個不同類別的基座模型來評估方法的效果和泛化性,包括Qwen、Llama、Mistral、DeepSeek、Gemma 和 Phi。
- 參數設置:為了系統地比較動態和靜態溫度策略,我們測試了初始溫度 T0 ∈ {0.1, 0.2,.., 1.0},采樣數 N ∈ {10, 20, 40}。
- 評估指標:為了直觀地有效地評估方法之間的差異,我們計算了所有溫度下固定溫度采樣和動態溫度采樣的平均準確率和最大準確率。
動態溫度采樣減輕了固定溫度采樣帶來的性能損失。我們發現,動態溫度采樣在不同溫度下的平均準確率優于固定溫度采樣。這表明我們的方法不受溫度范圍的限制,可以識別對不同溫度下SC性能更有效的樣本。對于最優溫度而言,這種方法減輕了樣本在單個固定溫度下無效采樣引起的性能損失。
對于不同的樣本,動態溫度采樣為每個樣本搜索更合適的溫度。同樣,我們觀察到動態溫度采樣在最大準確率方面也提供了一定的改進。這可以歸因于不同的樣品需要不同的溫度區間。固定溫度采樣只能在整體上追求期望準確率,而動態溫度采樣自動搜索每個單獨樣本的最佳溫度,最大限度地優化SC在各個初始溫度下的性能。
4.2 分析實驗
我們對模型在不同溫度下的準確性進行了詳細的分析。圖 7 顯示了 Qwen2.5-Math-7B 模型的準確度和溫度曲線。我們觀察到,在采樣大小為 20 和 40 的情況下,低溫范圍 (0.1-0.4) 和高溫范圍 (0.7-1.0) 都表現出顯著的改進。這表明動態溫度采樣產生更穩健的結果。
溫度調整方向分析
考慮樣本層級,我們首先分析了在整個動態溫度采樣過程中經歷溫度增加、減少或保持不變的樣本的比例,如圖8所示。我們觀察到,在低溫范圍內,至少80%的樣本經歷了溫度升高。這一觀察結果與我們從數據集層面考慮得出的假設一致,這表明升高溫度往往會導致更高的預期準確度。隨著初始溫度升高,溫度向上調整的樣本比例逐漸減小,表明對于當前采樣的某些樣本,過高的溫度不足以自信地選擇正確的答案。因此,降低溫度對于提高置信度是必要的。此外,我們注意到,在采樣數擴大的情況下,樣本溫度上升的比例更高,這與我們在第 2 部分的分析是一致的。
樣本在最佳溫度范圍的比例
我們分析了最終到達FSD閾值范圍樣本的比例。我們認為到達FSD閾值范圍是樣本處于最佳溫度范圍內的標志。如圖9 所示,與固定溫度采樣相比,動態溫度采樣使得樣本進入FSD閾值范圍的比例更高。這表明我們的方法可以更好地動態對齊數據集中更大范圍的樣本。
05、結語
本工作通過動態分布對齊的視角重新審視SC,打破被動收斂到固定答案分布的傳統觀點。我們證明了基于溫度的解碼塑造了采樣行為和潛在答案分布,揭示了多樣性驅動的探索和有限樣本收斂之間的權衡。通過引入置信度感知機制,該機制根據與分布的實時對齊動態調整溫度,彌合這一差距,從而實現動態采樣和演化答案分布之間的有效同步。
實驗結果表明,這種方法優于靜態策略,在沒有外部資源介入的情況下實現了穩健的性能改進。我們的研究結果將SC定位為有限樣本下的主動對齊挑戰,為推理任務中的自適應聚合框架開辟了新途徑。
06、作者簡介
李易為
現博士就讀于北京理工大學,小紅書社區搜索組實習生。在 NeurIPS、ICLR、ACL、NAACL、AAAI 等機器學習、自然語言處理領域頂級會議上發表數篇一作論文,主要研究方向為大語言模型、開放域對話生成等。
張驥
現本科就讀于北京理工大學,小紅書社區搜索組實習生。在ACL發表一篇論文。主要研究方向為大語言模型推理。
馮少雄
現負責小紅書社區搜索機制和垂類。曾負責個性化和長冷向量召回、大模型滿意度標注/答案生成(基于后驗行為RLHF)。兼職北京理工大學校外博導,在 ICLR、NeurIPS、AAAI、ACL、EMNLP 等機器學習、自然語言處理領域頂級會議上發表多篇論文,主要研究方向大模型推理/評測/蒸餾、生成式檢索、開放域對話生成。