成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

答案抽取正確率達96.88%,xFinder斷了大模型「作弊」的小心思

發布于 2024-6-17 12:46
瀏覽
0收藏

本文第一作者和通訊作者均來自上海算法創新研究院。其中,通訊作者李志宇博士畢業于中國人民大學計算機專業,并曾在阿里巴巴、小紅書等互聯網公司從事算法落地與研究工作,曾參與了包括千億級商品知識圖譜、用戶圖譜和輿情圖譜的研發工作,累計發表論文四十余篇。李志宇當前在上海算法創新研究院大模型部門(由熊飛宇博士帶領)負責整體的技術研發工作。研究院主頁:https://www.iaar.ac.cn/


大語言模型(LLM)的迅速發展,引發了關于如何評估其公平性和可靠性的熱議。


盡管現有的評估框架如 OpenCompass、LM Eval Harness 和 UltraEval 以及各種 Benchmark 推動了行業進步,但專注于這些評估框架核心組件可信度或可靠性度量的團隊卻為數不多。


近日,上海算法創新研究院和中國人民大學的研究團隊發布了一篇名為《xFinder: Robust and Pinpoint Answer Extraction for Large Language Models》的論文。這篇論文深入分析了LLM評估框架的整體流程,重點評估了答案抽取器組件在大模型評估中的可靠性和一致性。

答案抽取正確率達96.88%,xFinder斷了大模型「作弊」的小心思-AI.x社區

當前的評估框架主要依賴正則表達式(RegEx)來抽取答案,但這種方法存在明顯缺陷。人工復核結果顯示,其最佳抽取正確率僅為74.38%,評估結果極不可靠。


此外,RegEx方法容易被有意或無意地擬合,增加了「作弊」的可能性,從而影響評估結果的可靠性和一致性。下圖展示了LLM評估框架中RegEx組件抽取錯誤的情況。

答案抽取正確率達96.88%,xFinder斷了大模型「作弊」的小心思-AI.x社區

為了有效解決這一問題,上海算法創新研究院和中國人民大學的研究團隊開發了一個名為 xFinder 的新模型,用于更準確地抽取關鍵答案。


xFinder 具有以下優勢:


(1)不要求特定格式的答案輸出,具備較強的答案抽取魯棒性,抽取準確率高達95.18%,顯著優于目前最佳LLM評估框架中的RegEx方法。


(2)支持多樣化題型,能夠將字母選擇題自動轉換為問答題,并支持不同題型的混排評估,從而降低測試者擬合題型的可能性。 


方法介紹

答案抽取正確率達96.88%,xFinder斷了大模型「作弊」的小心思-AI.x社區

xFinder的實現過程主要包括LLM響應內容的生成、KAF數據集的標注和xFinder的訓練。為了實現 xFinder 模型的有效訓練,團隊構建了一個專門的數據集——關鍵答案查找(KAF)數據集。該數據集包含 26,900 個訓練樣本、4,961 個測試樣本和 4,482 個泛化樣本,涵蓋多種評估任務。


大語言模型響應生成


首先,研究團隊從現有的主要評估基準和報告中挑選了多個典型的評估任務數據集,這些任務被分類為四種類型:字母選項任務、短文本選項任務、分類標簽任務和數學任務。


接著,團隊使用不同系列的 LLM(如 Qwen、InternLM、ChatGLM 等)生成這些任務的數據對。通過多種 LLM,團隊生成了豐富多樣的數據對,為 xFinder 模型的訓練提供了充分的數據支持。 


自動標注與人工復核


團隊使用了一種策略,從 LLM 響應中提取關鍵答案并將其用作標簽,以構建高質量的 KAF 數據集。為提高訓練集的標注效率,他們采用了半自動化流程,通過不同提示使用 GPT-4 生成了兩組標注,并利用自一致性策略篩選出標注不一致的項和所有數學問題,提交給人工復查。為了確保測試集和泛化集的有效性和可靠性,所有標簽都經過兩輪手動注釋。 


訓練 xFinder


為了增強 KAF 數據集的多樣性和模型的泛化能力,研究團隊采用了兩種數據增強策略:


(1)模擬 LLM 響應:對 KAF 訓練集中 50% 的字母選項問題進行修改,增加或刪除一到兩個選項,以模擬 LLM 的多樣化響應。


(2)豐富提示形式:提取包含關鍵答案句子的 LLM 響應的 10%,替換其中的提示部分,例如將「The final answer is A」替換為「Based on the context of the question, A is the most likely answer」。


此外,團隊使用 XTuner 工具和 QLoRA 方法,對 Llama 系列、Qwen 系列和 Gemma 系列等基座模型進行微調,最終獲得 xFinder。

答案抽取正確率達96.88%,xFinder斷了大模型「作弊」的小心思-AI.x社區

實驗結果


該團隊進行了廣泛的實驗,評估xFinder在不同任務上的表現,并與現有的RegEx方法進行了對比。


KAF 測試集上的結果


在 KAF 測試集上,xFinder-qwen1505 的平均提取準確率達到了 96.88%,顯著高于最佳評估框架中的 RegEx 方法的 74.38%。


具體來看,xFinder-qwen1505 在字母選項任務中的提取準確率為 97.35%;在短文本選項任務中為 96.83%;在分類標簽任務中為98.05%;在數學選項任務中為 92.76%。這些結果表明,xFinder 在各類任務中均表現出色,顯著提升了評估的準確性和可靠性。

答案抽取正確率達96.88%,xFinder斷了大模型「作弊」的小心思-AI.x社區

KAF 泛化集上的結果


在全新的 KAF 泛化集上(該泛化集使用了與 KAF 數據集中的訓練集和測試集不同的 LLM 和測試任務生成的樣例構造的),xFinder-qwen1505 展現了卓越的性能,平均提取準確率達到了 93.42%。


實驗結果表明,xFinder 的表現不僅優于其他基于 RegEx 的評估框架,甚至顯著優于 GPT-4,充分展示了其高魯棒性和泛化能力。

答案抽取正確率達96.88%,xFinder斷了大模型「作弊」的小心思-AI.x社區

在現實世界場景中的評估


研究團隊使用 xFinder 和傳統評估框架對 10 種 LLM 進行了綜合評估。評估任務涵蓋了 CommonsenseQA、BoolQ 和 GSM8K 等。通過對 10 種不同的 LLM 應用五種答案提取方案,進行了一系列對比實驗。


概括起來,實驗結果主要揭示了三個關鍵發現:


(1)同一模型在不同框架下的排名常常出現較大差異,難以準確反映模型的真實能力,顯示出一致性較低。


(2)不同的 xFinder 在這些實驗中顯示出了高度的一致性,并且在提取答案的準確率上也超越了其他評測框架,表明 xFinder 是一種更加可靠的評測方法。


(3)與傳統的字母選項設置相比,直接使用選項文本能顯著提升排名的一致性,反映了字母選項設置的不穩定性。更多的細節和實驗結果已在附錄中展示,這些內容進一步證實了上述發現的有效性。

答案抽取正確率達96.88%,xFinder斷了大模型「作弊」的小心思-AI.x社區

結語


總的來說,xFinder通過優化關鍵答案提取模塊,提高了LLM評估的準確性和可靠性。實驗結果表明,xFinder在多種任務上均表現出色,具備較高的魯棒性和泛化能力。未來,該研究團隊將繼續優化xFinder,并研究其他評估關鍵問題,為LLM性能的可靠評估提供堅實基礎。


本文轉自 機器之心 ,作者:機器之心


原文鏈接:??https://mp.weixin.qq.com/s/C5G-rpen9OM4MmBhrByTIQ??

標簽
收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 在线国产欧美 | 蜜桃在线视频 | 欧美成人激情 | 91精品在线播放 | 免费国产一区二区视频 | 91大神xh98xh系列全部 | 国产日韩欧美一区二区 | 在线国产视频 | 成人一区av| 一级片在线观看 | 日本在线视频一区二区 | 精品一区二区久久久久久久网精 | 开操网| 亚洲精品欧洲 | 精品一区二区三区四区五区 | 97伦理影院 | 日本不卡一区二区三区 | 亚洲 中文 欧美 日韩 在线观看 | 91精品国产91久久久久久三级 | 国产高清在线观看 | 天天操网 | 久久高清免费视频 | 97超碰中文网 | 波多野结衣精品在线 | 81精品国产乱码久久久久久 | 国产丝袜人妖cd露出 | 日韩在线中文 | 91精品国产色综合久久 | 一级黄色片在线免费观看 | 好好的日在线视频 | 亚洲成人一区二区 | 作爱视频免费看 | 成人网av | 精品欧美一区二区中文字幕视频 | 日韩精品一区二区三区中文字幕 | 国产日产精品一区二区三区四区 | 精品国产一区二区在线 | 精品久久中文 | 欧美成人一区二区三区 | 国产精品久久久久久亚洲调教 | 涩涩鲁亚洲精品一区二区 |