成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

大模型結(jié)構(gòu)化推理優(yōu)勢難復(fù)制到垂直領(lǐng)域!最新法律AI評估標(biāo)準(zhǔn)來了,抱抱臉評測集趨勢第一

人工智能 新聞
來自蘇黎世聯(lián)邦理工學(xué)院、瑞士聯(lián)邦最高法院、馬克斯-普朗克研究所及蘇黎世大學(xué)等多個機(jī)構(gòu)的研究人員聯(lián)合發(fā)起并發(fā)布了一項全新的、多語言法律推理基準(zhǔn)數(shù)據(jù)集——LEXam。

大模型推理,無疑是當(dāng)下最受熱議的科技話題之一。

但在數(shù)學(xué)和物理等STEM之外,當(dāng)LLM落到更多實(shí)際應(yīng)用領(lǐng)域之中,大模型的推理能力又有多大的潛能和局限?

比如,如何評估大模型的推理能力在法律領(lǐng)域的應(yīng)用,就在當(dāng)前備受關(guān)注。

為此,來自蘇黎世聯(lián)邦理工學(xué)院、瑞士聯(lián)邦最高法院、馬克斯-普朗克研究所及蘇黎世大學(xué)等多個機(jī)構(gòu)的研究人員聯(lián)合發(fā)起并發(fā)布了一項全新的、多語言法律推理基準(zhǔn)數(shù)據(jù)集——LEXam

LEXam法律推理基準(zhǔn)集發(fā)布一周以來下載量1.7k+,在Hugging Face Evaluation Datasets趨勢榜上排名第一。

圖片

法律推理基準(zhǔn)測試:更復(fù)雜、更精確

近年來,以ChatGPT、Claude等為代表的生成式大語言模型(LLM)迅猛發(fā)展,在多個領(lǐng)域內(nèi)取得了令人矚目的成果,甚至在數(shù)學(xué)和物理等STEM科目基準(zhǔn)測試中頻頻逼近或超過了人類表現(xiàn)。

然而,雖然LLM在推理類任務(wù)上進(jìn)展顯著,但在更為復(fù)雜與微妙的法律領(lǐng)域,這類模型的實(shí)際表現(xiàn)仍然存在很大的未知和諸多疑問。

這是因?yàn)榉赏评砗w了諸多現(xiàn)有機(jī)器學(xué)習(xí)優(yōu)化框架亟待解決的挑戰(zhàn),包括但不限于:

  • 基于事實(shí)與證據(jù)的推理(Fact/evidence-based reasoning)
  • 高度依賴細(xì)致推導(dǎo)的證據(jù)檢索(Reasoning-dense retrieval)
  • 主觀評價與客觀事實(shí)的平衡(Subjectivity vs. Objectivity)
  • 以及全流程推理的準(zhǔn)確性(Process accuracy)

上述挑戰(zhàn)不僅存在于法律領(lǐng)域,在醫(yī)學(xué)診斷、社會科學(xué)研究決策、歷史文本分析等眾多非結(jié)構(gòu)化推理任務(wù)中同樣廣泛存在,值得更多通用機(jī)器學(xué)習(xí)領(lǐng)域研究者的關(guān)注與研究。

這些問題尚未在目前主流的推理框架,如RLHF/RLVR優(yōu)化路徑中得到充分體現(xiàn)與解決;而現(xiàn)有LLM優(yōu)化框架更多是集中在數(shù)學(xué)計算或程序代碼等結(jié)構(gòu)化推理任務(wù)對推導(dǎo)過程或答案進(jìn)行規(guī)范性調(diào)整與優(yōu)化。

可是不同于可以直接運(yùn)用公式或標(biāo)準(zhǔn)方法的數(shù)學(xué)、物理問題,現(xiàn)實(shí)法律推理中通常涉及復(fù)雜、多層次的分析,既需要精確的規(guī)則回憶(rule recall),也要求多層次的規(guī)則適用(rule application),還涉及對案件事實(shí)和證據(jù)進(jìn)行敏銳具體的識別(issue spotting);甚至要基于先例法律條文進(jìn)行深層次的推理和論證。

這些特性使得大模型在法律推理領(lǐng)域可能面臨以往訓(xùn)練中所未曾遇到的考驗(yàn):一旦LLM出現(xiàn)推理錯誤甚至“幻覺”,就可能導(dǎo)致嚴(yán)重的現(xiàn)實(shí)法律風(fēng)險,甚至影響公信力。

LEXam:一個專注法律推理的開創(chuàng)性多語言基準(zhǔn)數(shù)據(jù)集

LEXam專門設(shè)計了高質(zhì)量的數(shù)據(jù)集,包含來自瑞士蘇黎世大學(xué)法學(xué)院的340場不同課程、不同級別(本科與碩士)的真實(shí)法律考試,覆蓋瑞士、歐洲及國際法,以及法學(xué)理論和法律歷史領(lǐng)域。整個數(shù)據(jù)集共有4886道問題,其中包括:

  • 2841道長篇問答題(long-form open-ended questions)
  • 2045道多項選擇題(MCQ)

這些題目分別使用英語和德語撰寫,結(jié)合了大陸法(強(qiáng)調(diào)成文法和法典)及普通法系(強(qiáng)調(diào)判例)的多元法律文化背景。

圖片

上圖為展示的是開發(fā)和測試數(shù)據(jù)集中,按法律領(lǐng)域、語言和司法管轄區(qū)劃分的開放性問題和MCQ分布情況。

重要的是,每一道長篇題目不僅提供了標(biāo)準(zhǔn)答案(reference answers),還詳細(xì)說明了對應(yīng)的推理分析路徑:例如清晰地規(guī)定需要使用的問題識別方法(issue spotting)、法律規(guī)則回憶(rule recall)或特定規(guī)則下的事實(shí)適用(rule application)。

這種設(shè)計使得我們可以深入理解LLM在復(fù)雜法律推理中的能力缺陷,而非僅僅局限于評估最終的正確性。

LLM-as-a-Judge:構(gòu)建可靠且可擴(kuò)展的推理評估體系

LEXam團(tuán)隊最新的實(shí)證研究表明:

  • 現(xiàn)有最先進(jìn)的大模型仍顯著難以應(yīng)對長篇的開放性法律問答題。特別是涉及多步分析、復(fù)雜規(guī)則應(yīng)用的情境下,LLM表現(xiàn)尤為困難。
  • 即便是現(xiàn)有被公認(rèn)最先進(jìn)的LLM模型,難以有效且穩(wěn)定地完成嚴(yán)格的、結(jié)構(gòu)化的多步法律推理任務(wù),這為后續(xù)模型研究與開發(fā)指明了重要方向。

與傳統(tǒng)僅關(guān)注最終答案正確與否的評估方式不同,LEXam的另一大重要創(chuàng)新在于引入了可信的“LLM-as-a-Judge”模式,即使用大模型本身來評估其他模型生成的法律推理步驟的質(zhì)量。

通過先讓模型生成中間法律推理步驟,再由其他模型以清晰的標(biāo)準(zhǔn)對這些推理步驟進(jìn)行評估和打分,并最終與專家工評估結(jié)果做嚴(yán)格比較驗(yàn)證。

驗(yàn)證結(jié)果發(fā)現(xiàn),這一模型擔(dān)任法官的評估方法與人工專家的評分擁有高度一致性(高相關(guān)性),這種方法為法律推理的評估提供了高效的自動化支持,克服了以往基準(zhǔn)測試僅對最終正確答案做評估的局限。

這一方法提供了一種全新的自動化評估路徑,使得法律推理能力評估體系更加透明、可靠、可規(guī)模化,也為未來研究者們提供了可輕松復(fù)用的工具。

模型評測總體表現(xiàn)

LEXam團(tuán)隊針對不同類別的大語言模型進(jìn)行了測試。

包括“專精推理優(yōu)化”的模型(如Gemini-2.5-Pro、Claude-3.7-Sonnet、DeepSeek-R1、o3-mini和QwQ-32B);

一些“旗艦級”的大型通用LLM(如GPT-4及其變種、DeepSeek-V3、Llama-4-Maverick);

以及小尺寸模型(如Gemma、Phi-4、EuroLLM等)。

圖片

上表展示的是大語言模型在長式開放問題和MCQ上的表現(xiàn)及標(biāo)準(zhǔn)誤差(S.E.)。

開放題由GPT-4o判定,Temperature為0。Judge S.E.表示GPT-4o判定的3個樣本(1個樣本采用貪婪解碼,2個樣本采用temperature=0.5)的平均S.E.。結(jié)果按得分從高到低排序。

從評測結(jié)果看,專門的推理型模型展現(xiàn)出最高的性能。

其中Gemini-2.5-Pro達(dá)到最高平均分(82.2分),其次是Claude-3.7-Sonnet(77.6分)。

這證實(shí)了對推理任務(wù)做過明確優(yōu)化的模型比傳統(tǒng)大規(guī)模通用型LLM更適合復(fù)雜的法律推理任務(wù)。

在非專門設(shè)計推理的通用大型模型中,GPT-4.1(68.2分)和GPT-4o(66.2分)表現(xiàn)優(yōu)異,明顯領(lǐng)先于其他傳統(tǒng)模型(DeepSeek-V3、Llama-4-Maverick等),顯示出GPT系列對復(fù)雜指令遵循和一般常識理解的卓越能力。

同時,較小的LLMs和老一代模型的性能普遍偏低。

但值得注意的是,小型模型中的Gemma-3-12B-it表現(xiàn)優(yōu)于體積比它大33倍的Llama-3.1-405B-Instruct模型(Gemma-3-12B-it得分50.9,Llama-3.1-405B-Instruct為48.9),這可能得益于Gemma對多語言任務(wù)的特殊優(yōu)化設(shè)計。

圖片

LEXam團(tuán)隊檢查了大語言模型在不同語言、法律領(lǐng)域和司法管轄區(qū)分組的開放性問題的表現(xiàn),可以看到:

  • 專精推理優(yōu)化模型再次領(lǐng)先,尤其是Claude-3.7-Sonnet(準(zhǔn)確率57.2%)和Gemini-2.5-Pro(準(zhǔn)確率55.7%)。
  • 大型通用LLM中,GPT-4.1表現(xiàn)突出,(54.4%),與推理特化模型相距不遠(yuǎn)。
  • 小尺寸模型整體表現(xiàn)明顯不如其他類別,但GPT-4o-mini(41.0%)與Phi-4(40.7%)兩款小尺寸模型表現(xiàn)相對突出。

圖片

LEXam團(tuán)隊進(jìn)一步分析了模型在不同維度上的表現(xiàn)(包括語言、法律領(lǐng)域及司法轄區(qū)),發(fā)現(xiàn):

  • 整體而言,所有類型和尺寸的LLM在英文任務(wù)上的表現(xiàn)明顯優(yōu)于德語任務(wù),這可能與模型訓(xùn)練語料庫的語言分布密切相關(guān)。
  • 從法律領(lǐng)域角度看,跨學(xué)科和公法領(lǐng)域的表現(xiàn)普遍高于刑法和私法。這可能體現(xiàn)出刑法及私法涉及更細(xì)致的推理鏈條和更嚴(yán)格的邏輯確定性要求。
  • 在司法轄區(qū)方面,國際法和通用法律題目的總體得分普遍高于地區(qū)(以瑞士法律為例)法律任務(wù)的得分,這顯示地區(qū)法律知識對模型的挑戰(zhàn)更大。
  • 在選項的表述上,推理模型面對否定式的問題時(例如:以下表述哪些是錯誤的?)表現(xiàn)明顯低于肯定式的問題;而且,這一點(diǎn)在推理模型上尤為明顯。

圖片

上表展示的是不同上下文長度下的大語言模型準(zhǔn)確度(Acc.)和Bootstrap標(biāo)準(zhǔn)誤差(S.E.)百分比。

為了深入探討模型性能穩(wěn)定性,LEXam團(tuán)隊額外進(jìn)行了一系列多選題擾動測試,對模型的判斷選項數(shù)量進(jìn)行了擴(kuò)展(4、8、16、32個選項),以了解模型在更復(fù)雜多選情境下的性能變化,發(fā)現(xiàn):

  • 模型準(zhǔn)確度在選項數(shù)量增加時均明顯下降。例如,Gemini-2.5-Pro準(zhǔn)確率從4選項時的68.6%下降到了32選項時的35.6%。
  • 類似情況也出現(xiàn)在Claude、DeepSeek-R1與GPT等主流模型中。這表明模型表現(xiàn)有顯著的選項數(shù)量依賴性,擴(kuò)展選項明顯暴露了模型可能存在的猜測和依賴淺層特征的缺陷。
  • 此項測試說明在實(shí)踐中,標(biāo)準(zhǔn)多選題的測試可能會造成模型性能被高估,必須特別謹(jǐn)慎處理和解釋此類測試的結(jié)果。

項目主頁:https://lexam-benchmark.github.io/數(shù)據(jù):https://huggingface.co/datasets/LEXam-Benchmark/LEXam論文:https://arxiv.org/abs/2505.12864

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2023-03-20 15:54:36

2025-01-10 13:56:28

2011-08-03 09:40:29

云存儲存儲管理

2023-12-26 12:12:01

模型訓(xùn)練

2023-05-08 15:36:50

模型AI

2022-12-09 09:52:47

AI深度學(xué)習(xí)

2022-07-13 11:31:43

量子計算英偉達(dá)

2017-04-20 13:22:07

醫(yī)療AI助手虛擬護(hù)理

2024-07-17 09:47:18

2009-09-14 16:37:40

結(jié)構(gòu)化的數(shù)據(jù)

2018-04-03 14:00:03

結(jié)構(gòu)化數(shù)據(jù)非結(jié)構(gòu)化數(shù)據(jù)數(shù)據(jù)庫

2024-08-19 14:03:00

2023-12-01 08:43:31

2021-12-12 08:37:18

結(jié)構(gòu)化數(shù)據(jù)非結(jié)構(gòu)化數(shù)據(jù)數(shù)據(jù)

2010-01-13 13:20:08

VB.NET結(jié)構(gòu)化異常

2009-07-07 09:09:48

結(jié)構(gòu)化綜合布線光系統(tǒng)

2011-12-16 14:48:46

SaaS云計算

2024-06-19 11:45:34

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 一区二区三区欧美 | 日韩电影中文字幕 | xnxx 日本免费 | 久久久一区二区三区 | 婷婷丁香激情 | 亚洲一区精品视频 | 丝袜 亚洲 欧美 日韩 综合 | 91婷婷韩国欧美一区二区 | 久草在线在线精品观看 | 精品一区二区三区四区视频 | 久色激情 | 中文字幕在线观看第一页 | 国产久视频 | 亚洲欧美国产精品久久 | 一区二区成人 | 久久久久久一区 | 一区二区三区在线免费观看 | 中文字幕视频一区 | 日韩欧美一区二区三区在线播放 | 国产欧美日韩精品在线观看 | 天堂一区二区三区 | 亚洲国产一区二区三区在线观看 | 久草精品视频 | 日日综合 | 国产精品国产三级国产aⅴ原创 | 中文字幕视频三区 | 9久久精品 | 在线亚洲一区二区 | 国产精品久久久久久久久久久新郎 | 欧美日韩美女 | 国产一区二区三区四区五区加勒比 | 在线播放一区二区三区 | 亚洲成人毛片 | 欧美精品久久久 | 亚洲精品乱码久久久久久9色 | 欧美日韩综合一区 | 亚洲视频一区二区三区 | 亚洲国产精品久久久久秋霞不卡 | 国产精品久久久久久久久免费软件 | 欧美日韩视频 | 韩日免费视频 |