成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<ol id="wyseu"><dl id="wyseu"><sup id="wyseu"></sup></dl></ol>

<u id="wyseu"><form id="wyseu"></form></u>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

大模型結(jié)構(gòu)化推理優(yōu)勢難復(fù)制到垂直領(lǐng)域！最新法律AI評估標(biāo)準(zhǔn)來了，抱抱臉評測集趨勢第一

2025-06-06 09:00:00

人工智能新聞

來自蘇黎世聯(lián)邦理工學(xué)院、瑞士聯(lián)邦最高法院、馬克斯-普朗克研究所及蘇黎世大學(xué)等多個機(jī)構(gòu)的研究人員聯(lián)合發(fā)起并發(fā)布了一項全新的、多語言法律推理基準(zhǔn)數(shù)據(jù)集——LEXam。

大模型推理，無疑是當(dāng)下最受熱議的科技話題之一。

但在數(shù)學(xué)和物理等STEM之外，當(dāng)LLM落到更多實(shí)際應(yīng)用領(lǐng)域之中，大模型的推理能力又有多大的潛能和局限？

比如，如何評估大模型的推理能力在法律領(lǐng)域的應(yīng)用，就在當(dāng)前備受關(guān)注。

為此，來自蘇黎世聯(lián)邦理工學(xué)院、瑞士聯(lián)邦最高法院、馬克斯-普朗克研究所及蘇黎世大學(xué)等多個機(jī)構(gòu)的研究人員聯(lián)合發(fā)起并發(fā)布了一項全新的、多語言法律推理基準(zhǔn)數(shù)據(jù)集——LEXam。

LEXam法律推理基準(zhǔn)集發(fā)布一周以來下載量1.7k+，在Hugging Face Evaluation Datasets趨勢榜上排名第一。

法律推理基準(zhǔn)測試：更復(fù)雜、更精確

近年來，以ChatGPT、Claude等為代表的生成式大語言模型（LLM）迅猛發(fā)展，在多個領(lǐng)域內(nèi)取得了令人矚目的成果，甚至在數(shù)學(xué)和物理等STEM科目基準(zhǔn)測試中頻頻逼近或超過了人類表現(xiàn)。

然而，雖然LLM在推理類任務(wù)上進(jìn)展顯著，但在更為復(fù)雜與微妙的法律領(lǐng)域，這類模型的實(shí)際表現(xiàn)仍然存在很大的未知和諸多疑問。

這是因?yàn)榉赏评砗w了諸多現(xiàn)有機(jī)器學(xué)習(xí)優(yōu)化框架亟待解決的挑戰(zhàn)，包括但不限于：

基于事實(shí)與證據(jù)的推理（Fact/evidence-based reasoning）
高度依賴細(xì)致推導(dǎo)的證據(jù)檢索（Reasoning-dense retrieval）
主觀評價與客觀事實(shí)的平衡（Subjectivity vs. Objectivity）
以及全流程推理的準(zhǔn)確性（Process accuracy）

上述挑戰(zhàn)不僅存在于法律領(lǐng)域，在醫(yī)學(xué)診斷、社會科學(xué)研究決策、歷史文本分析等眾多非結(jié)構(gòu)化推理任務(wù)中同樣廣泛存在，值得更多通用機(jī)器學(xué)習(xí)領(lǐng)域研究者的關(guān)注與研究。

這些問題尚未在目前主流的推理框架，如RLHF/RLVR優(yōu)化路徑中得到充分體現(xiàn)與解決；而現(xiàn)有LLM優(yōu)化框架更多是集中在數(shù)學(xué)計算或程序代碼等結(jié)構(gòu)化推理任務(wù)對推導(dǎo)過程或答案進(jìn)行規(guī)范性調(diào)整與優(yōu)化。

可是不同于可以直接運(yùn)用公式或標(biāo)準(zhǔn)方法的數(shù)學(xué)、物理問題，現(xiàn)實(shí)法律推理中通常涉及復(fù)雜、多層次的分析，既需要精確的規(guī)則回憶（rule recall），也要求多層次的規(guī)則適用（rule application），還涉及對案件事實(shí)和證據(jù)進(jìn)行敏銳具體的識別（issue spotting）；甚至要基于先例法律條文進(jìn)行深層次的推理和論證。

這些特性使得大模型在法律推理領(lǐng)域可能面臨以往訓(xùn)練中所未曾遇到的考驗(yàn)：一旦LLM出現(xiàn)推理錯誤甚至“幻覺”，就可能導(dǎo)致嚴(yán)重的現(xiàn)實(shí)法律風(fēng)險，甚至影響公信力。

LEXam：一個專注法律推理的開創(chuàng)性多語言基準(zhǔn)數(shù)據(jù)集

LEXam專門設(shè)計了高質(zhì)量的數(shù)據(jù)集，包含來自瑞士蘇黎世大學(xué)法學(xué)院的340場不同課程、不同級別（本科與碩士）的真實(shí)法律考試，覆蓋瑞士、歐洲及國際法，以及法學(xué)理論和法律歷史領(lǐng)域。整個數(shù)據(jù)集共有4886道問題，其中包括：

2841道長篇問答題（long-form open-ended questions）
2045道多項選擇題（MCQ）

這些題目分別使用英語和德語撰寫，結(jié)合了大陸法（強(qiáng)調(diào)成文法和法典）及普通法系（強(qiáng)調(diào)判例）的多元法律文化背景。

上圖為展示的是開發(fā)和測試數(shù)據(jù)集中，按法律領(lǐng)域、語言和司法管轄區(qū)劃分的開放性問題和MCQ分布情況。

重要的是，每一道長篇題目不僅提供了標(biāo)準(zhǔn)答案（reference answers），還詳細(xì)說明了對應(yīng)的推理分析路徑：例如清晰地規(guī)定需要使用的問題識別方法（issue spotting）、法律規(guī)則回憶（rule recall）或特定規(guī)則下的事實(shí)適用（rule application）。

這種設(shè)計使得我們可以深入理解LLM在復(fù)雜法律推理中的能力缺陷，而非僅僅局限于評估最終的正確性。

LLM-as-a-Judge：構(gòu)建可靠且可擴(kuò)展的推理評估體系

LEXam團(tuán)隊最新的實(shí)證研究表明：

現(xiàn)有最先進(jìn)的大模型仍顯著難以應(yīng)對長篇的開放性法律問答題。特別是涉及多步分析、復(fù)雜規(guī)則應(yīng)用的情境下，LLM表現(xiàn)尤為困難。
即便是現(xiàn)有被公認(rèn)最先進(jìn)的LLM模型，難以有效且穩(wěn)定地完成嚴(yán)格的、結(jié)構(gòu)化的多步法律推理任務(wù)，這為后續(xù)模型研究與開發(fā)指明了重要方向。

與傳統(tǒng)僅關(guān)注最終答案正確與否的評估方式不同，LEXam的另一大重要創(chuàng)新在于引入了可信的“LLM-as-a-Judge”模式，即使用大模型本身來評估其他模型生成的法律推理步驟的質(zhì)量。

通過先讓模型生成中間法律推理步驟，再由其他模型以清晰的標(biāo)準(zhǔn)對這些推理步驟進(jìn)行評估和打分，并最終與專家工評估結(jié)果做嚴(yán)格比較驗(yàn)證。

驗(yàn)證結(jié)果發(fā)現(xiàn)，這一模型擔(dān)任法官的評估方法與人工專家的評分擁有高度一致性（高相關(guān)性），這種方法為法律推理的評估提供了高效的自動化支持，克服了以往基準(zhǔn)測試僅對最終正確答案做評估的局限。

這一方法提供了一種全新的自動化評估路徑，使得法律推理能力評估體系更加透明、可靠、可規(guī)模化，也為未來研究者們提供了可輕松復(fù)用的工具。

模型評測總體表現(xiàn)

LEXam團(tuán)隊針對不同類別的大語言模型進(jìn)行了測試。

包括“專精推理優(yōu)化”的模型（如Gemini-2.5-Pro、Claude-3.7-Sonnet、DeepSeek-R1、o3-mini和QwQ-32B）；

一些“旗艦級”的大型通用LLM（如GPT-4及其變種、DeepSeek-V3、Llama-4-Maverick）；

以及小尺寸模型（如Gemma、Phi-4、EuroLLM等）。

上表展示的是大語言模型在長式開放問題和MCQ上的表現(xiàn)及標(biāo)準(zhǔn)誤差（S.E.）。

開放題由GPT-4o判定，Temperature為0。Judge S.E.表示GPT-4o判定的3個樣本（1個樣本采用貪婪解碼，2個樣本采用temperature=0.5）的平均S.E.。結(jié)果按得分從高到低排序。

從評測結(jié)果看，專門的推理型模型展現(xiàn)出最高的性能。

其中Gemini-2.5-Pro達(dá)到最高平均分（82.2分），其次是Claude-3.7-Sonnet（77.6分）。

這證實(shí)了對推理任務(wù)做過明確優(yōu)化的模型比傳統(tǒng)大規(guī)模通用型LLM更適合復(fù)雜的法律推理任務(wù)。

在非專門設(shè)計推理的通用大型模型中，GPT-4.1（68.2分）和GPT-4o（66.2分）表現(xiàn)優(yōu)異，明顯領(lǐng)先于其他傳統(tǒng)模型（DeepSeek-V3、Llama-4-Maverick等），顯示出GPT系列對復(fù)雜指令遵循和一般常識理解的卓越能力。

同時，較小的LLMs和老一代模型的性能普遍偏低。

但值得注意的是，小型模型中的Gemma-3-12B-it表現(xiàn)優(yōu)于體積比它大33倍的Llama-3.1-405B-Instruct模型（Gemma-3-12B-it得分50.9，Llama-3.1-405B-Instruct為48.9），這可能得益于Gemma對多語言任務(wù)的特殊優(yōu)化設(shè)計。

LEXam團(tuán)隊檢查了大語言模型在不同語言、法律領(lǐng)域和司法管轄區(qū)分組的開放性問題的表現(xiàn)，可以看到：

專精推理優(yōu)化模型再次領(lǐng)先，尤其是Claude-3.7-Sonnet（準(zhǔn)確率57.2%）和Gemini-2.5-Pro（準(zhǔn)確率55.7%）。
大型通用LLM中，GPT-4.1表現(xiàn)突出，（54.4%），與推理特化模型相距不遠(yuǎn)。
小尺寸模型整體表現(xiàn)明顯不如其他類別，但GPT-4o-mini（41.0%）與Phi-4（40.7%）兩款小尺寸模型表現(xiàn)相對突出。

LEXam團(tuán)隊進(jìn)一步分析了模型在不同維度上的表現(xiàn)（包括語言、法律領(lǐng)域及司法轄區(qū)），發(fā)現(xiàn)：

整體而言，所有類型和尺寸的LLM在英文任務(wù)上的表現(xiàn)明顯優(yōu)于德語任務(wù)，這可能與模型訓(xùn)練語料庫的語言分布密切相關(guān)。
從法律領(lǐng)域角度看，跨學(xué)科和公法領(lǐng)域的表現(xiàn)普遍高于刑法和私法。這可能體現(xiàn)出刑法及私法涉及更細(xì)致的推理鏈條和更嚴(yán)格的邏輯確定性要求。
在司法轄區(qū)方面，國際法和通用法律題目的總體得分普遍高于地區(qū)（以瑞士法律為例）法律任務(wù)的得分，這顯示地區(qū)法律知識對模型的挑戰(zhàn)更大。
在選項的表述上，推理模型面對否定式的問題時（例如：以下表述哪些是錯誤的？）表現(xiàn)明顯低于肯定式的問題；而且，這一點(diǎn)在推理模型上尤為明顯。

上表展示的是不同上下文長度下的大語言模型準(zhǔn)確度（Acc.）和Bootstrap標(biāo)準(zhǔn)誤差（S.E.）百分比。

為了深入探討模型性能穩(wěn)定性，LEXam團(tuán)隊額外進(jìn)行了一系列多選題擾動測試，對模型的判斷選項數(shù)量進(jìn)行了擴(kuò)展（4、8、16、32個選項），以了解模型在更復(fù)雜多選情境下的性能變化，發(fā)現(xiàn)：

模型準(zhǔn)確度在選項數(shù)量增加時均明顯下降。例如，Gemini-2.5-Pro準(zhǔn)確率從4選項時的68.6%下降到了32選項時的35.6%。
類似情況也出現(xiàn)在Claude、DeepSeek-R1與GPT等主流模型中。這表明模型表現(xiàn)有顯著的選項數(shù)量依賴性，擴(kuò)展選項明顯暴露了模型可能存在的猜測和依賴淺層特征的缺陷。
此項測試說明在實(shí)踐中，標(biāo)準(zhǔn)多選題的測試可能會造成模型性能被高估，必須特別謹(jǐn)慎處理和解釋此類測試的結(jié)果。

項目主頁：https://lexam-benchmark.github.io/數(shù)據(jù)：https://huggingface.co/datasets/LEXam-Benchmark/LEXam論文：https://arxiv.org/abs/2505.12864

責(zé)任編輯：張燕妮來源：量子位

AI 推理模型

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

主站蜘蛛池模板：一区二区三区欧美 | 日韩电影中文字幕 | xnxx 日本免费 | 久久久一区二区三区 | 婷婷丁香激情 | 亚洲一区精品视频 | 丝袜亚洲欧美日韩综合 | 91婷婷韩国欧美一区二区 | 久草在线在线精品观看 | 精品一区二区三区四区视频 | 久色激情 | 中文字幕在线观看第一页 | 国产久视频 | 亚洲欧美国产精品久久 | 一区二区成人 | 久久久久久一区 | 一区二区三区在线免费观看 | 中文字幕视频一区 | 日韩欧美一区二区三区在线播放 | 国产欧美日韩精品在线观看 | 天堂一区二区三区 | 亚洲国产一区二区三区在线观看 | 久草精品视频 | 日日综合 | 国产精品国产三级国产aⅴ原创 | 中文字幕视频三区 | 9久久精品 | 在线亚洲一区二区 | 国产精品久久久久久久久久久新郎 | 欧美日韩美女 | 国产一区二区三区四区五区加勒比 | 在线播放一区二区三区 | 亚洲成人毛片 | 欧美精品久久久 | 亚洲精品乱码久久久久久9色 | 欧美日韩综合一区 | 亚洲视频一区二区三区 | 亚洲国产精品久久久久秋霞不卡 | 国产精品久久久久久久久免费软件 | 欧美日韩视频 | 韩日免费视频 |

<label id="eefzk"></label>

<button id="eefzk"></button>

<button id="eefzk"><form id="eefzk"></form></button>

<button id="eefzk"><form id="eefzk"><s id="eefzk"></s></form></button>