開(kāi)源丨首個(gè)AI翻譯實(shí)戰(zhàn)榜單出爐！GPT-4o穩(wěn)坐天花板，文化方面Qwen系列一馬當(dāng)先

2025-05-23 09:20:55

它由阿里國(guó)際AI Business團(tuán)隊(duì)聯(lián)合上海人工智能實(shí)驗(yàn)室、北京語(yǔ)言大學(xué)共同發(fā)布。

AI替咱打工搞翻譯，到底誰(shuí)家最好用？

終于，有人來(lái)統(tǒng)一翻譯江湖的標(biāo)準(zhǔn)了：首個(gè)應(yīng)用型AI翻譯測(cè)評(píng)榜單TransBench在OpenCompass上線(xiàn)。

它由阿里國(guó)際AI Business團(tuán)隊(duì)聯(lián)合上海人工智能實(shí)驗(yàn)室、北京語(yǔ)言大學(xué)共同發(fā)布。

與傳統(tǒng)的翻譯測(cè)評(píng)體系相比，TransBench增加了幻覺(jué)率、文化禁忌詞、敬語(yǔ)規(guī)范等指標(biāo)，專(zhuān)門(mén)針對(duì)大模型翻譯最容易出錯(cuò)的關(guān)鍵問(wèn)題進(jìn)行實(shí)戰(zhàn)考核。

比如：

翻得挺溜但張口就編，這就得算“幻覺(jué)”；
翻得準(zhǔn)確卻冒犯了當(dāng)?shù)匚幕且彩恰胺g事故”；
甚至你在客服場(chǎng)景里少說(shuō)一句“please”，都可能讓用戶(hù)不爽。

這是首次針對(duì)行業(yè)的細(xì)分領(lǐng)域構(gòu)建評(píng)測(cè)數(shù)據(jù)和評(píng)測(cè)方法。這些指標(biāo)均來(lái)自真實(shí)場(chǎng)景的使用反饋，由此來(lái)測(cè)評(píng)大模型是否符合大規(guī)模應(yīng)用的標(biāo)準(zhǔn)。

目前，TransBench評(píng)測(cè)方法與數(shù)據(jù)集已全面開(kāi)源，也已發(fā)布了首期測(cè)評(píng)結(jié)果。

歡迎各個(gè)AI翻譯機(jī)構(gòu)去打榜，一較高下～

GPT-4o穩(wěn)坐“翻譯AI天花板”

官網(wǎng)表示，TransBench數(shù)據(jù)集中涵蓋中、英、法、日、韓、西班牙等多種語(yǔ)言。

此外，還在不斷持續(xù)更新海量小語(yǔ)種。

TransBench評(píng)測(cè)體系中的數(shù)據(jù)集，根據(jù)“通用標(biāo)準(zhǔn)”“電商文化”“文化特性”三個(gè)大類(lèi)，整理了不同的數(shù)據(jù)集。

目前，TransBench多語(yǔ)言翻譯評(píng)測(cè)榜單首期已經(jīng)出爐。

評(píng)測(cè)榜單從“綜合得分”“通用標(biāo)準(zhǔn)”“電商文化”“文化特性”四個(gè)維度來(lái)給每個(gè)模型的翻譯能力打分。

其中，綜合得分是模型在評(píng)測(cè)數(shù)據(jù)集的三大維度的綜合平均得分。為了保證數(shù)值可被平均，榜單對(duì)不同得分進(jìn)行了數(shù)值縮放。

我們查看并整理了“英語(yǔ)翻譯為其它語(yǔ)言”和“中文翻譯為其它語(yǔ)言”兩個(gè)榜單的模型能力。

英語(yǔ)翻譯為其他語(yǔ)言

這個(gè)條件下，綜合得分和通用標(biāo)準(zhǔn)的得分前三，都分別是：

第一：GPT-4o
第二：DeepL Translate
第三：GPT-4-Turbo

其中比較特別的是DeepL Translate，上個(gè)月底剛剛發(fā)布。

和前三名的另外兩位不同，這是一個(gè)專(zhuān)門(mén)的機(jī)器翻譯（MT，Machine Translation）模型，而不是通用大語(yǔ)言模型。

在電商行業(yè)，DeepSeek-R1的翻譯能力殺入榜單前三：

而在文化特性方面，Qwen系列一馬當(dāng)先。

Qwen2.5-0.5B-Instruct和Qwen2.5-1.5B-Instruct分別位居第一第二，同時(shí)第三名花落EuroLLM-1.7B-Instruct。

大家可能對(duì)EuroLLM-1.7B-Instruct相對(duì)陌生，它是由多個(gè)歐洲研究機(jī)構(gòu)聯(lián)合開(kāi)發(fā)的開(kāi)源多語(yǔ)言大模型，涵蓋35種語(yǔ)言，旨在支持所有歐盟官方語(yǔ)言以及其他主要語(yǔ)言。

中文翻譯為其他語(yǔ)言

同樣，在中文翻譯為其他語(yǔ)言這條賽道上，綜合得分和通用標(biāo)準(zhǔn)的排名相同：

第一：GPT-4o
第二：DeepSeek-V3
第三：Claude-3.5-Sonnet

在電商行業(yè)，拿下第一的是均值得分4.420的DeepSeek-V3。

緊隨其后的才是Gemini-2.5-Pro和Claude-3.5-Sonnet。

最后一項(xiàng)文化特性，Qwen系列的表現(xiàn)同樣出色。

榜單前三分別是Qwen2.5-0.5B-Instruct、Llama-3.3-70B-Instruct、Qwen2.5-1.5B-Instruct。

三大維度打造翻譯大模型實(shí)戰(zhàn)考卷

隨著AI大模型加速落地，翻譯模型也進(jìn)入“比誰(shuí)更好用”的時(shí)代。

相應(yīng)的，業(yè)內(nèi)也對(duì)大模型翻譯效果有了更高的要求，比如要符合不同地區(qū)的文化特性、能體現(xiàn)不同行業(yè)的語(yǔ)言特色等。

但問(wèn)題來(lái)了——怎么判斷一個(gè)AI翻譯模型到底好不好用？

傳統(tǒng)的翻譯測(cè)評(píng)維度，主要關(guān)注通用質(zhì)量（如BLEU、COMET），難以反映真實(shí)使用場(chǎng)景中對(duì)語(yǔ)義準(zhǔn)確性、文化合規(guī)性、用戶(hù)體驗(yàn)的高要求。

并且，大模型時(shí)代的AI翻譯往往面臨幻覺(jué)等更多問(wèn)題。

也就是說(shuō)，傳統(tǒng)的翻譯測(cè)評(píng)維度在今天已經(jīng)不適用了。

為此，阿里國(guó)際AI Business團(tuán)隊(duì)聯(lián)合上海人工智能實(shí)驗(yàn)室、北京語(yǔ)言大學(xué)一起，構(gòu)建了更全面、最新的評(píng)測(cè)標(biāo)準(zhǔn)和規(guī)范TransBench。

它從三大維度，重新定義翻譯測(cè)評(píng)：

第一，全面的通用標(biāo)準(zhǔn)。

不僅包括通用質(zhì)量，還新增幻覺(jué)率和魯棒性評(píng)測(cè)。

第二，行業(yè)垂直標(biāo)準(zhǔn)。

這是首次針對(duì)行業(yè)的細(xì)分領(lǐng)域構(gòu)建評(píng)測(cè)數(shù)據(jù)和評(píng)測(cè)方法，數(shù)據(jù)均來(lái)自行業(yè)細(xì)分領(lǐng)域真實(shí)數(shù)據(jù)，并利用語(yǔ)言專(zhuān)家在應(yīng)用中的標(biāo)注數(shù)據(jù)訓(xùn)練面向行業(yè)的打分模型。

第三，跨文化特性標(biāo)準(zhǔn)。

首次提出文化禁忌和敬語(yǔ)規(guī)范的評(píng)測(cè)數(shù)據(jù)和評(píng)測(cè)方法。

舉個(gè)例子！

電商場(chǎng)景下的用戶(hù)投訴，通常與敬語(yǔ)、禁忌語(yǔ)等相關(guān)。

這些翻譯結(jié)果從字面意思看無(wú)誤，但會(huì)直接影響到對(duì)話(huà)人的體驗(yàn)，應(yīng)該被納入到測(cè)評(píng)的范圍中。