成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

開(kāi)源丨首個(gè)AI翻譯實(shí)戰(zhàn)榜單出爐!GPT-4o穩(wěn)坐天花板,文化方面Qwen系列一馬當(dāng)先

人工智能 新聞
它由阿里國(guó)際AI Business團(tuán)隊(duì)聯(lián)合上海人工智能實(shí)驗(yàn)室 、北京語(yǔ)言大學(xué)共同發(fā)布。

AI替咱打工搞翻譯,到底誰(shuí)家最好用?

終于,有人來(lái)統(tǒng)一翻譯江湖的標(biāo)準(zhǔn)了:首個(gè)應(yīng)用型AI翻譯測(cè)評(píng)榜單TransBench在OpenCompass上線(xiàn)

它由阿里國(guó)際AI Business團(tuán)隊(duì)聯(lián)合上海人工智能實(shí)驗(yàn)室、北京語(yǔ)言大學(xué)共同發(fā)布。

圖片

與傳統(tǒng)的翻譯測(cè)評(píng)體系相比,TransBench增加了幻覺(jué)率、文化禁忌詞、敬語(yǔ)規(guī)范等指標(biāo),專(zhuān)門(mén)針對(duì)大模型翻譯最容易出錯(cuò)的關(guān)鍵問(wèn)題進(jìn)行實(shí)戰(zhàn)考核。

比如:

  • 翻得挺溜但張口就編,這就得算“幻覺(jué)”;
  • 翻得準(zhǔn)確卻冒犯了當(dāng)?shù)匚幕且彩恰胺g事故”;
  • 甚至你在客服場(chǎng)景里少說(shuō)一句“please”,都可能讓用戶(hù)不爽。

這是首次針對(duì)行業(yè)的細(xì)分領(lǐng)域構(gòu)建評(píng)測(cè)數(shù)據(jù)和評(píng)測(cè)方法。這些指標(biāo)均來(lái)自真實(shí)場(chǎng)景的使用反饋,由此來(lái)測(cè)評(píng)大模型是否符合大規(guī)模應(yīng)用的標(biāo)準(zhǔn)。

目前,TransBench評(píng)測(cè)方法與數(shù)據(jù)集已全面開(kāi)源,也已發(fā)布了首期測(cè)評(píng)結(jié)果。

歡迎各個(gè)AI翻譯機(jī)構(gòu)去打榜,一較高下~

GPT-4o穩(wěn)坐“翻譯AI天花板”

官網(wǎng)表示,TransBench數(shù)據(jù)集中涵蓋中、英、法、日、韓、西班牙等多種語(yǔ)言。

此外,還在不斷持續(xù)更新海量小語(yǔ)種。

TransBench評(píng)測(cè)體系中的數(shù)據(jù)集,根據(jù)“通用標(biāo)準(zhǔn)”“電商文化”“文化特性”三個(gè)大類(lèi),整理了不同的數(shù)據(jù)集。

圖片

目前,TransBench多語(yǔ)言翻譯評(píng)測(cè)榜單首期已經(jīng)出爐。

評(píng)測(cè)榜單從“綜合得分”“通用標(biāo)準(zhǔn)”“電商文化”“文化特性”四個(gè)維度來(lái)給每個(gè)模型的翻譯能力打分。

其中,綜合得分是模型在評(píng)測(cè)數(shù)據(jù)集的三大維度的綜合平均得分。為了保證數(shù)值可被平均,榜單對(duì)不同得分進(jìn)行了數(shù)值縮放。

我們查看并整理了“英語(yǔ)翻譯為其它語(yǔ)言”和“中文翻譯為其它語(yǔ)言”兩個(gè)榜單的模型能力。

英語(yǔ)翻譯為其他語(yǔ)言

這個(gè)條件下,綜合得分通用標(biāo)準(zhǔn)的得分前三,都分別是:

  • 第一:GPT-4o
  • 第二:DeepL Translate
  • 第三:GPT-4-Turbo

其中比較特別的是DeepL Translate,上個(gè)月底剛剛發(fā)布。

和前三名的另外兩位不同,這是一個(gè)專(zhuān)門(mén)的機(jī)器翻譯(MT,Machine Translation)模型,而不是通用大語(yǔ)言模型。

圖片

電商行業(yè),DeepSeek-R1的翻譯能力殺入榜單前三:

圖片

而在文化特性方面,Qwen系列一馬當(dāng)先。

Qwen2.5-0.5B-Instruct和Qwen2.5-1.5B-Instruct分別位居第一第二,同時(shí)第三名花落EuroLLM-1.7B-Instruct。

大家可能對(duì)EuroLLM-1.7B-Instruct相對(duì)陌生,它是由多個(gè)歐洲研究機(jī)構(gòu)聯(lián)合開(kāi)發(fā)的開(kāi)源多語(yǔ)言大模型,涵蓋35種語(yǔ)言,旨在支持所有歐盟官方語(yǔ)言以及其他主要語(yǔ)言。

圖片

中文翻譯為其他語(yǔ)言

同樣,在中文翻譯為其他語(yǔ)言這條賽道上,綜合得分通用標(biāo)準(zhǔn)的排名相同:

  • 第一:GPT-4o
  • 第二:DeepSeek-V3
  • 第三:Claude-3.5-Sonnet

圖片

電商行業(yè),拿下第一的是均值得分4.420的DeepSeek-V3。

緊隨其后的才是Gemini-2.5-Pro和Claude-3.5-Sonnet。

圖片

最后一項(xiàng)文化特性,Qwen系列的表現(xiàn)同樣出色。

榜單前三分別是Qwen2.5-0.5B-Instruct、Llama-3.3-70B-Instruct、Qwen2.5-1.5B-Instruct。

圖片

三大維度打造翻譯大模型實(shí)戰(zhàn)考卷

隨著AI大模型加速落地,翻譯模型也進(jìn)入“比誰(shuí)更好用”的時(shí)代

相應(yīng)的,業(yè)內(nèi)也對(duì)大模型翻譯效果有了更高的要求,比如要符合不同地區(qū)的文化特性、能體現(xiàn)不同行業(yè)的語(yǔ)言特色等。

但問(wèn)題來(lái)了——怎么判斷一個(gè)AI翻譯模型到底好不好用?

傳統(tǒng)的翻譯測(cè)評(píng)維度,主要關(guān)注通用質(zhì)量(如BLEU、COMET),難以反映真實(shí)使用場(chǎng)景中對(duì)語(yǔ)義準(zhǔn)確性、文化合規(guī)性、用戶(hù)體驗(yàn)的高要求。

并且,大模型時(shí)代的AI翻譯往往面臨幻覺(jué)等更多問(wèn)題。

也就是說(shuō),傳統(tǒng)的翻譯測(cè)評(píng)維度在今天已經(jīng)不適用了

為此,阿里國(guó)際AI Business團(tuán)隊(duì)聯(lián)合上海人工智能實(shí)驗(yàn)室、北京語(yǔ)言大學(xué)一起,構(gòu)建了更全面、最新的評(píng)測(cè)標(biāo)準(zhǔn)和規(guī)范TransBench。

它從三大維度,重新定義翻譯測(cè)評(píng):

第一,全面的通用標(biāo)準(zhǔn)

不僅包括通用質(zhì)量,還新增幻覺(jué)率和魯棒性評(píng)測(cè)。

第二,行業(yè)垂直標(biāo)準(zhǔn)

這是首次針對(duì)行業(yè)的細(xì)分領(lǐng)域構(gòu)建評(píng)測(cè)數(shù)據(jù)和評(píng)測(cè)方法,數(shù)據(jù)均來(lái)自行業(yè)細(xì)分領(lǐng)域真實(shí)數(shù)據(jù),并利用語(yǔ)言專(zhuān)家在應(yīng)用中的標(biāo)注數(shù)據(jù)訓(xùn)練面向行業(yè)的打分模型。

第三,跨文化特性標(biāo)準(zhǔn)

首次提出文化禁忌和敬語(yǔ)規(guī)范的評(píng)測(cè)數(shù)據(jù)和評(píng)測(cè)方法。

舉個(gè)例子!

電商場(chǎng)景下的用戶(hù)投訴,通常與敬語(yǔ)、禁忌語(yǔ)等相關(guān)。

這些翻譯結(jié)果從字面意思看無(wú)誤,但會(huì)直接影響到對(duì)話(huà)人的體驗(yàn),應(yīng)該被納入到測(cè)評(píng)的范圍中。

從阿里國(guó)際自研翻譯大模型真實(shí)用戶(hù)反饋中總結(jié)提煉

其實(shí),早在去年10月,阿里國(guó)際的AI Business團(tuán)隊(duì)就發(fā)布了首個(gè)大規(guī)模商用的翻譯大模型Marco MT,其效果趕超Google、DeepL等頭部AI翻譯工具。

截至目前,Marco MT的日均調(diào)用量為6億次,是電商領(lǐng)域使用量最大的翻譯大模型。

TransBench的測(cè)評(píng)體系,正是基于Marco MT在全球真實(shí)用戶(hù)反饋中總結(jié)提煉而來(lái)

因此,構(gòu)建TransBench這件事中有阿里國(guó)際的身影就很好理解了。

當(dāng)然,除了有業(yè)界認(rèn)可的領(lǐng)先技術(shù)外,業(yè)務(wù)需求也是其中原因之一。

阿里國(guó)際旗下有Aliexpress、Lazada、Alibaba.com、Trendyol及Daraz等電商業(yè)務(wù),覆蓋全球200多個(gè)國(guó)家和地區(qū),多語(yǔ)言翻譯是助力業(yè)務(wù)發(fā)展的重要一環(huán)。

根據(jù)公開(kāi)信息,2023年3月,阿里國(guó)際成立了AI Business,基于全球化電商場(chǎng)景探索AI技術(shù)。

現(xiàn)在,阿里國(guó)際的所有電商平臺(tái)均已廣泛應(yīng)用AI能力,已服務(wù)了超50萬(wàn)賣(mài)家,形成了以服務(wù)中小企業(yè)出海為核心,覆蓋全球多元市場(chǎng)、多種電商模式的規(guī)模級(jí)AI應(yīng)用。

目前,TransBench的測(cè)評(píng)方法進(jìn)行了開(kāi)源,評(píng)測(cè)結(jié)果也將持續(xù)更新。

責(zé)任編輯:張燕妮 來(lái)源: 量子位
相關(guān)推薦

2013-08-20 11:19:54

閃存IBMFlashSystem

2015-05-18 18:17:50

2015-08-19 10:49:02

2015-05-25 14:45:20

未來(lái)網(wǎng)絡(luò)暨SDN技術(shù)大華三

2014-02-10 14:47:53

移動(dòng)設(shè)備

2025-04-07 02:33:00

GPT-4.5GPT-4oAI

2018-01-03 00:32:51

物聯(lián)網(wǎng)NB-IoT5G

2020-04-15 09:12:48

聯(lián)想智能云桌面

2024-12-26 07:10:00

2024-05-21 12:23:17

2024-11-28 15:51:19

GPT-4o微軟

2025-04-08 02:26:00

2025-05-26 09:05:00

2025-01-02 14:03:04

2024-08-14 14:30:00

AI訓(xùn)練

2021-12-20 07:03:54

秒殺系統(tǒng)擴(kuò)容

2014-04-16 14:00:23

IaaSAWS

2015-08-27 09:16:53

2025-05-22 13:42:28

大模型AIGPT-4o

2024-06-05 08:29:35

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 欧美激情精品久久久久 | 精品亚洲一区二区三区四区五区 | 亚洲va欧美va人人爽午夜 | 国产一区二区视频在线 | 久久tv在线观看 | 久久久久久久久久久久久9999 | 在线观看h视频 | 亚洲精品一区二区二区 | 亚洲国产精品精华素 | 亚洲综合伊人 | 伊人成人免费视频 | 欧美一区二区三区四区视频 | 日本在线黄色 | 成人精品久久 | 日韩一区精品 | 亚洲精品在线播放 | 日本三级电影免费 | 亚洲精品乱码久久久久久按摩观 | 欧美精品v国产精品v日韩精品 | 日韩高清国产一区在线 | av网站观看| 黄色片网站国产 | 嫩呦国产一区二区三区av | 久久99精品久久久久久 | 国产精品久久久久国产a级 欧美日韩国产免费 | 成人一区二区三区在线观看 | 国产精品电影在线观看 | 国产极品粉嫩美女呻吟在线看人 | 夜夜操av| 欧美福利专区 | 狠狠操狠狠操 | a级片在线 | 午夜电影福利 | 国产精品久久国产精品 | 国产在线中文字幕 | 国产色在线 | 成人在线视频网 | 亚洲福利一区 | 国产精品一区二区在线播放 | 国产精品免费一区二区 | 欧美电影免费网站 |