成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

Meta這篇語言互譯大模型研究,結果對比都是「套路」

人工智能 新聞
有人認為 Meta AI 在 NLLB 中提出的許多主張是沒有根據的,具有誤導性,并且評估結果有嚴重的缺陷。

今年 7 月初,Meta AI 發布了一個新的翻譯模型,名為 No Language Left behind (NLLB),我們可以將其直譯為「一個語言都不能少」。

顧名思義,NLLB 可以支持 200 + 語言之間任意互譯,Meta AI 還把它開源了。平時你都沒見到的語言如盧干達語、烏爾都語等它都能翻譯。

圖片

  • 論文地址:https://research.facebook.com/publications/no-language-left-behind/
  • 開源地址:https://github.com/facebookresearch/fairseq/tree/nllb

不過,近日這項研究遭到了質疑,有人認為 Meta AI 在 NLLB 中提出的許多主張是沒有根據的,具有誤導性,并且評估結果有嚴重的缺陷。此外,質疑者還表示根據 Meta AI 的評估方法,很容易獲得比他們報告更高的數字。

質疑者為自然語言處理研究科學家 Benjamin Marie,他精通翻譯技術。他質疑的內容可概括為 Meta AI 將 spBLEU 和 BLEU 放在一起進行比較。

圖片

對于這項質疑,有研究者表示:spBLEU 是一個合理的度量標準,前提是文本沒有空格(泰語等)。但是比較 spBLEU 和 BLEU 絕對是不正確的。

圖片

網友 Arle Lommel 在回復 Benjamin Marie 時表示:這是一個很棒的觀點。這也教會我,對于機器學習的研究,要非常謹慎地對待缺乏證實的研究。你在這里的發現確實表明,當人們只引用分數而不控制它們的產生方式時,問題會變得很復雜。

圖片

論文作者之一 Vedanuj Goswami 表示:「我們 100% 同意作者的觀點,即你不能將 BLEU 分數與不同的 tokenizer 比較。但作者的主要論點是,我們論文中的大多數結果是不可比較的是不成立的。

在我們的論文中,表 30 和表 31 使用相同的 tokenizer 進行 spBLEU 評估(FLORES-101 spm tokenizer),專門用于可比性。我們不使用 FLORES-200 spm tokenizer。我們在表 30 的標題和第 8.3.1 節中對此進行了詳細說明。同樣,表 35、36、37、38 都使用可比較的指標 / tokenizer 進行適當比較。我們對論文進行了更新

總的來說,目前的機器翻譯評價方法還不完善,不同的論文采用了不同的方法。」

圖片

下面我們介紹 Benjamin Marie 質疑的具體內容:?

評估方法有缺陷

首先讓我們做一個簡單的類比:

Paul 有 25 個香蕉,Bill 有 30 個西紅柿。你會說 Bill 比 Paul 多 5 個香蕉嗎?

BLEU 好比香蕉,spBLEU 好比西紅柿。將 Paul 替換為 Previous work,將 Bill 替換為 NLLB。我們現在可以寫下這樣的內容:

之前的工作在 25 BLEU 下執行,NLLB 在 30 spBLEU 下執行。你會說 NLLB 比以前的工作好 5 個 BLEU 點嗎?

圖片

有了上面的類比,下面介紹的內容可能就會更容易理解。

此前,Meta AI 發布了一篇論文,對 NLLB 進行了全面解釋和評估。在論文摘要中,他們聲稱模型相對于之前 SOTA 方法實現了 44% 的 BLEU 提升。換句話說,NLLB 會比以往研究結果更好。

關于 BLEU,在機器翻譯研究史上很少見到 BLEU 比以前的 SOTA 技術提高 44%。所以論文中這簡單的一句話,代表了科學進步。有些媒體直接報道了這一說法,并且沒有經過進一步的驗證,就將 Meta AI 定位在語言機器翻譯的最高點。?

如果 Meta AI 選擇發布如此大的技術研究,他們就應該提供非??煽康目茖W證據。否則,在沒有任何證據的情況下,Meta AI 聲稱自己做得比別人好,這只會破壞其他研究機構已經做過和正在做的非常艱苦的工作。

Marie 為了解釋 NLLB 的錯誤問題,他嘗試證明 Meta AI 是如何被它自己的結果誤導的。Marie 使用 NLLB 中的簡單示例和自己找到的類似示例,證明當使用 NLLB 有缺陷的評估方法時其實很容易超越 SOTA 的水平。最后,Marie 指出并具體解釋他們評估中的主要錯誤。?

Meta AI 將其模型和 20 多個以前的研究數據進行比較后得出結論,NLLB 明顯優于以前的研究。為了使如此多的比較具有可行性,他們依賴于機器翻譯評估的自動評估指標,這些指標主要是 BLEU 和 spBLEU。?

BLEU 在機器翻譯中極受歡迎,盡管其存在著缺陷。

例如,我們想用谷歌翻譯將以下來自 FLORES101 的數據集的法語文本翻譯成英語。如果你會說法語,你會注意到,這是一個質量很差的翻譯:語法錯誤、術語不一致、讀起來不自然。事實上,由于數據集是從英語創建的,因此 Meta AI 在翻譯成英語時只評估機器翻譯。

圖片

我們可以通過計算谷歌翻譯中有多少 token 也在這個參考翻譯中,將其與參考翻譯進行比較。在這里定義一個 token 是由一個空格分隔的字符序列。橘色突出顯示了上面谷歌翻譯中出現在下面參考翻譯中的所有 token 序列。

圖片

僅考慮到所有匹配的 token,可以計算出 BLEU 分數為 50.8 BLEU。僅僅這個分數是沒有任何意義,只有與另一個 BLEU 分數相比,它才有意義。

這里需要理解的關鍵點是,分數是基于 token 計算的,這在大多數機器翻譯研究中會被忽視。使用 SacreBLEU 計算 BLEU 分數,SacreBLEU 執行自己的內部 tokenization,基本上只在標點符號之前添加空格。這是計算 BLEU 分數最可靠和可重復的方法之一。而 Meta AI 使用的是 spBLEU。

那么 spBLEU 是什么?它是 BLEU,但使用了不同的 tokenization。它將谷歌翻譯和參考翻譯的 token 化如下。

圖片

與 spBLEU 相關的 token 通過將單詞分解成更小的片段來生成 token(附加到 token 的▁ 在這里并不重要,請嘗試忽略它)。使用 spBLEU token 化的直接后果是,我們最終得到的翻譯和參考都有更多的 token。由于有更多的 token,我們可以期望谷歌翻譯從參考中匹配更多的 token。然后分數會增長。事實上,這里的的 spBLEU 分數是 54.8。

我們不禁會問比上面使用 SacreBLEU 內部 tokenization 計算的 BLEU 分數高 4 分?那么翻譯是不是越來越好了?

顯然沒有,翻譯保持不變。比較 BLEU 和 spBLEU 根本沒有意義。BLEU 和 spBLEU 以不同的方式處理谷歌翻譯和參考翻譯,而且僅用于評估目的。它們實際上是不同的指標。如果它們是相同的指標,我們就不必對它們進行不同的命名。正如我們在機器翻譯研究社區經常讀到和聽到的那樣,使用不同甚至幾乎相似的 token 計算的 BLEU 分數來比較翻譯質量并不是公平的,甚至是不公平的。如果你希望你的研究具有科學可信度,你只需要使用完全相同的 tokenization 一致地計算你的 BLEU 分數。?

Meta AI 聲稱 NLLB 比之前的研究好得多,因為他們始終可以獲得比之前公布的 BLEU 分數更好的 spBLEU 分數,事實相反。因為對于給定的翻譯,讓 spBLEU 分數低于 BLEU 分數是一項極其困難的任務。更讓人無法理解的是,如果他們的目標是獲得最高分數,為什么不直接使用 chrBLEU 指標。

例如在谷歌翻譯和參考翻譯中,每個字符都會成為一個 token 換句話說,在字符之間添加了空格)。

然后我們計算 chrBLEU 值為 75.5,比 spBLEU 高 20.7 點。根據 NLLB 的評估,這將是一個重大的改進,這將是機器翻譯的新高點,而原來的谷歌翻譯保持不變。

圖片

論文中的錯誤示例?

現在,讓我們來看看 NLLB 評估的具體示例。

Meta AI 聲稱,通過將其數字與之前發布的數字進行比較,發現其表現優于之前的工作。在本文中,從表 30、31、32、35、36、37 和 38 中得出結論,這些結論與以前的工作進行了比較。

將從表 32 開始。這是最具說明性的例子之一,因為它存在著各種不同類型的錯誤。

圖片

從表中可得,除 NLLB-200 列外,所有數字均直接復制自之前發表的論文 IndicBART 和 IndicTrans。為了便于閱讀,Meta AI 用粗體標出了每種語言的最高分數,粗體列表示相應的系統是最好的。

表中為 spBLEU for all,這具有誤導性。實際上,all 的意思是只有 NLLB-200,因為 IndicBART 和 IndicTrans 使用的不是 spBLEU,而是 BLEU。然而比較后發現,NLLB 的 spBLEU 分數高于之前工作的 BLEU 分數。但這是否意味著 NLLB 更好?這就好比 30 個西紅柿比 25 個香蕉好嗎?

在解釋結果的文本中,我們可以看到:

圖片

例如(c)谷歌翻譯,(d)微軟翻譯。NLLB-200 在大多數方向上顯著優于所有模型。NLLB-200 的訓練數據集包括 25 種印度語言,幾乎是(a)和(b)所涵蓋語言的兩倍。性能的提高可以歸因于更多的多語言傳輸,以及印度語系挖掘和反譯數據質量的提高。

換句話說,NLLB 的番茄比之前的研究中的香蕉多。所以 NLLB 有更多的香蕉。

spBLEU 分數高于 BLEU 分數,因為它們是在更小的而且不同的 token 上計算的。然而,NLLB 的翻譯更好嗎?我們根本無法回答。更糟糕的是,IndicBART 和 IndicTrans 也不具有可比性,因為它們都使用了兩種不同的 token 方法。

上面列出的大多數表格都有類似的問題,或多或少都有錯誤。

如果你看一下 IndicBART 和 IndicTrans 發表的論文來檢查這些數字,你會發現還有其他問題。表 32 中的(a、b)列全部交換,IndicBART 數字是 indicatrans 中的數字,反之亦然。

如果你看表 30,問題就更大了。圖片不過表 30 在論文中更新了,Benjamin Marie 表示非常感謝 Vedanuj 更新了文章。表 30 確實提到了 tokenizer 是相同的。我承認我的錯誤。

圖片

如表 32 所示,Meta AI 聲稱 NLLB 優于以前的 DeltaLM 和 Deepnet,同時比較了使用不同計算方法得出的 BLEU 分數。這里的新內容是,他們還將 NLLB 與自己以前的研究 M2M-100 進行了比較,也使用 spBLEU 進行了評估。那么這個比較有意義嗎?沒有。即使他們都使用 spBLEU,但實際上他們使用了不同的 tokenizer,這使比較變得失去可能性。他們在腳注 28 中作出以下聲明:

圖片

「我們的分析表明,當在 FLORES-101 語言上進行測量時,FLORES-200 的 SPM-200 和 FLORES-101 的 SPM-100 模型之間存在微小差異。SPM-200 的主要優點是它涵蓋 200 多種語言。」

微小的差異也是差異。在這種情況下,這些差異很重要,因為我們在做科學研究。

與他們在 M2M-100 上的工作相比,NLLB 的一個進步是向模型和數據集添加了更多的語言。它包括 tokenization 模型。從技術上講,如果向這個 tokenizer 添加更多具有不同書寫系統的語言,同時保持詞匯表的大小不變,那么將機械地獲得具有較小 token 的詞匯表。正如在上面看到的,使用較小的 token 可能會獲得更好的分數。讓我們驗證一下。

如下圖所示:

圖片

此 tokenization 生成 95 個 token,而 NLLB 生成 97 個 token。這只是一個微妙的區別,如果使用 M2M-100 tokenization 計算 spBLEU,則得分為 53.8,比 NLLB tokenization 低 1 分。根據機器翻譯研究文獻,通常 1 分的差異足以聲稱系統明顯更好。正如預期的那樣,NLLB 將產生比 M2M-100 更高的分數。

下一張表是本文的最后一張表:表 31。

圖片

同樣,我們也有上文提到的相同的問題:

1. M2M-100 和 NLLB 使用兩種不同的 tokenization 進行評分,因此無法進行比較。2. MMTAfrica 似乎在他們的論文中使用了 M2M-100 tokenization。它可以與 M2M-100 相比,但不能與 NLLB 相比。

文中還有一些問題,在這就不一一介紹了。在 NLLB 中,Meta AI 所犯的主要錯誤是機器翻譯評估中的一個非常常見的錯誤,不過我們應該承認,這項工作確實令人驚嘆,而且可能為許多語言提供了更高的翻譯質量。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2023-08-23 11:15:20

2023-11-17 14:37:56

2025-07-04 08:53:00

大模型AI訓練

2023-03-06 09:44:06

模型開源

2023-10-19 08:30:56

模型搜索

2025-02-28 08:00:00

大語言模型DeepSeek機器學習

2023-02-06 14:37:44

LeCun模型

2024-03-26 06:40:06

大語言模型人工智能AI

2025-05-29 10:32:32

2025-07-01 07:24:56

2020-10-21 15:38:32

Facebook翻譯語言

2024-04-18 12:16:37

MetaAIOpenEQA

2023-02-25 16:14:36

AIMeta語言模型

2024-01-12 10:29:26

2023-10-16 12:43:00

模型評測

2023-02-28 14:57:02

MetaAI

2024-12-19 09:48:07

2025-04-22 08:08:37

2023-09-07 20:33:08

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 欧美激情亚洲激情 | 二区三区视频 | 九九精品在线 | 中文字幕成人在线 | 亚洲国产aⅴ成人精品无吗 欧美激情欧美激情在线五月 | 亚洲午夜在线 | 欧美日韩高清一区 | 91pron在线| 亚洲精品福利在线 | 91性高湖久久久久久久久_久久99 | 国产精品成人国产乱一区 | 日韩一区二区在线视频 | 国产精品99久久久久久动医院 | 久久精品性视频 | 国产精品1区2区3区 男女啪啪高潮无遮挡免费动态 | 成人aaa视频| 日韩精品亚洲专区在线观看 | 日韩在线观看网站 | 天天操天天摸天天爽 | 国产美女自拍视频 | 国产午夜精品一区二区三区四区 | 婷婷色国产偷v国产偷v小说 | 91视频一区二区 | 日韩中文欧美 | 欧美日本韩国一区二区 | 九久久| 国产精品日产欧美久久久久 | 4h影视 | 欧美亚洲视频在线观看 | 国产精品免费一区二区三区四区 | 亚洲交性 | 成人影音 | 在线综合视频 | 精品精品视频 | 精品国产一区二区三区久久久久久 | 在线观看日韩精品视频 | www成人免费 | 成人亚洲片 | 亚洲一区二区三区在线视频 | 亚洲综合婷婷 | 亚洲精品v|