0語(yǔ)料下,如何通過(guò)「貼標(biāo)簽」獲得更好的多語(yǔ)言翻譯效果
現(xiàn)今的多語(yǔ)言翻譯模型,大多是在一個(gè)以英語(yǔ)為中心的數(shù)據(jù)集上訓(xùn)練一個(gè)統(tǒng)一的模型,并通過(guò)添加語(yǔ)言標(biāo)簽的方式來(lái)告訴模型應(yīng)該翻譯到哪一種語(yǔ)言。這種模型在預(yù)測(cè)的時(shí)候能夠直接在一個(gè)非英語(yǔ)的句子上添加另一個(gè)非英語(yǔ)的語(yǔ)言標(biāo)簽來(lái)直接翻譯,從而達(dá)到即使在訓(xùn)練時(shí)沒(méi)有見(jiàn)過(guò)源語(yǔ)言和目標(biāo)語(yǔ)言的情況下,也能實(shí)現(xiàn)模型翻譯,這就是所謂的 zero-shot 多語(yǔ)言翻譯。
添加語(yǔ)言標(biāo)簽的方式有很多種,來(lái)自火山翻譯團(tuán)隊(duì)的研究者通過(guò)實(shí)驗(yàn)研究發(fā)現(xiàn),雖然不同的語(yǔ)言標(biāo)簽對(duì)監(jiān)督方向的效果幾乎沒(méi)有影響,但是對(duì) zero-shot 的效果卻有著非常大的影響。這個(gè)現(xiàn)象在多個(gè)數(shù)據(jù)集上得到了驗(yàn)證,其中 IWSLT17 上相差 14.02 個(gè) BLEU,Euporal 上相差 24.24 個(gè) BLEU,TED talks 上相差 8.78 個(gè) BLEU。目前該研究已被 the findings of ACL 2021 接收。

論文地址:https://arxiv.org/abs/2106.07930
研究背景和動(dòng)機(jī)
在多語(yǔ)言翻譯中,有許多添加語(yǔ)言標(biāo)簽的方法,并且一般都認(rèn)為不同的語(yǔ)言標(biāo)簽的添加方法對(duì)模型的性能沒(méi)有影響,然而之前沒(méi)有研究者系統(tǒng)性地研究語(yǔ)言標(biāo)簽對(duì)翻譯模型是否有影響。這篇文章比較了四種常見(jiàn)的語(yǔ)言標(biāo)簽的添加方法。
表 1 四種不同的的語(yǔ)言標(biāo)簽
如表 1 所示,這四種方法會(huì)將源語(yǔ)言標(biāo)簽和目標(biāo)語(yǔ)言標(biāo)簽按照不同的方法加到源句首或者目標(biāo)句首。
表 2 數(shù)據(jù)集詳情
如表 2 所示,這篇文章選擇了 IWSLT17,Euporal 和 TED talks 三個(gè)數(shù)據(jù)集,這三個(gè)數(shù)據(jù)集在語(yǔ)言數(shù)量和數(shù)據(jù)集大小上都有比較大的差異。這篇文章在這三個(gè)數(shù)據(jù)集上基于上述四種不同的語(yǔ)言標(biāo)簽訓(xùn)練了配置完全一樣的多語(yǔ)言翻譯模型。
實(shí)驗(yàn)結(jié)果
表 3 實(shí)驗(yàn)結(jié)果
如表 3 所示,可以看到:
1. 對(duì)于不同的語(yǔ)言標(biāo)簽,不同的數(shù)據(jù)集,在有監(jiān)督的方向上,模型的表現(xiàn)基本一致。
2. 在 Zero-shot 方向上:
a. 不同的語(yǔ)言標(biāo)簽對(duì)模型的性能有著很大的影響,并且,T-ENC 的表現(xiàn)在三種數(shù)據(jù)集上一致地超過(guò)了其他三種標(biāo)簽:在 IWSLT17 上超過(guò)了 14.02 個(gè) BLEU,在 Euporal 上超過(guò)了 24.24 個(gè) BLEU,在 TED talks 上超過(guò)了 8.78 個(gè) BLEU。
b. 不同語(yǔ)言標(biāo)簽導(dǎo)致的 off-target 的比例也不相同(off-target 是指翻譯到語(yǔ)言 X 時(shí),卻翻譯成另一個(gè)語(yǔ)言的情況),基本上 T-ENC 的 off-target 的比例都要比別的小,這一點(diǎn)和模型在 zero-shot 上的性能基本一致。
分析
那么是什么原因?qū)е铝诉@種現(xiàn)象?這篇文章試圖從三個(gè)方面解釋這個(gè)現(xiàn)象并在 TED 數(shù)據(jù)集上做了實(shí)驗(yàn):
1. 在目標(biāo)語(yǔ)言相同的情況下,語(yǔ)言標(biāo)簽的添加方式是否影響了不同語(yǔ)言的句子經(jīng)過(guò) Encoder 之后的表示的一致性?
2. T-ENC 可以獲得相對(duì)于其他方法更小的 off-target 比例,是不是由于在預(yù)測(cè)的時(shí)候,它的 attention 注意力機(jī)制能夠更好地注意到語(yǔ)言標(biāo)簽?
3. 意思相同的不同語(yǔ)言的句子,在翻譯模型的每一層的相似性如何?
Encoder 的表示的一致性

上圖是通過(guò)對(duì) Encoder 的輸出使用 t-SNE 降維,之后使用 kde 畫(huà)出來(lái)的分布圖,展示了不同語(yǔ)言的句子在目標(biāo)語(yǔ)言相同的情況下的分布,可以發(fā)現(xiàn) T-ENC 不同語(yǔ)言之間的 Encoder 表示分布更加一致。這表明,T-ENC 能夠幫助模型學(xué)習(xí)到語(yǔ)言無(wú)關(guān)的 Encoder 表示。
緩解 off-target 的問(wèn)題

上圖通過(guò)一個(gè) case study 展示了從一個(gè)俄語(yǔ)句子翻譯到意大利語(yǔ)句子時(shí),不同的語(yǔ)言標(biāo)簽下,模型的 attention 對(duì)意大利語(yǔ)標(biāo)簽的 “關(guān)注” 程度,顯然使用 T-ENC 時(shí),模型對(duì)意大利語(yǔ)標(biāo)簽的關(guān)注程度最高,這可以一定程度上解釋為什么 T-ENC 擁有最小的 off-target 比例。
不同層的相似性

上圖的子圖 a 展示了,從除了英語(yǔ)和俄語(yǔ)外的 18 個(gè)語(yǔ)言翻譯到俄語(yǔ)的時(shí)候,意思相同的句子在不同語(yǔ)言之間的表示的相似性,可以看到 T-ENC 的相似性曲線一直在其他的語(yǔ)言標(biāo)簽之上,這表明在目標(biāo)語(yǔ)言相同的時(shí)候,T-ENC 各層的表示相比于其他的方法都有更好的一致性。
上圖的子圖 b 展示了,從俄語(yǔ)翻譯到除了英語(yǔ)和俄語(yǔ)外的 18 個(gè)語(yǔ)言翻譯的時(shí)候,同一個(gè)俄語(yǔ)句子在不同目標(biāo)語(yǔ)言下的相似性,可以看到 T-ENC 的相似性曲線幾乎一直在其他的語(yǔ)言標(biāo)簽下方,這表明,當(dāng)目標(biāo)語(yǔ)言不同的時(shí)候,T-ENC 能夠更好的生成目標(biāo)語(yǔ)言相關(guān)的表示。
總結(jié)
該研究發(fā)現(xiàn)了不同語(yǔ)言標(biāo)簽對(duì)多語(yǔ)言 Zero-shot 翻譯的巨大影響,并在數(shù)據(jù)相差很大的三個(gè)不同的數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),驗(yàn)證了不同語(yǔ)言標(biāo)簽對(duì)多語(yǔ)言 Zero-shot 翻譯確實(shí)存在巨大影響,并且表明 T-ENC 在 Zero-shot 上優(yōu)于其他語(yǔ)言標(biāo)簽。同時(shí)該研究還分析了不同語(yǔ)言標(biāo)簽對(duì)模型在預(yù)測(cè)時(shí)表示的影響,發(fā)現(xiàn) T-ENC 能夠更好地得到與目標(biāo)語(yǔ)言相關(guān)而與源語(yǔ)言無(wú)關(guān)的表示:
1. T-ENC 能使不同源語(yǔ)言句子經(jīng)過(guò) Encoder 的表示更一致。
2. T-ENC 的注意力機(jī)制能夠更好的注意到目標(biāo)語(yǔ)言的語(yǔ)言標(biāo)簽。
3. T-ENC 在不同層的表示相對(duì)于其他方法與目標(biāo)語(yǔ)言的相關(guān)性更強(qiáng)。