成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

谷歌開源首個(gè)「方言」數(shù)據(jù)集:讓機(jī)器翻譯更地道

人工智能
研究人員根據(jù)博客和教育網(wǎng)站手動(dòng)收集了20-30個(gè)具有地區(qū)特色的翻譯術(shù)語,并根據(jù)來自每個(gè)地區(qū)的母語志愿者的反饋對(duì)翻譯進(jìn)行過濾和審核。

雖然全中國的人都在說漢語,但具體到各地的方言卻略有不同,比如同樣是小巷的意思,「胡同」一開口就知道是老北京了,而到了南方則叫「弄」。

這種細(xì)微的地域性差異反應(yīng)在「機(jī)器翻譯」任務(wù)上,就會(huì)顯得翻譯結(jié)果不夠「地道」,而目前幾乎所有的機(jī)器翻譯系統(tǒng)都沒有考慮地區(qū)性語言(即方言)的影響。

而在世界范圍內(nèi)也存在這種現(xiàn)象,比如巴西的官方語言是葡萄牙語,跟歐洲的葡萄牙語之間也有一些地域性差異。

最近谷歌發(fā)布了一個(gè)全新的,可用于Few-shot Region-aware機(jī)器翻譯的數(shù)據(jù)集和評(píng)估基準(zhǔn)FRMT,主要解決方言翻譯問題,論文發(fā)表在TACL(Transactions of the Association for Computational Linguistics)上。

圖片

論文鏈接:https://arxiv.org/pdf/2210.00193.pdf

開源鏈接:https://github.com/google-research/google-research/tree/master/frmt

該數(shù)據(jù)集包括從英語到葡萄牙語和中文普通話的兩個(gè)地區(qū)變體的專業(yè)翻譯,源文檔是為了能夠詳細(xì)分析感興趣的現(xiàn)象,包括詞匯上不同的術(shù)語和干擾術(shù)語。

研究人員探索了 FRMT 的自動(dòng)評(píng)估指標(biāo),并在區(qū)域匹配和不匹配評(píng)分情景下驗(yàn)證了其與專家人工評(píng)估的相關(guān)性。

最后,為這項(xiàng)任務(wù)提出了一些基線模型,并為研究人員如何訓(xùn)練、評(píng)估和比較自己的模型提供指導(dǎo)建議,數(shù)據(jù)集和評(píng)估代碼已開源。

Few-Shot泛化

大多數(shù)現(xiàn)代機(jī)器翻譯系統(tǒng)都經(jīng)過數(shù)百萬或數(shù)十億翻譯樣本的訓(xùn)練,輸入數(shù)據(jù)包括英語輸入句及其相應(yīng)的葡萄牙語翻譯。

然而,絕大多數(shù)可用的訓(xùn)練數(shù)據(jù)并沒有說明翻譯的地區(qū)差異。

鑒于這種數(shù)據(jù)稀缺性,研究人員將 FRMT 定位為few-shot翻譯的基準(zhǔn),當(dāng)給定每種語言不超過100個(gè)帶標(biāo)簽的例子時(shí),測(cè)量機(jī)器翻譯模型識(shí)別出指定區(qū)域語言變體的能力。

機(jī)器翻譯模型需要根據(jù)少量標(biāo)記過的樣本(即范例)中顯示的語言模式,來識(shí)別出其他未標(biāo)記訓(xùn)練樣本中的相似模式。模型需要通過這種方式進(jìn)行泛化,從而生成模型中沒有明確指定區(qū)域的「地道」翻譯結(jié)果。

圖片

比如輸入句子:The bus arrived,再給定幾個(gè)巴西葡萄牙語的例子,模型應(yīng)該能翻譯出「O ?nibus chegou」;如果給的樣例是歐洲葡萄牙語,模型的翻譯結(jié)果應(yīng)該變?yōu)椤窸 autocarro chegou」。

機(jī)器翻譯的few-shot方法是很有研究?jī)r(jià)值的,能夠以一種非常簡(jiǎn)單的方式來對(duì)現(xiàn)有系統(tǒng)中增加對(duì)額外區(qū)域語言的支持能力。

雖然谷歌目前發(fā)表的工作是針對(duì)兩種語言的區(qū)域變體,但研究人員預(yù)測(cè),一個(gè)好的方法將很容易適用于其他語言和區(qū)域的變體。

從原理上來說,這些方法也適用于其他語言差異現(xiàn)象,例如禮節(jié)和風(fēng)格等。

數(shù)據(jù)收集

FRMT 數(shù)據(jù)集包括部分英文維基百科文章,來源于 Wiki40b 數(shù)據(jù)集,這些文章已經(jīng)由付費(fèi)的專業(yè)翻譯人員翻譯成不同的地區(qū)性的葡萄牙語和漢語。

圖片

為了突出關(guān)鍵區(qū)域感知的翻譯難題,研究人員使用了三個(gè)內(nèi)容桶(content buckets)來設(shè)計(jì)數(shù)據(jù)集:

1. 詞匯 Lixical

詞匯桶主要關(guān)注不同地區(qū)在詞匯選擇上的差異,例如當(dāng)把一個(gè)帶有單詞「bus」的句子分別翻譯成巴西語和歐洲葡萄牙語時(shí),模型需要能夠識(shí)別出「?nibus」與「autocarro」的區(qū)別。

研究人員根據(jù)博客和教育網(wǎng)站手動(dòng)收集了20-30個(gè)具有地區(qū)特色的翻譯術(shù)語,并根據(jù)來自每個(gè)地區(qū)的母語志愿者的反饋對(duì)翻譯進(jìn)行過濾和審核。

根據(jù)得到的英語術(shù)語列表,從相關(guān)的英語維基百科文章(例如,bus)中提取出100個(gè)句子。再對(duì)普通話,重復(fù)上述相同的的收集過程。

圖片

2. 實(shí)體 Entity

實(shí)體桶以類似的方式填充,涉及的人、位置或其他實(shí)體與某一特定語言所涉兩個(gè)區(qū)域之一有著密切聯(lián)系。

比如給定一個(gè)說明性的句子,如「In Lisbon, I often took the bus.」(在里斯本,我經(jīng)常坐公共汽車。),為了正確地將其翻譯成巴西葡萄牙語,模式必須能夠識(shí)別出兩個(gè)潛在的陷阱:

1)里斯本和葡萄牙之間更密切的地理關(guān)聯(lián)可能會(huì)影響模型翻譯的選擇,從而幫助模型判斷出應(yīng)該翻譯成歐洲葡萄牙語而非巴西葡萄牙語,即選擇「autocarro」而不是「?nibus」。

2)用「巴西利亞」代替「里斯本」可能是一個(gè)比較簡(jiǎn)單的方式,對(duì)于同一個(gè)模式,對(duì)巴西葡萄牙語本地化其輸出,即便翻譯結(jié)果仍然很流暢,但也可能會(huì)導(dǎo)致不準(zhǔn)確的語義。

3. 隨機(jī) Random

隨機(jī)桶用于檢查一個(gè)模型是否正確處理了其他不同的現(xiàn)象,包含從維基百科的featured和good)集合中隨機(jī)抽取的100篇文章。

圖片

系統(tǒng)性能

為了驗(yàn)證為 FRMT 數(shù)據(jù)集收集的翻譯能夠捕獲特定區(qū)域的現(xiàn)象,研究人員對(duì)數(shù)據(jù)質(zhì)量進(jìn)行了人工評(píng)估。

來自每個(gè)相應(yīng)區(qū)域的專家標(biāo)注員使用多維質(zhì)量度量(MQM)框架來識(shí)別和分類翻譯中的錯(cuò)誤:該框架包括一個(gè)分類加權(quán)方案,將識(shí)別出的錯(cuò)誤轉(zhuǎn)換成一個(gè)單一的分?jǐn)?shù),粗略地表示每句話的主要錯(cuò)誤數(shù)量,即數(shù)值越小表示翻譯越好。

對(duì)于每個(gè)地區(qū),研究人員要求 MQM 評(píng)分者對(duì)來自他們所在地區(qū)的翻譯和來自他們語言的其他地區(qū)的翻譯進(jìn)行評(píng)分。

例如,巴西的葡萄牙語評(píng)分員同時(shí)對(duì)巴西和歐洲的葡萄牙語譯本都進(jìn)行了評(píng)分,兩個(gè)分?jǐn)?shù)之間的差異表明語言現(xiàn)象的普遍性,即該語言變體是否可接受,而并非是另一種語言。

實(shí)驗(yàn)結(jié)果發(fā)現(xiàn),在葡萄牙語和漢語中,評(píng)分者平均比匹配的譯文中每個(gè)句子多發(fā)現(xiàn)大約兩個(gè)主要錯(cuò)誤,表明FRMT數(shù)據(jù)集確實(shí)能夠捕獲特定區(qū)域的語言現(xiàn)象。

雖然人工評(píng)估是確保模型質(zhì)量的最佳方法,但其往往是緩慢且昂貴的。

因此,研究人員希望找到一個(gè)現(xiàn)成的自動(dòng)度量指標(biāo),可以用來評(píng)估模型在基準(zhǔn)中的性能,研究人員考慮選擇使用 chrF,BLEU 和 BLEURT.

圖片

根據(jù) MQM 評(píng)估者對(duì)幾個(gè)基線模型翻譯結(jié)果的評(píng)分,可以發(fā)現(xiàn) BLEURT 與人類判斷具有最好的相關(guān)性,并且該相關(guān)性的強(qiáng)度(0.65 Pearson 相關(guān)系數(shù),ρ)與標(biāo)注者間一致性(0.70組內(nèi)相關(guān)性)相當(dāng)。

系統(tǒng)性能

文中評(píng)估了一些最近發(fā)布的、具有few-shot控制能力的模型。

基于 MQM 的人類評(píng)估,基線方法都表現(xiàn)出一定的localize葡萄牙語輸出的能力,但是對(duì)于中文普通話,大多沒有利用目標(biāo)地區(qū)的知識(shí)來生成優(yōu)秀的當(dāng)?shù)胤g結(jié)果。

在評(píng)估的基準(zhǔn)中,谷歌的語言模型 PaLM 模型的性能最佳,為了使用 PaLM 生成針對(duì)區(qū)域的翻譯,首先將一個(gè)有指導(dǎo)意義的提示輸入模型,然后從中生成文本以填充空白。

圖片

PaLM 僅通過一個(gè)例子就獲得了很好的結(jié)果,在葡萄牙語方面,當(dāng)增加到10個(gè)例子時(shí),質(zhì)量略有提高,考慮到 PaLM 是在無監(jiān)督的情況下進(jìn)行訓(xùn)練的,這種表現(xiàn)已經(jīng)非常好了。

研究結(jié)果還表明,像 PaLM 這樣的語言模型可能特別擅長(zhǎng)記憶流暢翻譯所需的特定區(qū)域的詞匯選擇。

圖片

然而,在 PaLM 和人類之間仍然存在顯著的性能差距。

參考資料:

https://ai.googleblog.com/2023/02/frmt-benchmark-for-few-shot-region.html

責(zé)任編輯:武曉燕 來源: 新智元
相關(guān)推薦

2020-10-11 22:05:22

機(jī)器翻譯谷歌AI

2020-04-02 15:51:40

翻譯神經(jīng)網(wǎng)絡(luò)人工智能

2017-09-05 14:23:22

人工智能機(jī)器翻譯神經(jīng)網(wǎng)絡(luò)

2022-05-24 09:57:32

微軟開源AI 驅(qū)動(dòng)

2022-05-26 15:00:36

翻譯模型谷歌

2017-04-06 10:40:49

機(jī)器學(xué)習(xí)開源Python庫

2017-03-22 12:39:33

人工智能機(jī)器翻譯

2017-08-21 16:00:14

機(jī)器學(xué)習(xí)機(jī)器翻譯

2020-05-07 17:03:49

Python編碼開發(fā)

2024-06-13 09:05:36

2021-10-13 18:57:59

AI

2021-10-13 18:59:42

AI

2023-10-12 18:39:57

火山引擎

2015-02-27 09:20:17

Android黑莓谷歌

2015-02-27 09:29:50

Android

2021-10-28 17:52:51

機(jī)器翻譯人工智能AI

2018-08-22 11:42:36

搜狗

2019-10-25 16:18:34

機(jī)器學(xué)習(xí)人工智能計(jì)算機(jī)

2012-02-09 09:49:48

2018-07-10 15:46:57

機(jī)器翻譯語言翻譯
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 国产午夜精品久久久久免费视高清 | 亚洲一区| 黄视频网站免费观看 | 国家一级黄色片 | 一区二区三区四区不卡视频 | 欧美日韩视频网站 | 国产91亚洲精品一区二区三区 | 国产精品国产三级国产播12软件 | 亚洲视频免费在线播放 | 成人免费观看视频 | 久久综合色综合 | 日韩精品不卡 | 欧美www在线| 日韩精品视频在线 | 羞羞视频网站免费观看 | 亚洲视频免费一区 | 国产乱码精品1区2区3区 | 在线91| 欧美综合国产精品久久丁香 | 黄色免费网站在线看 | 亚洲视频免费在线观看 | 国产欧美在线视频 | 精品粉嫩超白一线天av | 亚洲色图在线观看 | 久久精品国产久精国产 | 精品国产欧美一区二区三区成人 | 亚洲综合在线一区 | 日韩蜜桃视频 | www.日韩高清 | 一区二区免费高清视频 | 日本免费网 | 三级在线视频 | 亚洲色图50p | 草草视频在线免费观看 | 综合五月婷| 国产激情片在线观看 | 人人澡视频 | 波多野结衣中文视频 | 成人在线中文 | 可以在线观看av的网站 | 欧美一级做a爰片免费视频 国产美女特级嫩嫩嫩bbb片 |