成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

Meta AI 多語(yǔ)言閱讀理解數(shù)據(jù)集 Belebele,涵蓋 122 種語(yǔ)言變體

開(kāi)發(fā) 前端
研究人員利用這個(gè)數(shù)據(jù)集評(píng)估了多語(yǔ)言屏蔽語(yǔ)言模型(MLM)和大語(yǔ)言模型(LLM)的能力。結(jié)果表明,盡管以英語(yǔ)為中心的 LLM 有顯著的跨語(yǔ)言遷移能力,但在平衡的多語(yǔ)言數(shù)據(jù)上經(jīng)過(guò)預(yù)訓(xùn)練的更小的 MLM 仍然能理解更多的語(yǔ)言。

Meta AI 宣布推出一款涵蓋 122 種語(yǔ)言變體的多語(yǔ)言閱讀理解數(shù)據(jù)集,名為 Belebele。“我們希望這項(xiàng)工作能夠引發(fā)圍繞 LLM 多語(yǔ)言性的新討論”。

BELEBELE 是首個(gè)跨語(yǔ)言并行數(shù)據(jù)集,可以直接比較所有語(yǔ)言的模型性能。該數(shù)據(jù)集涵蓋了 29 種腳本和 27 個(gè)語(yǔ)系中不同類型的高、中、低資源語(yǔ)言。此外,還有 7 種語(yǔ)言包含在兩種不同的腳本中,從而為印地語(yǔ)、烏爾都語(yǔ)、孟加拉語(yǔ)、尼泊爾語(yǔ)和僧伽羅語(yǔ)的羅馬化變體制定了首個(gè) NLP 基準(zhǔn)。

該數(shù)據(jù)集可對(duì)單語(yǔ)和多語(yǔ)模型進(jìn)行評(píng)估,但其并行性也可在一些跨語(yǔ)言環(huán)境中對(duì)跨語(yǔ)言文本表征進(jìn)行評(píng)估。通過(guò)從相關(guān)質(zhì)量保證數(shù)據(jù)集中收集訓(xùn)練集,可以對(duì)任務(wù)進(jìn)行全面微調(diào)評(píng)估。每個(gè)問(wèn)題都基于 Flores-200 數(shù)據(jù)集中的一段短文,并有四個(gè)多項(xiàng)選擇答案。這些問(wèn)題經(jīng)過(guò)精心設(shè)計(jì),以區(qū)分具有不同一般語(yǔ)言理解水平的模型。

  • 每種語(yǔ)言有 900 道題
  • 488 個(gè)不同段落,每個(gè)段落有 1-2 道相關(guān)問(wèn)題。
  • 每道題有 4 個(gè)選擇答案,其中只有一個(gè)是正確的。
  • 122 種語(yǔ)言 / 語(yǔ)言變體(包括英語(yǔ))。
  • 900 x 122 = 109,800 個(gè)問(wèn)題。

研究人員利用這個(gè)數(shù)據(jù)集評(píng)估了多語(yǔ)言屏蔽語(yǔ)言模型(MLM)和大語(yǔ)言模型(LLM)的能力。結(jié)果表明,盡管以英語(yǔ)為中心的 LLM 有顯著的跨語(yǔ)言遷移能力,但在平衡的多語(yǔ)言數(shù)據(jù)上經(jīng)過(guò)預(yù)訓(xùn)練的更小的 MLM 仍然能理解更多的語(yǔ)言。且詞匯量越大、越有意識(shí)地構(gòu)建詞匯,在低資源語(yǔ)言上的表現(xiàn)就越好。

責(zé)任編輯:武曉燕 來(lái)源: OSCHINA
相關(guān)推薦

2023-05-23 14:14:14

技術(shù)模型

2022-08-09 07:22:15

語(yǔ)言數(shù)據(jù)庫(kù)程序

2014-04-16 14:50:20

Spark

2024-11-25 15:30:00

語(yǔ)言模型數(shù)據(jù)

2021-08-09 10:03:03

數(shù)據(jù)開(kāi)源語(yǔ)音

2011-08-05 17:54:33

Cocoa Touch 多語(yǔ)言

2012-04-19 11:40:21

Titanium

2014-07-09 09:20:06

WPFWPF應(yīng)用

2009-08-25 10:44:50

C#實(shí)現(xiàn)多語(yǔ)言

2023-08-04 10:18:15

2024-05-09 08:14:09

系統(tǒng)設(shè)計(jì)語(yǔ)言多語(yǔ)言

2019-10-10 09:00:00

谷歌數(shù)據(jù)技術(shù)

2021-09-07 10:17:35

iOS多語(yǔ)言適配設(shè)計(jì)

2021-06-29 21:48:32

開(kāi)源語(yǔ)言架構(gòu)

2009-08-03 17:33:01

ASP.NET多語(yǔ)言支

2009-07-17 10:02:29

WPF程序多語(yǔ)言支持

2021-07-24 11:41:42

前端開(kāi)發(fā)技術(shù)

2009-08-21 18:46:30

下載Server 20

2020-10-28 10:38:08

谷歌模型機(jī)器翻譯

2020-04-14 09:50:02

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 日韩精品视频在线免费观看 | 亚洲美女一区二区三区 | 在线观看第一页 | 九九九精品视频 | 日韩三区 | 精品欧美一区免费观看α√ | 国产综合精品一区二区三区 | 亚洲一区二区三区久久久 | 欧美在线视频网 | 久久久91精品国产一区二区精品 | 91欧美精品成人综合在线观看 | 久久久久国产 | 日本一区二区高清视频 | 一区二区在线观看免费视频 | 偷拍自拍网 | 欧美日韩一区二区三区不卡视频 | 午夜视频在线免费观看 | 国产丝袜一区二区三区免费视频 | 免费午夜电影 | 亚洲福利一区 | 成人免费视频网站在线看 | 福利视频三区 | 欧美日韩精品一区二区三区视频 | 亚洲国产精品99久久久久久久久 | 成人影院一区二区三区 | 男女羞羞的网站 | 手机在线不卡av | 天天操天天舔 | 一区二区三区不卡视频 | 人人操日日干 | 日韩欧美综合在线视频 | 欧美网站一区二区 | 欧美爱爱视频网站 | 国精产品一区二区三区 | 成人精品一区二区三区中文字幕 | 亚洲一二视频 | 色小姐综合网 | 一区二区视频在线 | 国产精品久久久久久一区二区三区 | 欧美午夜精品久久久久久浪潮 | 中文字幕亚洲区一区二 |