成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

多個中國團隊斬獲EMNLP'24最佳論文!UCLA華人學(xué)者中三篇杰出論文,明年頂會落戶蘇州

人工智能 新聞
5篇中榜論文中,華人學(xué)者參與三篇,分別來自CMU、上海交通大學(xué)、中國科學(xué)院大學(xué)等機構(gòu)。

剛剛,EMNLP 2024最佳論文獎新鮮出爐!

5篇中榜論文中,華人學(xué)者參與三篇,分別來自CMU、上海交通大學(xué)、中國科學(xué)院大學(xué)等機構(gòu)。

圖片

其中,Pretraining Data Detection for Large Language Models: A Divergence-based Calibration Method主要由中科院網(wǎng)絡(luò)數(shù)據(jù)科學(xué)與技術(shù)重點實驗、中國科學(xué)院大學(xué)的學(xué)者完成。

論文一作Weichao Zhang;通訊作者郭嘉豐,現(xiàn)任中科院網(wǎng)絡(luò)數(shù)據(jù)科學(xué)與技術(shù)重點實驗室常務(wù)副主任。

這項研究提出了一個新的數(shù)據(jù)集和方法,用于檢測給定文本是否為LLM預(yù)訓(xùn)練數(shù)據(jù)的一部分,有助于提高LLM訓(xùn)練數(shù)據(jù)透明度。

圖片

EMNLP’24今年收錄論文總共2978篇,比去年增長5%,其中2455篇主會議論文,523篇workshop論文。

圖片

除最佳論文外,杰出論文也揭曉了,超半數(shù)華人學(xué)者參與。

圖片

順便提一嘴,EMNLP 2025將于明年11月5-9日,在中國蘇州舉辦!

國內(nèi)學(xué)者們可以搓搓手準(zhǔn)備起來了~


接下來,具體康康獲獎?wù)撐挠心男?/p>

上交大CMU等團隊獲最佳論文

此次共有5項研究成果獲得EMNLP’24最佳論文獎。

1、An image speaks a thousand words, but can everyone listen? On image transcreation for cultural relevance
(圖像能表達千言萬語,但每個人都能傾聽嗎?關(guān)于圖像再創(chuàng)造的文化相關(guān)性)

圖片

這篇來自CMU的論文研究了圖像跨文化再創(chuàng)作任務(wù)。鑒于多媒體內(nèi)容興起,翻譯需涵蓋圖像等模態(tài),傳統(tǒng)翻譯局限于處理語音和文本中的語言,跨文化再創(chuàng)作應(yīng)運而生。

作者構(gòu)建了三個包含SOTA生成模型的管道:e2e-instruct 直接編輯圖像,cap-edit 通過字幕和 LLM 編輯后處理圖像,cap-retrieve 利用編輯后的字幕檢索圖像,還創(chuàng)建了概念和應(yīng)用兩部分評估數(shù)據(jù)集。

結(jié)果發(fā)現(xiàn),當(dāng)前圖像編輯模型均未能完成這項任務(wù),但可以通過在循環(huán)中利用 LLM 和檢索器來改進。

2、Towards Robust Speech Representation Learning for Thousands of Languages
(為數(shù)千種語言實現(xiàn)穩(wěn)健的語音表征學(xué)習(xí))

圖片

這篇來自CMU、上海交大、豐田工業(yè)大學(xué)芝加哥分校的論文,介紹了一種名為XEUS的跨語言通用語音編碼器,旨在處理多種語言和聲學(xué)環(huán)境下的語音。

研究通過整合現(xiàn)有數(shù)據(jù)集和新收集的數(shù)據(jù),構(gòu)建了包含 4057 種語言、超 100 萬小時數(shù)據(jù)的預(yù)訓(xùn)練語料庫,并提出新的自監(jiān)督任務(wù)(聲學(xué)去混響)增強模型魯棒性。研究結(jié)果顯示,XEUS 在多個下游任務(wù)中表現(xiàn)優(yōu)異,在 ML-SUPERB 基準(zhǔn)測試中超越了其他模型,如在多語言自動語音識別任務(wù)中實現(xiàn)SOTA,且在語音翻譯、語音合成等任務(wù)中也表現(xiàn)出色。

該團隊超半數(shù)都是華人,其中一作William Chen目前是CMU語言技術(shù)研究所的碩士生,此前獲得佛羅里達大學(xué)計算機科學(xué)和歷史學(xué)學(xué)士學(xué)位。

圖片

3、Backward Lens: Projecting Language Model Gradients into the Vocabulary Space
(逆向透鏡:將語言模型梯度投射到詞匯空間)

圖片

了解基于Transformer的語言模型如何學(xué)習(xí)和調(diào)用信息成為行業(yè)一個關(guān)鍵目標(biāo)。最近的可解釋性方法將前向傳遞獲得的權(quán)重和隱藏狀態(tài)投射到模型的詞匯表中,有助于揭示信息如何在語言模型中流動。

來自以色列理工學(xué)院、特拉維夫大學(xué)的研究人員將這一方法擴展到語言模型的后向傳遞和梯度。

首先證明,梯度矩陣可以被視為前向傳遞和后向傳遞輸入的低秩線性組合。然后,開發(fā)了將這些梯度投射到詞匯項目中的方法,并探索了新信息如何存儲在語言模型神經(jīng)元中的機制。

4、Pretraining Data Detection for Large Language Models: A Divergence-based Calibration Method
(大語言模型的預(yù)訓(xùn)練數(shù)據(jù)檢測:基于散度的校準(zhǔn)方法)

圖片

這篇論文作者來自中科院網(wǎng)絡(luò)數(shù)據(jù)科學(xué)與技術(shù)重點實驗、中國科學(xué)院大學(xué)、中關(guān)村實驗室、阿姆斯特丹大學(xué)。

通訊作者郭嘉豐,現(xiàn)為中國科學(xué)院計算技術(shù)研究所研究員、中國科學(xué)院大學(xué)教授、北京人工智能研究院研究員,中科院網(wǎng)絡(luò)數(shù)據(jù)科學(xué)與技術(shù)重點實驗室主任。目前研究方向是信息檢索 (Neural IR) 和自然語言理解的神經(jīng)模型。

圖片

他們的研究旨在解決大語言模型預(yù)訓(xùn)練數(shù)據(jù)檢測問題,因模型開發(fā)者不愿透露訓(xùn)練數(shù)據(jù)細節(jié),現(xiàn)有方法在判斷文本是否為訓(xùn)練數(shù)據(jù)時存在局限。

基于這樣的原因,他們提出 DC-PDD 方法,通過計算文本的詞元概率分布與詞元頻率分布的交叉熵(即散度)來校準(zhǔn)詞元概率,從而判斷文本是否在模型預(yù)訓(xùn)練數(shù)據(jù)中。實驗在 WikiMIA、BookMIA 和新構(gòu)建的中文基準(zhǔn) PatentMIA 上進行,結(jié)果顯示 DC-PDD 在多數(shù)情況下優(yōu)于基線方法,在不同模型和數(shù)據(jù)上表現(xiàn)更穩(wěn)定。

5、CoGen: Learning from Feedback with Coupled Comprehension and Generation
(CoGen,結(jié)合理解和生成,從反饋中學(xué)習(xí))

圖片

來自康奈爾大學(xué)的研究團隊研究了語言理解和生成能力的耦合,提出在與用戶交互中結(jié)合兩者以提升性能的方法。

具體通過參考游戲場景,部署模型與人類交互,收集反饋信號用于訓(xùn)練。采用聯(lián)合推理和數(shù)據(jù)共享策略,如將理解數(shù)據(jù)點轉(zhuǎn)換為生成數(shù)據(jù)點。

實驗結(jié)果顯示,耦合方法使模型性能大幅提升,理解準(zhǔn)確率提高 19.48%,生成準(zhǔn)確率提高 26.07%,且數(shù)據(jù)效率更高。在語言方面,耦合系統(tǒng)的有效詞匯增加,與人類語言更相似,詞匯漂移減少。

杰出論文

再來看看杰出論文的獲獎情況,此次共有20篇論文上榜。

GoldCoin: Grounding Large Language Models in Privacy Laws via Contextual Integrity Theory,香港科技大學(xué)研究團隊完成,論文共同一作Wei Fan、Haoran Li。

團隊提出了一個新框架,基于情境完整性理論來調(diào)整大語言模型使其符合隱私法律,提高其在不同情境下檢測隱私風(fēng)險的能力。

圖片

Formality is Favored: Unraveling the Learning Preferences of Large Language Models on Data with Conflicting Knowledge,南京大學(xué)團隊完成,論文共同一作Jiahuan Li、Yiqing Cao。

論文研究了大語言模型在訓(xùn)練數(shù)據(jù)中存在沖突信息時的學(xué)習(xí)傾向。

圖片

科技巨頭獲獎團隊有微軟,Learning to Retrieve Iteratively for In-Context Learning提出了一種創(chuàng)造性的方法,模擬上下文學(xué)習(xí)示例的選擇作為馬爾可夫決策過程。

圖片

Towards Cross-Cultural Machine Translation with Retrieval-Augmented Generation from Multilingual Knowledge Graphs,由Adobe、蘋果與羅馬大學(xué)研究人員聯(lián)合完成。

論文探討并挑戰(zhàn)了在跨文化機器翻譯中翻譯文化相關(guān)命名實體的傳統(tǒng)方法。

圖片

此外值得一提的是,華人學(xué)者、加州大學(xué)洛杉磯分校計算機科學(xué)系副教授Nanyun Peng團隊這次贏麻了,她參與/指導(dǎo)的三篇論文都獲獎了。

圖片

三項工作都是關(guān)于評估LLM在創(chuàng)意敘事生成方面的能力,分別為:

  • Measuring Psychological Depth in Language Models(測量語言模型中的心理深度)
  • Do LLMs Plan Like Human Writers? Comparing Journalist Coverage of Press Releases with LLMs(大語言模型能像人類作家一樣規(guī)劃嗎?通過與記者對新聞稿的報道比較來評估)
  • Are Large Language Models Capable of Generating Human-Level Narratives?(大語言模型能生成人類水平的敘述嗎?)

以下是完整獲獎名單:

圖片
圖片
圖片圖片

最佳論文鏈接:
[1]https://arxiv.org/abs/2404.01247

[2]https://arxiv.org/abs/2407.00837
[3]https://arxiv.org/abs/2402.12865
[4]https://arxiv.org/abs/2409.14781
[5]https://www.arxiv.org/abs/2408.15992

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2023-11-10 12:53:35

論文AI

2022-12-13 15:14:45

論文

2024-11-08 11:06:07

2021-10-28 09:23:17

論文學(xué)術(shù)數(shù)據(jù)

2023-07-26 14:35:12

論文方法

2021-07-19 15:02:48

機器人人工智能算法

2023-06-21 10:33:13

SIGMOD阿里云數(shù)據(jù)庫

2025-03-04 09:10:44

2024-06-20 10:39:49

2025-02-24 12:33:28

2023-12-11 13:41:23

2017-10-31 10:17:06

阿里

2024-06-19 11:47:10

2024-05-17 10:54:51

2021-07-20 17:52:21

谷歌Android開發(fā)者

2024-05-08 09:37:36

AI論文

2021-10-13 17:53:14

AI 數(shù)據(jù)人工智能
點贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 免费久| 欧美精品一区在线观看 | 国产丝袜一区二区三区免费视频 | 国产人久久人人人人爽 | 亚洲精品天堂 | 国产成人网 | 毛片99 | 欧美一级片 | 久久精品16 | 中文字幕免费视频 | 亚洲黄色一级 | 国产日韩一区二区三区 | 国产精品成人久久久久a级 久久蜜桃av一区二区天堂 | 欧美激情五月 | 艹逼网| 国产视频精品区 | 国产一级成人 | 亚洲一区 | 精品久久久久久亚洲精品 | 久久久国产一区 | 黄色毛片在线看 | 九九免费在线视频 | 欧美国产视频 | 中文一级片 | 国产精品久久久久久中文字 | 国产一区不卡 | 国产激情视频在线 | avhd101在线成人播放 | www.天堂av.com | av在线黄 | 日本成人片在线观看 | 久久精品亚洲精品国产欧美 | 激情毛片 | 欧美一区二区在线 | 国产农村妇女精品一区 | 中文字幕亚洲无线 | 日韩av成人在线 | 日本视频中文字幕 | 成人性视频免费网站 | 国产第1页| 久久久久国产精品午夜一区 |