成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

AI自動評審論文,CMU這個工具可行嗎?我們用它評審了下論文

新聞 前端
最近,CMU 研究者對此展開了探索,創(chuàng)建了一個自動論文評審系統(tǒng),上傳 PDF 論文即可自動生成評審結(jié)果,這或許會為論文評審帶來一些改變。

  近年來,各大學(xué)術(shù)頂會的論文投稿量暴增,這使得論文評審的工作量大大增加。那么,有沒有可能自動生成論文的評審結(jié)果呢?最近,CMU 研究者對此展開了探索,創(chuàng)建了一個自動論文評審系統(tǒng),上傳 PDF 論文即可自動生成評審結(jié)果,這或許會為論文評審帶來一些改變。

科學(xué)技術(shù)的快速發(fā)展伴隨著同行評審科學(xué)出版物的指數(shù)級增長。與此同時,論文的評審是一個耗時耗力的過程,必須由相應(yīng)領(lǐng)域的專家來完成。這樣一來,為不斷增長的論文提供高質(zhì)量的評審成為一大挑戰(zhàn)。那么,有沒有可能自動生成論文評審呢?

在近日發(fā)表的一篇論文中,來自 CMU 的研究者創(chuàng)建了一個自動生成論文評審結(jié)果的 Demo 網(wǎng)站 ReviewAdvisor ,只需要上傳 PDF 論文,即可自動生成評審結(jié)果。

論文鏈接:https://arxiv.org/pdf/2102.00176.pdf

在論文中,研究者探討了使用 SOTA 自然語言處理(NLP)模型生成學(xué)術(shù)論文同行評審結(jié)果的可能性。其中,最困難的部分首先是如何定義「好的」評審結(jié)果,因此該研究先討論了評審結(jié)果的度量指標(biāo)。然后,就是數(shù)據(jù)問題。研究者收集了機器學(xué)習(xí)領(lǐng)域的論文集合,使用每個評審涵蓋的不同方面(aspect)內(nèi)容對論文進(jìn)行注釋,并訓(xùn)練目標(biāo)摘要模型,以生成評審結(jié)果。

實驗結(jié)果表明,與人類專家給出的評審結(jié)果相比,系統(tǒng)生成的評審?fù)婕暗秸撐牡母喾矫?。但是,生成的評審文本除了對論文核心理念的解釋之外,其他方面的解讀邏輯性都不強,而關(guān)于核心理念的評審則大多是正確的。最后,研究者總結(jié)了構(gòu)建表現(xiàn)良好的論文評審生成系統(tǒng)面臨的八個挑戰(zhàn)以及可能的解決方案。

不過,研究者發(fā)現(xiàn),人類專家評審和系統(tǒng)自動評審都表現(xiàn)出了不同程度的偏見,并且與人類專家評審相比,系統(tǒng)生成的評審結(jié)果具有更強的偏見性。

上面這段話來自該論文的第一部分「TL;QR」,有趣的是,這部分內(nèi)容正是由其開發(fā)的系統(tǒng)生成的。

AI自動評審論文,CMU這個工具可行嗎?我們用它評審了下論文

ReviewAdvisor 系統(tǒng)試用

試用該系統(tǒng)時,用戶需要在瀏覽器中允許所有 Cookie,否則系統(tǒng)無法正常工作。研究者使用 sciparser 工具從 PDF 論文中提取信息,所以如果上傳的論文采用的是不熟悉的模板,則系統(tǒng)也可能不工作。目前 ReviewAdvisor 支持 ICML、Neurips、ICLR、ACL、EMNLP、AAAI 等計算機科學(xué)頂會或期刊的論文。

AI自動評審論文,CMU這個工具可行嗎?我們用它評審了下論文

這個自動論文評審系統(tǒng)效果究竟如何呢?機器之心嘗試上傳了該研究所用的示例論文《Attention Is All You Need》。

AI自動評審論文,CMU這個工具可行嗎?我們用它評審了下論文

Abstract+CE (with aspect) 又可細(xì)分為摘要、清晰度、原創(chuàng)性、可靠性、Substance 和對比 6 個方面。

下圖展示了對示例論文《Attention is All You Need》原創(chuàng)性與魯棒性的評審意見,其中關(guān)于原創(chuàng)性的評審意見為「使用自注意力的 idea 非常有趣且新穎」(下圖左黃色部分),關(guān)于可靠性的評審意見則是「該論文未解釋清楚 transformer 模型為什么優(yōu)于其他基準(zhǔn)模型」(下圖右綠色部分)。

AI自動評審論文,CMU這個工具可行嗎?我們用它評審了下論文

看起來,效果還不錯。但是,機器之心在上傳其他論文時,系統(tǒng)并未及時生成評審,或者上傳多次后才生成評審結(jié)果。研究者表示,由于系統(tǒng)采用的計算機服務(wù)器是二作 Pengfei Liu 自己建立的,所以會出現(xiàn)內(nèi)存不足的情況。這可能是無法及時生成論文評審結(jié)果的原因之一。

此外,研究者強調(diào),ReviewAdvisor 系統(tǒng)可能會生成不正確、不完整或者帶有偏見的評審結(jié)果,這些評審結(jié)果不能代替人類專家的評審結(jié)果。

優(yōu)秀同行評審有哪些標(biāo)準(zhǔn)?

該研究首先總結(jié)了評估同行評審結(jié)果的常用標(biāo)準(zhǔn):

  • 決斷性(Decisiveness):好的同行評審應(yīng)該立場明確,對是否接收論文提出明確建議;
  • 全面性(Comprehensiveness):好的同行評審應(yīng)該有條理,首先簡要總結(jié)論文貢獻(xiàn),然后從不同方面評估論文質(zhì)量;
  • 正當(dāng)性(Justification):好的同行評審應(yīng)該有理有據(jù),尤其是在指出論文缺點時要明確理由;
  • 準(zhǔn)確性(Accuracy):好的同行評審應(yīng)該確保事實正確;
  • 友好(Kindness):好的同行評審應(yīng)該措辭禮貌善意。

數(shù)據(jù)集

該研究介紹了如何構(gòu)建具有更細(xì)粒度的元數(shù)據(jù)的評審數(shù)據(jù)集,該數(shù)據(jù)集 Aspect-enhanced Peer Review (ASAP-Review) 可用于系統(tǒng)訓(xùn)練和多角度的評審評估。

數(shù)據(jù)收集

研究者通過 OpenReview 爬取了 2017-2020 年間的 ICLR 論文,通過 NeurIPS 論文集爬取了 2016-2019 年間的 NeurIPS 論文。對于每篇論文,研究者都保留了盡可能多的元數(shù)據(jù)信息,包括如下:

  • 參考評審,由委員會成員撰寫;
  • 元評審,通常由領(lǐng)域主席(高級委員會成員)撰寫;
  • 論文接收結(jié)果,即論文最終被「接收」還是「拒稿」;
  • 其他信息,包括 url、標(biāo)題、作者等。

該研究使用 Allenai Science-parse 解析每篇論文的 pdf,并保留結(jié)構(gòu)化的文本信息(例如標(biāo)題、作者、章節(jié)內(nèi)容和參考文獻(xiàn))。下表 2 顯示了 ASAP-Review 數(shù)據(jù)集的基本統(tǒng)計信息:

AI自動評審論文,CMU這個工具可行嗎?我們用它評審了下論文

Aspect-enhanced Review 數(shù)據(jù)集

盡管評審呈現(xiàn)出下圖 3 所示的內(nèi)部結(jié)構(gòu):評審?fù)ǔR哉_始,然后分方面列出不同觀點,并給出證據(jù)。實際上,這種有用的結(jié)構(gòu)化信息并不能直接獲取。考慮到評審中各方面的細(xì)粒度信息在評估中起著至關(guān)重要的作用,該研究對評審進(jìn)行了方面注釋(aspect annotation)。為此,該研究首先介紹方面類型(aspect typology),然后進(jìn)行人工注釋。

AI自動評審論文,CMU這個工具可行嗎?我們用它評審了下論文

該研究定義的類型包含以下 8 個方面,遵循 ACL 審核指南,并做了一些小改動:

  • 摘要 (SUM)
  • 動機 / 影響(MOT)
  • 原創(chuàng)性(ORI)
  • 可靠性 / 正確性(SOU)
  • Substance(SUB)
  • 可復(fù)現(xiàn)性(REP)
  • 有意義的對比(CMP)
  • 清晰度(CLA)

總體而言,數(shù)據(jù)注釋涉及 4 個步驟,如下圖 1 所示:

AI自動評審論文,CMU這個工具可行嗎?我們用它評審了下論文

ReviewAdvisor 如何生成科學(xué)評審結(jié)果?

首先我們來看什么是「科學(xué)評審生成」任務(wù)。該任務(wù)可以被概念化地理解為基于 aspect 的科學(xué)論文摘要任務(wù),但存在一些重要的區(qū)別。例如,大部分當(dāng)前的工作要么從「作者視角」總結(jié)論文(即僅使用作者所寫的內(nèi)容構(gòu)建摘要),要么從「讀者視角」進(jìn)行總結(jié),即認(rèn)為論文摘要應(yīng)考慮研究社區(qū)成員的視角。

而 CMU 研究者在這項工作中將科學(xué)論文摘要的視角從「作者」或「讀者」擴展到了「評審」,并認(rèn)為好的科學(xué)論文摘要不僅應(yīng)反映論文的核心 idea,還要包含領(lǐng)域?qū)<覐牟煌矫孀龀龅闹匾u價,而這需要源論文以外的知識。

這一想法的好處在于:1)幫助作者發(fā)現(xiàn)論文中的缺陷,使之更強;2)幫助評審者緩解一部分評審負(fù)擔(dān);3)幫助讀者快速掌握論文主要思想,并了解「領(lǐng)域?qū)<摇梗丛撗芯縿?chuàng)建的系統(tǒng))對論文的評價。如下圖 3 所示:

AI自動評審論文,CMU這個工具可行嗎?我們用它評審了下論文

系統(tǒng)設(shè)計

該研究創(chuàng)建的評審數(shù)據(jù)集包含的訓(xùn)練樣本少于其他基準(zhǔn)摘要數(shù)據(jù)集,不過近期語境化預(yù)訓(xùn)練模型的少樣本(few-shot)學(xué)習(xí)能力使得基于該數(shù)據(jù)集訓(xùn)練評審生成系統(tǒng)成為可能。該研究使用 BART 作為預(yù)訓(xùn)練模型,該模型在多個生成任務(wù)上展現(xiàn)出卓越的性能。

然而,即使有了 BART 的加持,如何使用它處理長文本仍是一大挑戰(zhàn)。經(jīng)過多次試驗后,研究者選擇了一種兩階段方法。

利用兩階段系統(tǒng)處理長文本

該研究利用「提取 - 生成」(extract-then-generate)機制,將文本生成分解為兩步。具體而言,首先進(jìn)行內(nèi)容選擇,即從源論文中提取顯著文本片段,然后基于這些文本生成摘要。

aspect 感知的摘要(aspect-aware Summarization)

通常在 extract-then-generate 機制中,可以直接使用提取內(nèi)容,并構(gòu)建用于生成文本的序列到序列模型。為了生成具備更多樣化方面的評審結(jié)果,以及透過其內(nèi)部結(jié)構(gòu)解釋評審結(jié)果,該研究更進(jìn)一步提出了 extract-then-generate-and-predict 生成框架。

具體而言,研究者使用其標(biāo)注 aspect 作為額外信息,設(shè)計了一個預(yù)測生成文本(評審)aspect 的輔助任務(wù),參見下圖 5:

AI自動評審論文,CMU這個工具可行嗎?我們用它評審了下論文

實驗

研究者通過以下兩個問題,來評估該系統(tǒng)的效果。

該系統(tǒng)擅長什么?不擅長什么?

基于該研究定義的評估度量指標(biāo),研究者對參考評審和生成評審進(jìn)行了自動評估和人工評估,來分析自動評審生成系統(tǒng)在哪些子任務(wù)上發(fā)揮良好,又在哪些子任務(wù)上失敗。下表 5 展示了評估結(jié)果:

AI自動評審論文,CMU這個工具可行嗎?我們用它評審了下論文

實驗發(fā)現(xiàn),該評審生成系統(tǒng)存在一些缺陷,主要表現(xiàn)在以下幾個方面:

缺乏對論文的高級理解:系統(tǒng)無法準(zhǔn)確分辨高質(zhì)量論文和低質(zhì)量論文,大多數(shù)時候負(fù)面 aspect 的證據(jù)并不可靠;

模仿源數(shù)據(jù)的風(fēng)格:在不同生成評審結(jié)果中常出現(xiàn)某些特定句子,這表明生成評審的風(fēng)格易受訓(xùn)練樣本中高頻句子模式的影響;

缺乏問題:生成評審很少對論文內(nèi)容提出問題,而這是同行評審的重要組成部分。

當(dāng)然,該系統(tǒng)也有一些優(yōu)勢。它通常能夠準(zhǔn)確總結(jié)輸入論文的核心思想,生成評審覆蓋的論文質(zhì)量 aspect 也多于人類評審人員。

案例研究

研究者還進(jìn)行了案例研究,下表 6 展示了示例評審結(jié)果。從中可以看出,該模型不僅能生成流暢的文本,還能意識到生成文本是關(guān)于哪個方面及其正確的極性。例如紫色部分是「摘要」,黃色部分是「清晰度」,+ 表示評論較為正面。

雖然生成的方面通常是小型文本片段,還存在一些微小的對齊問題,但該模型仍然能清晰地感知到不同方面。

AI自動評審論文,CMU這個工具可行嗎?我們用它評審了下論文

系統(tǒng)生成的評審帶有偏見嗎?

文本中的偏見普遍存在,但檢測難度高。該研究除了設(shè)計生成評審的模型外,還提出了一種偏見分析方法,以便更細(xì)粒度地識別和量化人類標(biāo)注和系統(tǒng)生成數(shù)據(jù)中的偏見。

首先是度量評審中的偏見。下圖 6 展示了參考評審和生成評審之間的差異:

AI自動評審論文,CMU這個工具可行嗎?我們用它評審了下論文

該研究按照「Nativeness」和「Anonymity」將所有評審進(jìn)行分類,詳情參見下表 7:

AI自動評審論文,CMU這個工具可行嗎?我們用它評審了下論文

分析發(fā)現(xiàn),Native 論文(即作者列表中至少有一位英語母語者)和非匿名論文的參考評審和生成評審得分更高。具體結(jié)果參見下圖:

AI自動評審論文,CMU這個工具可行嗎?我們用它評審了下論文

在論文最后,研究者還列舉了自動評審生成系統(tǒng)面臨的八項挑戰(zhàn),涉及模型、數(shù)據(jù)、評估三個方面,分別是:長文本建模、針對科學(xué)領(lǐng)域的預(yù)訓(xùn)練模型、結(jié)構(gòu)信息、外部知識、更多細(xì)粒度評審數(shù)據(jù)、更準(zhǔn)確和強大的科學(xué)論文解析器、生成文本的公平性和偏見、真實性與可靠性。

回到這個問題「科學(xué)評審可以自動化嗎?」,答案依然是「還不能」。

但是,說不定在不久的將來,自動評審生成系統(tǒng)能夠至少幫助人類評審更快速、高效地完成評審工作。

 

責(zé)任編輯:張燕妮 來源: 機器之心Pro
相關(guān)推薦

2020-04-02 14:43:34

Python 程序算法

2025-05-16 13:50:34

ACL論文競爭

2025-03-13 09:16:25

2024-05-09 11:24:20

AI論文

2024-08-12 08:37:00

AI訓(xùn)練

2024-06-27 13:39:08

2011-01-12 17:48:21

ArgusIP網(wǎng)絡(luò)事務(wù)評審網(wǎng)絡(luò)安全工具

2021-08-03 15:26:56

代碼智能阿里云

2024-09-20 17:41:07

2024-01-26 12:51:33

AI

2020-09-27 14:28:21

AI 數(shù)據(jù)人工智能

2024-10-12 13:51:22

2024-01-03 09:40:01

QA軟件測試開發(fā)

2023-02-06 10:55:18

需求評審軟件

2021-10-21 09:51:00

論文學(xué)術(shù)數(shù)據(jù)

2022-03-01 15:15:41

AI樂譜論文

2024-07-17 12:16:01

2020-04-24 08:46:41

SSDLC安全設(shè)計評審安全威脅

2025-02-12 13:44:12

2021-02-01 10:11:04

工具代碼開發(fā)
點贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 蜜臀网 | 国产日韩欧美 | 又爽又黄axxx片免费观看 | 91视频观看| 久久久久久中文字幕 | 国产精品久久久久久婷婷天堂 | 成人在线视频网站 | 亚洲女人天堂成人av在线 | 少妇一区在线观看 | 天堂成人国产精品一区 | 中文字幕蜜臀av | 天堂综合网久久 | 久久久久国产精品一区二区 | 国产精品日韩 | 成人h视频在线 | 欧美黄色一区 | 欧美一级视频免费看 | 色性av| 午夜免费小视频 | 国产999在线观看 | 免费一级做a爰片久久毛片潮喷 | 成人在线免费观看视频 | 精品国产乱码久久久久久丨区2区 | 亚洲欧美网| 天堂一区在线观看 | 欧美成人h版在线观看 | 精品国产精品国产偷麻豆 | 毛片一级片 | 亚洲欧美综合精品久久成人 | 国产精品99久久久久久久vr | 国产精品一区一区 | 手机在线一区二区三区 | 福利网站在线观看 | 欧美在线视频一区二区 | 人人精品| 天天操人人干 | 国产探花在线观看视频 | 亚洲精品欧美一区二区三区 | 欧美视频三区 | 亚洲精品日韩在线观看 | 日韩欧美一区二区三区免费观看 |