成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<th id="ihlxy"><small id="ihlxy"></small></th>

<kbd id="ihlxy"><acronym id="ihlxy"><noscript id="ihlxy"></noscript></acronym></kbd>

<strike id="ihlxy"><output id="ihlxy"><sup id="ihlxy"></sup></output></strike>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

AI自動評審論文，CMU這個工具可行嗎？我們用它評審了下論文

作者：魔王、杜偉 2021-02-03 17:52:38

最近，CMU 研究者對此展開了探索，創(chuàng)建了一個自動論文評審系統(tǒng)，上傳 PDF 論文即可自動生成評審結(jié)果，這或許會為論文評審帶來一些改變。

近年來，各大學(xué)術(shù)頂會的論文投稿量暴增，這使得論文評審的工作量大大增加。那么，有沒有可能自動生成論文的評審結(jié)果呢？最近，CMU 研究者對此展開了探索，創(chuàng)建了一個自動論文評審系統(tǒng)，上傳 PDF 論文即可自動生成評審結(jié)果，這或許會為論文評審帶來一些改變。

科學(xué)技術(shù)的快速發(fā)展伴隨著同行評審科學(xué)出版物的指數(shù)級增長。與此同時，論文的評審是一個耗時耗力的過程，必須由相應(yīng)領(lǐng)域的專家來完成。這樣一來，為不斷增長的論文提供高質(zhì)量的評審成為一大挑戰(zhàn)。那么，有沒有可能自動生成論文評審呢？

在近日發(fā)表的一篇論文中，來自 CMU 的研究者創(chuàng)建了一個自動生成論文評審結(jié)果的 Demo 網(wǎng)站 ReviewAdvisor ，只需要上傳 PDF 論文，即可自動生成評審結(jié)果。

論文鏈接：https://arxiv.org/pdf/2102.00176.pdf

在論文中，研究者探討了使用 SOTA 自然語言處理（NLP）模型生成學(xué)術(shù)論文同行評審結(jié)果的可能性。其中，最困難的部分首先是如何定義「好的」評審結(jié)果，因此該研究先討論了評審結(jié)果的度量指標(biāo)。然后，就是數(shù)據(jù)問題。研究者收集了機器學(xué)習(xí)領(lǐng)域的論文集合，使用每個評審涵蓋的不同方面（aspect）內(nèi)容對論文進(jìn)行注釋，并訓(xùn)練目標(biāo)摘要模型，以生成評審結(jié)果。

實驗結(jié)果表明，與人類專家給出的評審結(jié)果相比，系統(tǒng)生成的評審?fù)婕暗秸撐牡母喾矫?。但是，生成的評審文本除了對論文核心理念的解釋之外，其他方面的解讀邏輯性都不強，而關(guān)于核心理念的評審則大多是正確的。最后，研究者總結(jié)了構(gòu)建表現(xiàn)良好的論文評審生成系統(tǒng)面臨的八個挑戰(zhàn)以及可能的解決方案。

不過，研究者發(fā)現(xiàn)，人類專家評審和系統(tǒng)自動評審都表現(xiàn)出了不同程度的偏見，并且與人類專家評審相比，系統(tǒng)生成的評審結(jié)果具有更強的偏見性。

上面這段話來自該論文的第一部分「TL;QR」，有趣的是，這部分內(nèi)容正是由其開發(fā)的系統(tǒng)生成的。

AI自動評審論文，CMU這個工具可行嗎？我們用它評審了下論文

ReviewAdvisor 系統(tǒng)試用

試用該系統(tǒng)時，用戶需要在瀏覽器中允許所有 Cookie，否則系統(tǒng)無法正常工作。研究者使用 sciparser 工具從 PDF 論文中提取信息，所以如果上傳的論文采用的是不熟悉的模板，則系統(tǒng)也可能不工作。目前 ReviewAdvisor 支持 ICML、Neurips、ICLR、ACL、EMNLP、AAAI 等計算機科學(xué)頂會或期刊的論文。

AI自動評審論文，CMU這個工具可行嗎？我們用它評審了下論文

這個自動論文評審系統(tǒng)效果究竟如何呢？機器之心嘗試上傳了該研究所用的示例論文《Attention Is All You Need》。

AI自動評審論文，CMU這個工具可行嗎？我們用它評審了下論文

Abstract+CE (with aspect) 又可細(xì)分為摘要、清晰度、原創(chuàng)性、可靠性、Substance 和對比 6 個方面。

下圖展示了對示例論文《Attention is All You Need》原創(chuàng)性與魯棒性的評審意見，其中關(guān)于原創(chuàng)性的評審意見為「使用自注意力的 idea 非常有趣且新穎」（下圖左黃色部分），關(guān)于可靠性的評審意見則是「該論文未解釋清楚 transformer 模型為什么優(yōu)于其他基準(zhǔn)模型」（下圖右綠色部分）。

AI自動評審論文，CMU這個工具可行嗎？我們用它評審了下論文

看起來，效果還不錯。但是，機器之心在上傳其他論文時，系統(tǒng)并未及時生成評審，或者上傳多次后才生成評審結(jié)果。研究者表示，由于系統(tǒng)采用的計算機服務(wù)器是二作 Pengfei Liu 自己建立的，所以會出現(xiàn)內(nèi)存不足的情況。這可能是無法及時生成論文評審結(jié)果的原因之一。

此外，研究者強調(diào)，ReviewAdvisor 系統(tǒng)可能會生成不正確、不完整或者帶有偏見的評審結(jié)果，這些評審結(jié)果不能代替人類專家的評審結(jié)果。

優(yōu)秀同行評審有哪些標(biāo)準(zhǔn)？

該研究首先總結(jié)了評估同行評審結(jié)果的常用標(biāo)準(zhǔn)：

決斷性（Decisiveness）：好的同行評審應(yīng)該立場明確，對是否接收論文提出明確建議；
全面性（Comprehensiveness）：好的同行評審應(yīng)該有條理，首先簡要總結(jié)論文貢獻(xiàn)，然后從不同方面評估論文質(zhì)量；
正當(dāng)性（Justification）：好的同行評審應(yīng)該有理有據(jù)，尤其是在指出論文缺點時要明確理由；
準(zhǔn)確性（Accuracy）：好的同行評審應(yīng)該確保事實正確；
友好（Kindness）：好的同行評審應(yīng)該措辭禮貌善意。

數(shù)據(jù)集

該研究介紹了如何構(gòu)建具有更細(xì)粒度的元數(shù)據(jù)的評審數(shù)據(jù)集，該數(shù)據(jù)集 Aspect-enhanced Peer Review (ASAP-Review) 可用于系統(tǒng)訓(xùn)練和多角度的評審評估。

數(shù)據(jù)收集

研究者通過 OpenReview 爬取了 2017-2020 年間的 ICLR 論文，通過 NeurIPS 論文集爬取了 2016-2019 年間的 NeurIPS 論文。對于每篇論文，研究者都保留了盡可能多的元數(shù)據(jù)信息，包括如下：

參考評審，由委員會成員撰寫；
元評審，通常由領(lǐng)域主席（高級委員會成員）撰寫；
論文接收結(jié)果，即論文最終被「接收」還是「拒稿」；
其他信息，包括 url、標(biāo)題、作者等。

該研究使用 Allenai Science-parse 解析每篇論文的 pdf，并保留結(jié)構(gòu)化的文本信息（例如標(biāo)題、作者、章節(jié)內(nèi)容和參考文獻(xiàn)）。下表 2 顯示了 ASAP-Review 數(shù)據(jù)集的基本統(tǒng)計信息：

AI自動評審論文，CMU這個工具可行嗎？我們用它評審了下論文

Aspect-enhanced Review 數(shù)據(jù)集

盡管評審呈現(xiàn)出下圖 3 所示的內(nèi)部結(jié)構(gòu)：評審?fù)ǔＲ哉_始，然后分方面列出不同觀點，并給出證據(jù)。實際上，這種有用的結(jié)構(gòu)化信息并不能直接獲取。考慮到評審中各方面的細(xì)粒度信息在評估中起著至關(guān)重要的作用，該研究對評審進(jìn)行了方面注釋（aspect annotation）。為此，該研究首先介紹方面類型（aspect typology），然后進(jìn)行人工注釋。

AI自動評審論文，CMU這個工具可行嗎？我們用它評審了下論文

該研究定義的類型包含以下 8 個方面，遵循 ACL 審核指南，并做了一些小改動：

摘要（SUM）
動機 / 影響（MOT）
原創(chuàng)性（ORI）
可靠性 / 正確性（SOU）
Substance（SUB）
可復(fù)現(xiàn)性（REP)
有意義的對比（CMP）
清晰度（CLA）

總體而言，數(shù)據(jù)注釋涉及 4 個步驟，如下圖 1 所示：

AI自動評審論文，CMU這個工具可行嗎？我們用它評審了下論文

ReviewAdvisor 如何生成科學(xué)評審結(jié)果？

首先我們來看什么是「科學(xué)評審生成」任務(wù)。該任務(wù)可以被概念化地理解為基于 aspect 的科學(xué)論文摘要任務(wù)，但存在一些重要的區(qū)別。例如，大部分當(dāng)前的工作要么從「作者視角」總結(jié)論文（即僅使用作者所寫的內(nèi)容構(gòu)建摘要），要么從「讀者視角」進(jìn)行總結(jié)，即認(rèn)為論文摘要應(yīng)考慮研究社區(qū)成員的視角。

而 CMU 研究者在這項工作中將科學(xué)論文摘要的視角從「作者」或「讀者」擴展到了「評審」，并認(rèn)為好的科學(xué)論文摘要不僅應(yīng)反映論文的核心 idea，還要包含領(lǐng)域?qū)＜覐牟煌矫孀龀龅闹匾u價，而這需要源論文以外的知識。

這一想法的好處在于：1）幫助作者發(fā)現(xiàn)論文中的缺陷，使之更強；2）幫助評審者緩解一部分評審負(fù)擔(dān)；3）幫助讀者快速掌握論文主要思想，并了解「領(lǐng)域?qū)＜摇梗丛撗芯縿?chuàng)建的系統(tǒng)）對論文的評價。如下圖 3 所示：

AI自動評審論文，CMU這個工具可行嗎？我們用它評審了下論文

系統(tǒng)設(shè)計

該研究創(chuàng)建的評審數(shù)據(jù)集包含的訓(xùn)練樣本少于其他基準(zhǔn)摘要數(shù)據(jù)集，不過近期語境化預(yù)訓(xùn)練模型的少樣本（few-shot）學(xué)習(xí)能力使得基于該數(shù)據(jù)集訓(xùn)練評審生成系統(tǒng)成為可能。該研究使用 BART 作為預(yù)訓(xùn)練模型，該模型在多個生成任務(wù)上展現(xiàn)出卓越的性能。

然而，即使有了 BART 的加持，如何使用它處理長文本仍是一大挑戰(zhàn)。經(jīng)過多次試驗后，研究者選擇了一種兩階段方法。

利用兩階段系統(tǒng)處理長文本

該研究利用「提取 - 生成」（extract-then-generate）機制，將文本生成分解為兩步。具體而言，首先進(jìn)行內(nèi)容選擇，即從源論文中提取顯著文本片段，然后基于這些文本生成摘要。

aspect 感知的摘要（aspect-aware Summarization）

通常在 extract-then-generate 機制中，可以直接使用提取內(nèi)容，并構(gòu)建用于生成文本的序列到序列模型。為了生成具備更多樣化方面的評審結(jié)果，以及透過其內(nèi)部結(jié)構(gòu)解釋評審結(jié)果，該研究更進(jìn)一步提出了 extract-then-generate-and-predict 生成框架。

具體而言，研究者使用其標(biāo)注 aspect 作為額外信息，設(shè)計了一個預(yù)測生成文本（評審）aspect 的輔助任務(wù)，參見下圖 5：

AI自動評審論文，CMU這個工具可行嗎？我們用它評審了下論文

實驗

研究者通過以下兩個問題，來評估該系統(tǒng)的效果。

該系統(tǒng)擅長什么？不擅長什么？

基于該研究定義的評估度量指標(biāo)，研究者對參考評審和生成評審進(jìn)行了自動評估和人工評估，來分析自動評審生成系統(tǒng)在哪些子任務(wù)上發(fā)揮良好，又在哪些子任務(wù)上失敗。下表 5 展示了評估結(jié)果：

AI自動評審論文，CMU這個工具可行嗎？我們用它評審了下論文

實驗發(fā)現(xiàn)，該評審生成系統(tǒng)存在一些缺陷，主要表現(xiàn)在以下幾個方面：

缺乏對論文的高級理解：系統(tǒng)無法準(zhǔn)確分辨高質(zhì)量論文和低質(zhì)量論文，大多數(shù)時候負(fù)面 aspect 的證據(jù)并不可靠；

模仿源數(shù)據(jù)的風(fēng)格：在不同生成評審結(jié)果中常出現(xiàn)某些特定句子，這表明生成評審的風(fēng)格易受訓(xùn)練樣本中高頻句子模式的影響；

缺乏問題：生成評審很少對論文內(nèi)容提出問題，而這是同行評審的重要組成部分。

當(dāng)然，該系統(tǒng)也有一些優(yōu)勢。它通常能夠準(zhǔn)確總結(jié)輸入論文的核心思想，生成評審覆蓋的論文質(zhì)量 aspect 也多于人類評審人員。

案例研究

研究者還進(jìn)行了案例研究，下表 6 展示了示例評審結(jié)果。從中可以看出，該模型不僅能生成流暢的文本，還能意識到生成文本是關(guān)于哪個方面及其正確的極性。例如紫色部分是「摘要」，黃色部分是「清晰度」，+ 表示評論較為正面。

雖然生成的方面通常是小型文本片段，還存在一些微小的對齊問題，但該模型仍然能清晰地感知到不同方面。

AI自動評審論文，CMU這個工具可行嗎？我們用它評審了下論文

系統(tǒng)生成的評審帶有偏見嗎？

文本中的偏見普遍存在，但檢測難度高。該研究除了設(shè)計生成評審的模型外，還提出了一種偏見分析方法，以便更細(xì)粒度地識別和量化人類標(biāo)注和系統(tǒng)生成數(shù)據(jù)中的偏見。

首先是度量評審中的偏見。下圖 6 展示了參考評審和生成評審之間的差異：

AI自動評審論文，CMU這個工具可行嗎？我們用它評審了下論文

該研究按照「Nativeness」和「Anonymity」將所有評審進(jìn)行分類，詳情參見下表 7：

AI自動評審論文，CMU這個工具可行嗎？我們用它評審了下論文

分析發(fā)現(xiàn)，Native 論文（即作者列表中至少有一位英語母語者）和非匿名論文的參考評審和生成評審得分更高。具體結(jié)果參見下圖：

AI自動評審論文，CMU這個工具可行嗎？我們用它評審了下論文

在論文最后，研究者還列舉了自動評審生成系統(tǒng)面臨的八項挑戰(zhàn)，涉及模型、數(shù)據(jù)、評估三個方面，分別是：長文本建模、針對科學(xué)領(lǐng)域的預(yù)訓(xùn)練模型、結(jié)構(gòu)信息、外部知識、更多細(xì)粒度評審數(shù)據(jù)、更準(zhǔn)確和強大的科學(xué)論文解析器、生成文本的公平性和偏見、真實性與可靠性。

回到這個問題「科學(xué)評審可以自動化嗎？」，答案依然是「還不能」。

但是，說不定在不久的將來，自動評審生成系統(tǒng)能夠至少幫助人類評審更快速、高效地完成評審工作。

責(zé)任編輯：張燕妮來源：機器之心Pro

AI 數(shù)據(jù)人工智能

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

主站蜘蛛池模板：蜜臀网 | 国产日韩欧美 | 又爽又黄axxx片免费观看 | 91视频观看| 久久久久久中文字幕 | 国产精品久久久久久婷婷天堂 | 成人在线视频网站 | 亚洲女人天堂成人av在线 | 少妇一区在线观看 | 天堂成人国产精品一区 | 中文字幕蜜臀av | 天堂综合网久久 | 久久久久国产精品一区二区 | 国产精品日韩 | 成人h视频在线 | 欧美黄色一区 | 欧美一级视频免费看 | 色性av| 午夜免费小视频 | 国产999在线观看 | 免费一级做a爰片久久毛片潮喷 | 成人在线免费观看视频 | 精品国产乱码久久久久久丨区2区 | 亚洲欧美网| 天堂一区在线观看 | 欧美成人h版在线观看 | 精品国产精品国产偷麻豆 | 毛片一级片 | 亚洲欧美综合精品久久成人 | 国产精品99久久久久久久vr | 国产精品一区一区 | 手机在线一区二区三区 | 福利网站在线观看 | 欧美在线视频一区二区 | 人人精品| 天天操人人干 | 国产探花在线观看视频 | 亚洲精品欧美一区二区三区 | 欧美视频三区 | 亚洲精品日韩在线观看 | 日韩欧美一区二区三区免费观看 |

<ins id="rvlbr"><tr id="rvlbr"><big id="rvlbr"></big></tr></ins>