成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

ICLR被曝巨大黑幕,評審和作者竟私下勾結?49.9%論文疑有AI審稿

人工智能 新聞
正在召開的ICLR 2024會議上,成為關注熱點的不僅有耀眼的成果和學術明星,關于論文的審稿程序也掀起了一波討論。大會官方對網上熱議的「串通」行為做出了回應,學界關心的「AI輔助審稿」問題也在ICLR 2024的背景下有了相關的研究進展。

由于規格高、論文多,頂會論文審稿過程的公平性和透明度,向來是業界關注和爭議的焦點。

本屆ICLR在放榜后就有人在Reddit上發帖,質疑委員會接收了違反匿名政策的論文,且沒有在評審過程中遵守雙盲原則。

而且這種情況絕不是個例。ICLR官方發布的文章表示,關于審稿過程的問題已經收到了7000多封意見書。


圖片

很快,隨著大會正式拉開帷幕,ICLR也親自下場表示,目前已經針對這種「串通」行為展開了調查。

所謂Collusion(串通)就是,一些審稿人通過操縱投標系統與特定作者匹配。

不僅如此,部分領域主席(AC)可能也通過類似的方式操作系統并指派同謀的審稿人。

然后,這些審稿人就會給出極高的評價,從而提高論文被接收的可能性。

對此,ICLR表示:

- 目前已發現多起審稿人與作者之間的勾結行為,其中一些案例有直接證據。

- 這些行為均直接違反了道德守則。

- 道德委員會正審查,并評估可能的處罰。

AI輔助審稿

除此之外,關于評審委員會在審稿時能否使用AI工具的問題也一直飽受爭議。

相比其他頂會,ICLR審稿較為獨特的一點在于,無論是否被接受,每篇論文的評分和評審意見都會被公開發布。

于是,來自洛桑聯邦理工學院的研究人員,就利用ICLR 2024的相關公開數據,研究了用AI進行輔助評審的情況。

這篇論文不僅揭示了評審過程中可能存在的大范圍使用AI輔助工具的情況,也采用對比分析的方法研究了這種行為對評審結果可能存在的影響。

圖片

論文地址:https://arxiv.org/abs/2405.02150

論文作者首先采用了一個商用的LLM檢測器GPTZero來評估所有的文字評審意見。GPTZero可以將給定文本分為「完全由人類生成」,「完全由AI生成」和「混合生成」三類,并給出相應的置信度。

這篇研究中,如果GPTZero認為「完全由人類生成」的置信度低于0.5,則被認定為使用了AI輔助。結果顯示,AI輔助評審比想象中的更廣泛。

2024年評委們給出的28028條評審意見中至少有15.8%是由AI輔助生成的,全部接收文章中的49.9%收到了至少一條由GPTZero判定為AI輔助的評審意見。

基于GPTZero的檢測結果,論文繼續研究AI輔助生成的評論是否會對論文的評分和接受率產生影響。

文章包括三部分,第一部分分析AI參與審稿的范圍,第二、三部分研究AI輔助可能產生的影響

對于每篇既有AI輔助評審意見又有人類評審意見的論文,作者收集了這些等級制評分的結果(包含5個等級:1分、3分、5分、6分、8分),并使用了比例賠付模型(proportional odds model)擬合估計AI輔助評審會打出更高分數的可能性。

總體上,AI給論文的評分會高于人類。對于一篇給定的論文,AI評分有53.4%的可能性高于人類評分。

無論在哪個分數區間,AI輔助評審打出的分數相比人類都會更高

為了研究AI輔助的評審意見會如何影響論文入選結果,作者從全部論文中挑選了內容相似的文章匹配成對,其中一篇全部被判定為由人類評審,另一篇則只含有一條AI輔助評審,且除去AI的給分后,審稿委員會為它們打出了完全相同的分數。

通過以上標準篩選出5132個論文樣本后,作者對比了它們的接收情況從而分析AI輔助評分的影響。

總體而言,一條AI輔助的評分讓論文有3.1%的更高可能入選,而且對于評分徘徊在接收分數線邊緣的論文,這個數字還會提升到4.9%。

評分在5~6分、處于接收線邊緣時,AI評分會對論文入選有正面影響

近年來大語言模型的快速發展,尤其是ChatGPT誕生后,學術界就涌現出了對AI參與審稿過程的質疑,自己工作都在「996」的教授們面對審稿的重擔很有可能讓大語言模型幫自己撰寫評審意見。

這篇論文探究了當今頂會的審稿現狀,通過控制變量的方法追蹤并量化了因果關系,進而揭示了AI輔助評審對論文接收結果可能產生的影響。

大語言模型的快速發展是否會威脅學術界長久以來實行的同行評審制度,一直是期刊和論文的委員會所擔憂的。論文作者表示,這項研究的意義之一在于,用量化的證據坐實了這種負面影響。

由于論文投稿數量的激增以及發展得越來越快的文字生成工具,疲于審稿工作的委員們采用AI輔助工具似乎是不可避免的趨勢。

以ICLR為例,2023年的總投稿數僅為4955篇,今年就激增了將近一倍,達到7262篇,這無疑給會議的評審委員會帶來了很大的工作負擔。

論文的最后一部分誠實地表達了作者的擔憂,認為審稿過程的準則和評價指標需要跟隨大語言模型的發展一同進化。

否則,任由AI放肆地將自己不成熟的價值觀投射到學術論文的篩選過程上,尤其是那些含有更多觀點和價值表述的論文,將會產生更嚴重的危機。

最后,作者還分享了他們基于GPTZero打造的檢測網站,只要輸入你的論文標題,就能看到自己的ICLR論文是不是被「幸運」地分配到了AI輔助評審。

測試地址:http://aireviewlottery.com

責任編輯:張燕妮 來源: 新智元
相關推薦

2024-01-26 12:48:49

AI數據

2025-02-28 10:05:00

AI生成

2024-01-17 12:05:12

AI模型

2015-03-26 12:14:02

iOS漏洞蘋果手機手機安全

2024-08-15 13:40:00

模型訓練

2025-03-13 09:16:25

2024-10-17 13:09:14

2023-10-07 13:16:20

GPT-4NatureICLR

2021-05-28 10:10:22

AI 數據人工智能

2023-11-13 18:50:55

AI數據

2024-01-26 12:51:33

AI

2021-02-03 17:52:38

AI 數據人工智能

2025-04-15 04:00:00

ICLRClaudeSpotlight

2023-12-17 13:02:10

AI模型

2023-03-14 13:08:33

微軟AI風險評估

2024-01-19 12:50:00

2023-09-06 12:56:23

智能訓練

2025-01-07 08:30:00

2020-07-07 16:53:40

IIoTAI工業物聯網

2022-08-17 14:41:13

AI論文
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 国产一区二区 | 国产wwwcom| 欧美黄色一区 | 日韩成人免费视频 | 亚洲一区二区三区在线视频 | 伊人久久大香线 | 国产精品久久久久久久久久久新郎 | 欧美精品福利视频 | 国产一区二区三区在线看 | 伊人激情网 | 久久网一区二区三区 | 新91视频网 | 日本一区二区高清不卡 | 国产乡下妇女做爰 | 日本在线免费观看 | 九九热在线观看 | 91在线精品播放 | 久久亚| 香蕉二区 | 国产网站在线 | 91久久伊人 | 亚洲福利一区二区 | 日韩一区二区成人 | 欧美一区不卡 | a免费观看 | 大乳boobs巨大吃奶挤奶 | 欧美片网站免费 | 亚洲综合二区 | 91视频在线看 | 97精品超碰一区二区三区 | 一二三四在线视频观看社区 | 亚洲欧美在线视频 | 日韩一级电影免费观看 | 国产在线97 | 99久久久久| 久久久久91 | 日韩中文字幕在线视频 | 成人在线不卡 | 国产精品久久国产精品久久 | 国产91在线播放 | 国产精品一区二区在线 |