成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

GPT-4一眼看穿論文會不會撤稿:7000篇實測準確率高達95%|人大浙大

人工智能 新聞
來自人大與浙大學者團隊的研究者們把涉及數千篇SCI/SSCI的期刊論文的10000多條推文喂給了GPT-4,讓它根據推文回答“這篇論文是否有可能被撤稿”,然后和人類預測的結果相比較。

把論文丟給GPT-4進行撤稿預測,和人類審稿人給出的結果相似性近95%

具體來說,來自人大與浙大學者團隊的研究者們把涉及數千篇SCI/SSCI的期刊論文的10000多條推文喂給了GPT-4,讓它根據推文回答“這篇論文是否有可能被撤稿”,然后和人類預測的結果相比較。

結果,GPT-4幾乎完美地勝任了這項工作。

圖片

也就是說,雖然近期偶有新聞冒出,有人直接把ChatGPT等大模型的生成內容復制進論文正文,進而引發一系列學術不端問題。

但,大模型可能引發學術不端,也有辦法維護科研誠信。

論文作者Er-Te Zheng總結道:

AI能否應用于學術研究,這一問題的關鍵,在于AI工具如何被人類所使用。

圖片

推文能預測論文撤稿

作為讓ChatGPT預測撤稿與否的基礎,研究團隊首先探索了“推文本身能否預測撤稿”。

現實情況中,許多有問題的論文都是在推特等社交平臺上被曝光,引發關注,繼而被撤稿——比如前段時間爭議不小的用AI繪制小鼠插圖的論文。

圖片

在探索推文本身能否預測撤稿的過程中,團隊搜集了一組包含3505篇撤稿論文的數據集,并采用粗略精確匹配方法獲得的具有相似特征的3505篇未撤稿論文。

這些特征包括發表期刊、發表年份、作者數量和推文數量。

上述7010篇論文的推文數據通過推特API收集,數據內容包括推文發布日期和文本內容。

篩選出在論文撤稿前發布的推文后,研究團隊最終共搜集到8367條涉及撤稿論文的英文推文和6180條涉及未撤稿論文的英文推文。

圖片

研究把推文分為訓練集和測試集。

訓練集用來訓練模型,然后在測試集上驗證人工預測、關鍵詞方法、機器學習模型和ChatGPT的預測結果情況。

人工預測結果(研究者根據推文預測論文撤稿情況)是研究使用的主要基準之一,用以衡量模型與人工方法的一致性情況。

人工預測結果顯示,人類若認為推文暗示論文存在問題,則推文涉及的這篇論文有高達約93%的幾率會被撤稿(精確率≈93%),這說明部分推文的確能夠預測論文撤稿。

不過,像這樣能通過推文被人工預測出撤稿的論文的總體占比不高,約占所有撤稿論文的16%(召回率≈16%)

因此,盡管只有一小部分撤稿論文的相關推文在論文撤稿前含有了可識別的問題信號,但這些信號確實存在

研究者觀察到,能夠有效預測論文撤稿的批評性推文有兩種類型:

  • 第一種直接突出論文中的錯誤或學術不端行為;
  • 第二種使用批評或諷刺的方式來突出論文的質量存疑。

這些推文能夠促使期刊對論文進行調查,如果調查證實了推文中提到的問題的存在和嚴重性,論文隨后可能會被撤稿。

在這種情況下,批評性推文可以作為撤稿論文的催化劑,強調了將其納入研究誠信的早期預警系統的價值。

ChatGPT預測結果95%近似人類

既然發現推文具有預測論文撤稿的潛力,研究進一步探索了關鍵詞方法、機器學習模型和ChatGPT在根據推文來預測論文撤稿方面的潛力,將各模型的預測結果與人工預測結果進行比較。

圖片

研究表明,GPT-4的總體預測結果(包含撤稿預測和非撤稿預測)與人工預測結果的一致性最高,約95%。

其次是GPT-3.5和SVM模型,其一致性超過80%。

而關鍵詞方法與其他機器學習模型的一致性則在47%-64%之間,預測效果一般。

精確率方面,同樣是GPT-4的精確率最高:

GPT-4預測會撤稿的論文中,近70%的在人工預測中同樣會撤稿;而其他模型的預測精確率均遠低于GPT-4。

圖片

上圖進一步顯示了不同模型預測結果與人工預測結果的比較。

關鍵詞方法和三種機器學習模型(LR、RF和NB)將大量人工無法判定為撤稿的論文歸為撤稿(過擬合率高)

相比而言,GPT-4的預測結果最接近于人工預測的結果

絕大部分GPT-4預測為撤稿的論文,人工預測也為撤稿,絕大部分GPT-4預測為非撤稿的論文,人工預測同樣為非撤稿。

有請實例

與其他方法相比,ChatGPT還有一個重要的優勢——能夠為其預測提供理由,而其他方法則無法詳細解釋其決策。

例如,從樣本論文中可以看出,ChatGPT對推文有深刻的理解,并能準確提取可能預測論文撤稿的信息,為使用推文評估論文是否存在潛在問題提供了寶貴的幫助。

舉個圖片

圖片

然而,也要注意到ChatGPT有時存在“幻覺”問題。

也就是說,ChatGPT可能會產生不恰當的輸出,因此在使用時需要謹慎,并考慮到其可能的錯誤預測。

例如:

圖片

樣例論文3中,相關推文是對這篇論文的評價,暗示該論文指出諾獎得主的某篇論文存在問題。

然而,ChatGPT將樣例論文3誤以為是被撤稿的諾獎得主的相關工作,因此這篇論文可能被撤稿。

此處的分析結果表明,ChatGPT存在一定的邏輯推理謬誤與過度解讀等問題。

因此,ChatGPT雖然能夠通過推文從一定程度上預測論文撤稿,與人工預測的一致性在各模型中表現最好,但其在當前并非完美,在未來仍有長足的改進空間。

網友對這項研究也挺關注,表示用ChatGPT預測論文撤稿,真是從未設想過的道路。

因缺斯汀,我還以為沒有足夠多的數據來支撐這一結論呢!

圖片

總體而言,研究揭示了社交媒體討論作為論文撤稿早期預警的潛力,同時也展示了ChatGPT等生成式人工智能在促進科研誠信方面的潛在應用。

研究作者介紹

最后,來認識一下這個研究的作者~

Er-Te Zheng(鄭爾特),人大信息資源管理學院碩士生,由Zhichao Fang助理教授指導;本科時,他在浙江大學獲得管理學學士學位,師從Hui-Zhen Fu副教授。

他的研究方向涉及計算社會科學、科學學和科學計量。

Hui-Zhen Fu(付慧真),浙大公共管理學院信息資源管理系副教授,北京大學博士。

擔任信息資源管理研究所副所長,荷蘭萊頓大學科學技術研究中心(CWTS)訪問學者。

她的研究方向為交叉科學、科學計量、科研誠信和科研管理,在國際權威刊物發表論文超40篇(SCI/SSCI),連續四年(2020-2023)入選愛思唯爾中國高被引學者榜單。

Zhichao Fang(方志超),人大信息資源管理學院助理教授,荷蘭萊頓大學科學與技術研究中心(CWTS)博士,萊頓大學CWTS客座研究員,伊朗波斯灣大學社交媒體數據研究組成員。

他的研究方向為科學學、科學計量和社交媒體計量學,在科學計量學與科技政策等領域發表SCI/SSCI論文20篇。

論文鏈接:https://arxiv.org/abs/2403.16851

責任編輯:張燕妮 來源: 量子位
相關推薦

2024-04-15 12:55:00

數據訓練

2024-06-11 07:45:00

2020-05-21 12:59:51

邊緣存儲存儲物聯網

2018-04-26 10:38:34

2023-11-20 21:56:04

AI推理

2020-07-08 13:26:47

Python

2025-03-20 10:03:44

2023-08-15 14:55:57

2023-08-08 13:54:15

2023-10-06 13:35:11

AI數據

2015-08-21 13:10:14

APM數據

2024-01-03 13:37:00

模型數據

2023-10-14 13:09:53

谷歌模型

2024-05-27 13:42:00

2023-10-14 17:24:49

2015-08-19 14:01:14

APM

2018-06-08 15:51:56

CNN皮膚癌人工智能

2024-05-20 08:40:00

2025-01-21 08:00:00

2023-06-19 08:19:50

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 日韩欧美三级 | 亚洲福利一区 | 中文字幕日本一区二区 | 一级欧美黄色片 | 你懂的免费在线 | 欧美成人一区二区三区片免费 | 91成人小视频 | 国产成人综合av | 国产精品久久久久久久岛一牛影视 | 精品在线免费看 | 9porny九色视频自拍 | 性一爱一乱一交一视频 | 国产一区中文字幕 | 免费在线观看一区二区三区 | 欧美黄在线观看 | 美女131mm久久爽爽免费 | 五月婷婷激情网 | 天堂一区二区三区 | 日韩欧美国产精品综合嫩v 一区中文字幕 | 丝袜 亚洲 另类 欧美 综合 | 国产欧美久久一区二区三区 | 福利视频一区二区三区 | 精品国产一区二区三区性色av | 免费在线观看一区二区三区 | 中文字幕高清 | 很很干很很日 | 先锋资源在线 | 一区二区三区免费在线观看 | 亚洲天堂精品久久 | 国产成人99久久亚洲综合精品 | 国产高清一区二区三区 | 91精品中文字幕一区二区三区 | 日韩一区二区福利 | 国产精品视频一区二区三区四区国 | 91久久国产综合久久91精品网站 | 国产精品久久久久久久久久久久久久 | 欧美日韩一 | 日韩美香港a一级毛片免费 国产综合av | 亚洲精品无 | 国产欧美日韩精品在线观看 | 国产精品日日摸夜夜添夜夜av |