用ChatGPT寫(xiě)論文靠譜嗎？有學(xué)者試了一下：漏洞百出，但是個(gè)注水的「好」工具

作者：新智元 2023-02-08 10:39:09

在人工智能能夠被信任以產(chǎn)生可靠和準(zhǔn)確的信息之前，它在科學(xué)界的使用應(yīng)該是謹(jǐn)慎的，必須仔細(xì)評(píng)估人工智能工具提供的信息，并使用可靠的來(lái)源進(jìn)行驗(yàn)證。

?ChatGPT以其強(qiáng)大的文本創(chuàng)作能力，直接問(wèn)鼎地表最強(qiáng)問(wèn)答模型。

但強(qiáng)大的AI也會(huì)帶來(lái)一些負(fù)面影響，比如在問(wèn)答社區(qū)一本正經(jīng)地寫(xiě)出錯(cuò)誤答案，幫助學(xué)生寫(xiě)論文等。

最近arXiv上的一篇論文引發(fā)了業(yè)界的關(guān)注，來(lái)自西班牙圣地亞哥-德孔波斯特拉大學(xué)的研究人員在文中以「人工智能在藥物發(fā)現(xiàn)中的挑戰(zhàn)、機(jī)遇和策略」，這篇論文的特別之處在于作者使用ChatGPT輔助論文寫(xiě)作。

論文鏈接：https://arxiv.org/abs/2212.08104

作者團(tuán)隊(duì)在摘要中的最后一段「來(lái)自人類(lèi)作者的說(shuō)明」（Note from human-authors）中表示，創(chuàng)建這篇論文是為了測(cè)試 ChatGPT (一個(gè)基于 GPT-3.5語(yǔ)言模型的聊天機(jī)器人)的寫(xiě)作能力是否能幫助人類(lèi)作者撰寫(xiě)評(píng)論文章。

作者設(shè)計(jì)了一段指令作為文本生成的初始提示，然后對(duì)自動(dòng)生成的內(nèi)容進(jìn)行評(píng)估。再進(jìn)行徹底的審查之后，人類(lèi)作者實(shí)際上重寫(xiě)了手稿，努力在原始proposal和科學(xué)標(biāo)準(zhǔn)之間保持平衡，文章的最后也討論了使用人工智能實(shí)現(xiàn)這一目標(biāo)的優(yōu)勢(shì)與局限性。

但是還有一個(gè)問(wèn)題，作者列表里怎么沒(méi)有ChatGPT？（手動(dòng)狗頭）

論文寫(xiě)作方法

本文是在ChatGPT的輔助下生成的，ChatGPT是2022年11月30日發(fā)布的一個(gè)自然語(yǔ)言處理系統(tǒng)，由OpenAI用大量文本語(yǔ)料庫(kù)進(jìn)行訓(xùn)練，能夠根據(jù)提供給它的輸入生成類(lèi)似人類(lèi)寫(xiě)作的文本。

就本文而言，人類(lèi)作者提供的輸入包括論文的主題（人工智能在藥物發(fā)現(xiàn)中的應(yīng)用）、需要考慮的章節(jié)數(shù)量，以及每個(gè)章節(jié)的具體提示和說(shuō)明。

ChatGPT生成的文本需要經(jīng)過(guò)人工編輯后才能作為最終的定稿，以糾正和豐富內(nèi)容，避免重復(fù)和不一致等問(wèn)題；并且人類(lèi)也需要對(duì)人工智能建議的所有參考文獻(xiàn)進(jìn)行了修改。

這項(xiàng)工作的最終版本是人類(lèi)作者在人工智能的協(xié)助下進(jìn)行反復(fù)修改的結(jié)果，直接從ChatGPT獲得的初步文本與當(dāng)前版本手稿之間的總相似度為：完全相同的4.3%，微小的變化13.3%，相關(guān)的意義16.3%。直接從ChatGPT獲得的初步文本中，正確的參考文獻(xiàn)比例僅為6%。

由ChatGPT生成的原始版本，以及用于創(chuàng)建該版本的輸入信息都涵蓋進(jìn)來(lái)作為Supporting Information

論文摘要中的插圖由DALL-E生成。

論文內(nèi)容

論文總共包括10個(gè)section和56個(gè)參考文獻(xiàn)，其中section1-9都只包含1-2個(gè)段落，主要描述論文主題「「人工智能在藥物發(fā)現(xiàn)中的挑戰(zhàn)、機(jī)遇和策略」」相關(guān)的內(nèi)容；第十個(gè)section主要討論「人類(lèi)作者對(duì)基于ChatGPT和AI的科學(xué)寫(xiě)作工具的專(zhuān)家意見(jiàn)」；文章中只有摘要部分包含一張插圖。

摘要

人工智能有可能徹底改變藥物發(fā)現(xiàn)過(guò)程，提供更好的效率、準(zhǔn)確性和速度。然而，AI的成功應(yīng)用取決于高質(zhì)量數(shù)據(jù)的可用性、對(duì)道德問(wèn)題的處理以及對(duì)基于人工智能方法的局限性的認(rèn)識(shí)。

這篇文章回顧了人工智能在這個(gè)領(lǐng)域的好處、挑戰(zhàn)和缺點(diǎn)，并提出了克服目前障礙的可能戰(zhàn)略和方法。

文章中還討論了數(shù)據(jù)增強(qiáng)的使用、可解釋的人工智能、人工智能與傳統(tǒng)實(shí)驗(yàn)方法的整合，以及人工智能在醫(yī)藥研究中的潛在優(yōu)勢(shì)。

總的來(lái)說(shuō)，這篇評(píng)論強(qiáng)調(diào)了人工智能在藥物發(fā)現(xiàn)中的潛力，并對(duì)實(shí)現(xiàn)其在該領(lǐng)域的潛力所面臨的挑戰(zhàn)和機(jī)遇進(jìn)行了深入探討。

人類(lèi)作者對(duì)基于ChatGPT和AI的科學(xué)寫(xiě)作工具的專(zhuān)家意見(jiàn)

ChatGPT是一個(gè)基于GPT-3.5語(yǔ)言模型的聊天機(jī)器人，它的設(shè)計(jì)目標(biāo)并非是撰寫(xiě)科學(xué)論文的助手，但它與人類(lèi)進(jìn)行連貫的對(duì)話并就廣泛的主題提供新信息的能力，以及它糾正甚至生成計(jì)算代碼的能力，都讓科學(xué)界感到驚訝。

因此，我們決定測(cè)試它的潛力，為編寫(xiě)關(guān)于人工智能算法在藥物發(fā)現(xiàn)中的作用的簡(jiǎn)短評(píng)論做出貢獻(xiàn)。

作為撰寫(xiě)科學(xué)論文的助手，ChatGPT有幾個(gè)優(yōu)點(diǎn)，包括快速生成和優(yōu)化文本的能力，以及幫助用戶(hù)完成幾個(gè)任務(wù)，包括組織信息，甚至在某些情況下連接思想。

然而，這個(gè)工具絕不是生成新內(nèi)容的理想工具。

輸入instructions后，還需要人類(lèi)對(duì)人工智能生成的文本進(jìn)行修改，而且是大篇幅的編輯和修正，包括替換幾乎所有的參考文獻(xiàn)，因?yàn)镃hatGPT提供的參考文獻(xiàn)明顯不正確。

這也是ChatGPT目前存在的一個(gè)大問(wèn)題，它與其他計(jì)算工具（如搜索引擎）相比有一個(gè)關(guān)鍵的區(qū)別，后者主要是為所需的信息提供可靠的參考。

而采用基于人工智能的工具進(jìn)行寫(xiě)作輔助還存在另一個(gè)重要的問(wèn)題：它是在2021年訓(xùn)練的，所以它并不包括最新信息。

這次寫(xiě)作實(shí)驗(yàn)提供的結(jié)果就是：我們可以說(shuō)ChatGPT不是一個(gè)有用的工具，在沒(méi)有強(qiáng)大的人類(lèi)干預(yù)的情況下無(wú)法編寫(xiě)可靠的科學(xué)文本。

ChatGPT缺乏準(zhǔn)確和充分傳達(dá)復(fù)雜科學(xué)概念和信息所需的知識(shí)和專(zhuān)長(zhǎng)。

此外，ChatGPT使用的語(yǔ)言和風(fēng)格可能不適合學(xué)術(shù)寫(xiě)作，為了生成高質(zhì)量的科學(xué)文本，人類(lèi)的輸入和審查是必不可少的。

這種人工智能還不能用于生產(chǎn)科學(xué)文章的主要原因之一是它缺乏評(píng)估處理信息真實(shí)性和可靠性的能力，因此，由ChatGPT生成的科學(xué)文本肯定包含錯(cuò)誤或誤導(dǎo)性信息。

同樣需要注意的是，審稿人可能會(huì)發(fā)現(xiàn)區(qū)分由人類(lèi)或這個(gè)人工智能寫(xiě)的文章并非易事。

這使得審查過(guò)程必須徹底，以防止虛假或誤導(dǎo)性信息的發(fā)表。

一個(gè)真正的風(fēng)險(xiǎn)是，掠奪性期刊（predatory journals）可能利用科學(xué)文章的快速生產(chǎn)來(lái)產(chǎn)生大量的低質(zhì)量?jī)?nèi)容，這些期刊往往受利益驅(qū)使，而不是致力于科學(xué)進(jìn)步，它們可能利用人工智能快速生產(chǎn)文章，讓不合格的研究充斥市場(chǎng)，破壞科學(xué)界的公信力。

最大的危險(xiǎn)之一是科學(xué)文章中虛假信息的潛在擴(kuò)散，這可能導(dǎo)致科學(xué)事業(yè)本身的貶值，失去對(duì)科學(xué)研究的準(zhǔn)確性和完整性的信任，會(huì)對(duì)科學(xué)的進(jìn)步產(chǎn)生不利影響。

有幾種可能的解決方案來(lái)減輕與使用人工智能制作科學(xué)文章有關(guān)的風(fēng)險(xiǎn)。

一個(gè)解決方案是開(kāi)發(fā)專(zhuān)門(mén)用于生產(chǎn)科學(xué)文章的人工智能算法。這些算法可以在高質(zhì)量、經(jīng)同行評(píng)議的研究的大型數(shù)據(jù)集上進(jìn)行訓(xùn)練，這將有助于確保其生成的信息的真實(shí)性。

此外，這些算法可以被編程為標(biāo)記潛在的問(wèn)題信息，如引用不可靠的來(lái)源，這將提醒研究人員需要進(jìn)一步審查和核實(shí)。

另一種方法是開(kāi)發(fā)能夠更好地評(píng)估其處理的信息的真實(shí)性和可靠性的人工智能系統(tǒng)。這可能涉及在高質(zhì)量科學(xué)文章的大型數(shù)據(jù)集上訓(xùn)練人工智能，以及使用交叉驗(yàn)證和同行評(píng)審等技術(shù)，以確保人工智能產(chǎn)生準(zhǔn)確和值得信賴(lài)的結(jié)果。

另一個(gè)可能的解決方案是為人工智能在科學(xué)研究中的應(yīng)用制定更嚴(yán)格的準(zhǔn)則和法規(guī)，比如包括要求研究人員披露他們?cè)谥谱魑恼聲r(shí)使用了人工智能，并實(shí)施審查程序以確保人工智能生成的內(nèi)容符合某些質(zhì)量和準(zhǔn)確性標(biāo)準(zhǔn)。

此外，還可以包括要求研究人員在發(fā)表前徹底審查和核實(shí)人工智能生成的任何信息的準(zhǔn)確性，以及對(duì)那些未能這樣做的人的懲罰，教育公眾了解人工智能的局限性和依靠人工智能進(jìn)行科學(xué)研究的潛在危險(xiǎn)也可能是有用的，可以幫助防止錯(cuò)誤信息的傳播，確保公眾能夠更好地區(qū)分可靠和不可靠的科學(xué)信息來(lái)源。

資助機(jī)構(gòu)和學(xué)術(shù)機(jī)構(gòu)可以通過(guò)提供培訓(xùn)和資源，幫助研究人員了解該技術(shù)的局限性，在促進(jìn)科學(xué)研究中負(fù)責(zé)任地使用人工智能方面發(fā)揮作用。

總的來(lái)說(shuō)，解決與在科學(xué)文章制作中使用人工智能相關(guān)的風(fēng)險(xiǎn)，將需要技術(shù)解決方案、監(jiān)管框架和公共教育的結(jié)合。

通過(guò)實(shí)施這些措施，我們可以確保人工智能在科學(xué)界的使用是負(fù)責(zé)任和有效的。研究人員和政策制定者必須仔細(xì)考慮在科學(xué)研究中使用人工智能的潛在危險(xiǎn)，并采取措施來(lái)減少這些風(fēng)險(xiǎn)。

參考資料：https://arxiv.org/abs/2212.08104

責(zé)任編輯：武曉燕來(lái)源：新智元