用ChatGPT寫(xiě)論文靠譜嗎?有學(xué)者試了一下:漏洞百出,但是個(gè)注水的「好」工具
?ChatGPT以其強(qiáng)大的文本創(chuàng)作能力,直接問(wèn)鼎地表最強(qiáng)問(wèn)答模型。
但強(qiáng)大的AI也會(huì)帶來(lái)一些負(fù)面影響,比如在問(wèn)答社區(qū)一本正經(jīng)地寫(xiě)出錯(cuò)誤答案,幫助學(xué)生寫(xiě)論文等。
最近arXiv上的一篇論文引發(fā)了業(yè)界的關(guān)注,來(lái)自西班牙圣地亞哥-德孔波斯特拉大學(xué)的研究人員在文中以「人工智能在藥物發(fā)現(xiàn)中的挑戰(zhàn)、機(jī)遇和策略」,這篇論文的特別之處在于作者使用ChatGPT輔助論文寫(xiě)作。
論文鏈接:https://arxiv.org/abs/2212.08104
作者團(tuán)隊(duì)在摘要中的最后一段「來(lái)自人類(lèi)作者的說(shuō)明」(Note from human-authors)中表示,創(chuàng)建這篇論文是為了測(cè)試 ChatGPT (一個(gè)基于 GPT-3.5語(yǔ)言模型的聊天機(jī)器人)的寫(xiě)作能力是否能幫助人類(lèi)作者撰寫(xiě)評(píng)論文章。
作者設(shè)計(jì)了一段指令作為文本生成的初始提示,然后對(duì)自動(dòng)生成的內(nèi)容進(jìn)行評(píng)估。再進(jìn)行徹底的審查之后,人類(lèi)作者實(shí)際上重寫(xiě)了手稿,努力在原始proposal和科學(xué)標(biāo)準(zhǔn)之間保持平衡,文章的最后也討論了使用人工智能實(shí)現(xiàn)這一目標(biāo)的優(yōu)勢(shì)與局限性。
但是還有一個(gè)問(wèn)題,作者列表里怎么沒(méi)有ChatGPT?(手動(dòng)狗頭)
論文寫(xiě)作方法
本文是在ChatGPT的輔助下生成的,ChatGPT是2022年11月30日發(fā)布的一個(gè)自然語(yǔ)言處理系統(tǒng),由OpenAI用大量文本語(yǔ)料庫(kù)進(jìn)行訓(xùn)練,能夠根據(jù)提供給它的輸入生成類(lèi)似人類(lèi)寫(xiě)作的文本。
就本文而言,人類(lèi)作者提供的輸入包括論文的主題(人工智能在藥物發(fā)現(xiàn)中的應(yīng)用)、需要考慮的章節(jié)數(shù)量,以及每個(gè)章節(jié)的具體提示和說(shuō)明。
ChatGPT生成的文本需要經(jīng)過(guò)人工編輯后才能作為最終的定稿,以糾正和豐富內(nèi)容,避免重復(fù)和不一致等問(wèn)題;并且人類(lèi)也需要對(duì)人工智能建議的所有參考文獻(xiàn)進(jìn)行了修改。
這項(xiàng)工作的最終版本是人類(lèi)作者在人工智能的協(xié)助下進(jìn)行反復(fù)修改的結(jié)果,直接從ChatGPT獲得的初步文本與當(dāng)前版本手稿之間的總相似度為:完全相同的4.3%,微小的變化13.3%,相關(guān)的意義16.3%。直接從ChatGPT獲得的初步文本中,正確的參考文獻(xiàn)比例僅為6%。
由ChatGPT生成的原始版本,以及用于創(chuàng)建該版本的輸入信息都涵蓋進(jìn)來(lái)作為Supporting Information
論文摘要中的插圖由DALL-E生成。
論文內(nèi)容
論文總共包括10個(gè)section和56個(gè)參考文獻(xiàn),其中section1-9都只包含1-2個(gè)段落,主要描述論文主題「「人工智能在藥物發(fā)現(xiàn)中的挑戰(zhàn)、機(jī)遇和策略」」相關(guān)的內(nèi)容;第十個(gè)section主要討論「人類(lèi)作者對(duì)基于ChatGPT和AI的科學(xué)寫(xiě)作工具的專(zhuān)家意見(jiàn)」;文章中只有摘要部分包含一張插圖。
摘要
人工智能有可能徹底改變藥物發(fā)現(xiàn)過(guò)程,提供更好的效率、準(zhǔn)確性和速度。然而,AI的成功應(yīng)用取決于高質(zhì)量數(shù)據(jù)的可用性、對(duì)道德問(wèn)題的處理以及對(duì)基于人工智能方法的局限性的認(rèn)識(shí)。
這篇文章回顧了人工智能在這個(gè)領(lǐng)域的好處、挑戰(zhàn)和缺點(diǎn),并提出了克服目前障礙的可能戰(zhàn)略和方法。
文章中還討論了數(shù)據(jù)增強(qiáng)的使用、可解釋的人工智能、人工智能與傳統(tǒng)實(shí)驗(yàn)方法的整合,以及人工智能在醫(yī)藥研究中的潛在優(yōu)勢(shì)。
總的來(lái)說(shuō),這篇評(píng)論強(qiáng)調(diào)了人工智能在藥物發(fā)現(xiàn)中的潛力,并對(duì)實(shí)現(xiàn)其在該領(lǐng)域的潛力所面臨的挑戰(zhàn)和機(jī)遇進(jìn)行了深入探討。
人類(lèi)作者對(duì)基于ChatGPT和AI的科學(xué)寫(xiě)作工具的專(zhuān)家意見(jiàn)
ChatGPT是一個(gè)基于GPT-3.5語(yǔ)言模型的聊天機(jī)器人,它的設(shè)計(jì)目標(biāo)并非是撰寫(xiě)科學(xué)論文的助手,但它與人類(lèi)進(jìn)行連貫的對(duì)話并就廣泛的主題提供新信息的能力,以及它糾正甚至生成計(jì)算代碼的能力,都讓科學(xué)界感到驚訝。
因此,我們決定測(cè)試它的潛力,為編寫(xiě)關(guān)于人工智能算法在藥物發(fā)現(xiàn)中的作用的簡(jiǎn)短評(píng)論做出貢獻(xiàn)。
作為撰寫(xiě)科學(xué)論文的助手,ChatGPT有幾個(gè)優(yōu)點(diǎn),包括快速生成和優(yōu)化文本的能力,以及幫助用戶(hù)完成幾個(gè)任務(wù),包括組織信息,甚至在某些情況下連接思想。
然而,這個(gè)工具絕不是生成新內(nèi)容的理想工具。
輸入instructions后,還需要人類(lèi)對(duì)人工智能生成的文本進(jìn)行修改,而且是大篇幅的編輯和修正,包括替換幾乎所有的參考文獻(xiàn),因?yàn)镃hatGPT提供的參考文獻(xiàn)明顯不正確。
這也是ChatGPT目前存在的一個(gè)大問(wèn)題,它與其他計(jì)算工具(如搜索引擎)相比有一個(gè)關(guān)鍵的區(qū)別,后者主要是為所需的信息提供可靠的參考。
而采用基于人工智能的工具進(jìn)行寫(xiě)作輔助還存在另一個(gè)重要的問(wèn)題:它是在2021年訓(xùn)練的,所以它并不包括最新信息。
這次寫(xiě)作實(shí)驗(yàn)提供的結(jié)果就是:我們可以說(shuō)ChatGPT不是一個(gè)有用的工具,在沒(méi)有強(qiáng)大的人類(lèi)干預(yù)的情況下無(wú)法編寫(xiě)可靠的科學(xué)文本。
ChatGPT缺乏準(zhǔn)確和充分傳達(dá)復(fù)雜科學(xué)概念和信息所需的知識(shí)和專(zhuān)長(zhǎng)。
此外,ChatGPT使用的語(yǔ)言和風(fēng)格可能不適合學(xué)術(shù)寫(xiě)作,為了生成高質(zhì)量的科學(xué)文本,人類(lèi)的輸入和審查是必不可少的。
這種人工智能還不能用于生產(chǎn)科學(xué)文章的主要原因之一是它缺乏評(píng)估處理信息真實(shí)性和可靠性的能力,因此,由ChatGPT生成的科學(xué)文本肯定包含錯(cuò)誤或誤導(dǎo)性信息。
同樣需要注意的是,審稿人可能會(huì)發(fā)現(xiàn)區(qū)分由人類(lèi)或這個(gè)人工智能寫(xiě)的文章并非易事。
這使得審查過(guò)程必須徹底,以防止虛假或誤導(dǎo)性信息的發(fā)表。
一個(gè)真正的風(fēng)險(xiǎn)是,掠奪性期刊(predatory journals)可能利用科學(xué)文章的快速生產(chǎn)來(lái)產(chǎn)生大量的低質(zhì)量?jī)?nèi)容,這些期刊往往受利益驅(qū)使,而不是致力于科學(xué)進(jìn)步,它們可能利用人工智能快速生產(chǎn)文章,讓不合格的研究充斥市場(chǎng),破壞科學(xué)界的公信力。
最大的危險(xiǎn)之一是科學(xué)文章中虛假信息的潛在擴(kuò)散,這可能導(dǎo)致科學(xué)事業(yè)本身的貶值,失去對(duì)科學(xué)研究的準(zhǔn)確性和完整性的信任,會(huì)對(duì)科學(xué)的進(jìn)步產(chǎn)生不利影響。
有幾種可能的解決方案來(lái)減輕與使用人工智能制作科學(xué)文章有關(guān)的風(fēng)險(xiǎn)。
一個(gè)解決方案是開(kāi)發(fā)專(zhuān)門(mén)用于生產(chǎn)科學(xué)文章的人工智能算法。這些算法可以在高質(zhì)量、經(jīng)同行評(píng)議的研究的大型數(shù)據(jù)集上進(jìn)行訓(xùn)練,這將有助于確保其生成的信息的真實(shí)性。
此外,這些算法可以被編程為標(biāo)記潛在的問(wèn)題信息,如引用不可靠的來(lái)源,這將提醒研究人員需要進(jìn)一步審查和核實(shí)。
另一種方法是開(kāi)發(fā)能夠更好地評(píng)估其處理的信息的真實(shí)性和可靠性的人工智能系統(tǒng)。這可能涉及在高質(zhì)量科學(xué)文章的大型數(shù)據(jù)集上訓(xùn)練人工智能,以及使用交叉驗(yàn)證和同行評(píng)審等技術(shù),以確保人工智能產(chǎn)生準(zhǔn)確和值得信賴(lài)的結(jié)果。
另一個(gè)可能的解決方案是為人工智能在科學(xué)研究中的應(yīng)用制定更嚴(yán)格的準(zhǔn)則和法規(guī),比如包括要求研究人員披露他們?cè)谥谱魑恼聲r(shí)使用了人工智能,并實(shí)施審查程序以確保人工智能生成的內(nèi)容符合某些質(zhì)量和準(zhǔn)確性標(biāo)準(zhǔn)。
此外,還可以包括要求研究人員在發(fā)表前徹底審查和核實(shí)人工智能生成的任何信息的準(zhǔn)確性,以及對(duì)那些未能這樣做的人的懲罰,教育公眾了解人工智能的局限性和依靠人工智能進(jìn)行科學(xué)研究的潛在危險(xiǎn)也可能是有用的,可以幫助防止錯(cuò)誤信息的傳播,確保公眾能夠更好地區(qū)分可靠和不可靠的科學(xué)信息來(lái)源。
資助機(jī)構(gòu)和學(xué)術(shù)機(jī)構(gòu)可以通過(guò)提供培訓(xùn)和資源,幫助研究人員了解該技術(shù)的局限性,在促進(jìn)科學(xué)研究中負(fù)責(zé)任地使用人工智能方面發(fā)揮作用。
總的來(lái)說(shuō),解決與在科學(xué)文章制作中使用人工智能相關(guān)的風(fēng)險(xiǎn),將需要技術(shù)解決方案、監(jiān)管框架和公共教育的結(jié)合。
通過(guò)實(shí)施這些措施,我們可以確保人工智能在科學(xué)界的使用是負(fù)責(zé)任和有效的。研究人員和政策制定者必須仔細(xì)考慮在科學(xué)研究中使用人工智能的潛在危險(xiǎn),并采取措施來(lái)減少這些風(fēng)險(xiǎn)。
在人工智能能夠被信任以產(chǎn)生可靠和準(zhǔn)確的信息之前,它在科學(xué)界的使用應(yīng)該是謹(jǐn)慎的,必須仔細(xì)評(píng)估人工智能工具提供的信息,并使用可靠的來(lái)源進(jìn)行驗(yàn)證。
參考資料:https://arxiv.org/abs/2212.08104