成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

ScholarCopilot:奇怪的文章,好像 AI 寫論文又進一步了

發布于 2025-5-8 00:18
瀏覽
0收藏

簡介

學術寫作對人工智能系統提出了獨特的挑戰,尤其是在準確且在上下文中適當整合引文方面。雖然大型語言模型(LLM)可以生成流暢的學術文本,但它們經常遭受引文幻覺——捏造或錯誤歸屬參考文獻——這嚴重限制了它們在學術環境中的用途。

論文“ScholarCopilot:訓練大型語言模型以使用精確引文進行學術寫作”介紹了一種旨在解決這些局限性的新型框架。ScholarCopilot 由滑鐵盧大學、卡內基梅隆大學和 Vector 研究所的研究人員開發,重新構想了 AI 系統在學術寫作中處理引文過程的方式。

ScholarCopilot:奇怪的文章,好像 AI 寫論文又進一步了-AI.x社區

傳統 RAG 與 ScholarCopilot 的比較圖 1:傳統檢索增強生成(左)與 ScholarCopilot 的迭代方法(右)之間的比較,顯示了生成質量、檢索準確性和人工評估的性能指標。

與使用順序“檢索然后生成”管道的傳統檢索增強生成 (RAG) 系統不同,ScholarCopilot 實施了一個統一的迭代框架,該框架根據不斷發展的生成上下文動態確定何時需要檢索。這種方法通過將文本生成與精確的引文檢索無縫集成,代表了 AI 輔助學術寫作的重大進步。

理解學術寫作中的挑戰

學術寫作從根本上不同于一般文本生成,因為它對事實準確性、適當歸屬和基于證據的論證有嚴格的要求。這些品質對當前的人工智能系統提出了重大挑戰:

1.引文幻覺:現有的 LLM 經常生成聽起來合理但捏造的引文,這使得它們在學術工作中不可靠。

2.上下文敏感性:適當的引文位置需要理解不斷發展的敘述上下文,并確定在哪里需要支持證據。

3.檢索-生成錯位:傳統的 RAG 系統使用固定的檢索階段,然后進行生成,這無法根據開發中的內容調整檢索決策。

4.用戶控制:學術寫作具有高度的領域特異性,作者需要根據他們的專業知識和領域知識來指導引文過程。

這些挑戰突出了當前方法的局限性,這些方法通常將引文視為后處理步驟或預定的檢索階段,而不是寫作過程的組成部分。

ScholarCopilot 框架

ScholarCopilot 通過其代理 RAG 框架,為 AI 輔助學術寫作引入了一種根本不同的方法。其關鍵創新在于其動態的、上下文感知的引文機制:

1.動態引文檢測:

-在文本生成過程中,模型確定何時需要引文
 - 生成特殊的 [RET] 標記以指示引文機會

2. 上下文感知的引文檢索:

? 在生成 [RET] 令牌后,生成暫停

? 令牌之前的上下文被編碼為查詢

? 從學術數據庫中檢索相關引文

3. 無縫集成:

? 檢索到的引文信息被整合到文本中

? 生成繼續,引文格式正確

? 隨著新的引文機會出現,該過程重復進行

這種統一的框架消除了檢索和生成階段之間的分離,從而實現了更自然和準確的引文過程,該過程反映了人類研究人員的工作方式。 如圖2所示,ScholarCopilot動態地交錯生成和檢索,從而創建了更流暢的寫作過程。

ScholarCopilot:奇怪的文章,好像 AI 寫論文又進一步了-AI.x社區

工作流程對比圖2:詳細的工作流程比較,顯示了傳統的RAG(左)如何分離檢索和生成,而ScholarCopilot(右)如何動態地將它們與可選的用戶細化集成在一起。

架構與實現

ScholarCopilot的架構以一個統一的模型為中心,該模型處理文本生成和引文檢索:

1.基礎語言模型:該系統建立在一個70億參數的LLM之上,該LLM專門為學術寫作任務進行了微調。

2.檢索令牌生成:該模型學習在上下文中適當的位置生成特殊的檢索令牌([RET])。

3.密集向量表示:導致檢索令牌的上下文和引文文檔都被編碼為密集向量表示,以進行相似性匹配。

4.聯合優化:使用下一個令牌預測和對比學習目標的組合,對模型進行文本生成質量和檢索準確性的聯合優化。

這種方法的數學基礎依賴于將上下文和文檔編碼到共享的嵌入空間中,其中相關匹配具有高相似度:

sim(q,d)=Eq?Ed∣∣Eq∣∣?∣∣Ed∣∣sim(q,d)=∣∣Eq∣∣?∣∣Ed∣∣Eq?Ed其中,EqEq 表示編碼的查詢([RET] 之前的上下文),EdEd 表示編碼的引文文檔。 這允許跨大型引文數據庫進行高效的相似性搜索。

訓練數據準備

ScholarCopilot的開發需要大量的數據處理,以創建高質量的訓練數據集:

ScholarCopilot:奇怪的文章,好像 AI 寫論文又進一步了-AI.x社區

數據準備流程圖3:ScholarCopilot的數據準備流程,顯示了從arXiv論文到結構化訓練數據的轉換。

數據集創建過程包括:

1.來源收集:從arXiv下載了670,000篇計算機科學論文,并提取了它們的LaTeX源文件。

2.結構化解析:解析源文件以識別章節結構、文本內容和引文標記。

3.引文提取:從論文中提取了1900萬個書目條目。

4.參考文獻匹配:引文與其完整的參考文獻相匹配,從而產生了1000萬個匹配的引文。

5.訓練集創建:最終的訓練數據集包括500,000篇論文,其中包含它們的文本、引文和完整的參考文獻信息。

這個全面的數據集使ScholarCopilot能夠學習學術寫作的模式,包括通常放置引文的位置以及它們與周圍文本的關系。

用于增強引文檢索的對比學習

ScholarCopilot的一項關鍵技術創新是它使用對比學習來優化檢索令牌表示:

ScholarCopilot:奇怪的文章,好像 AI 寫論文又進一步了-AI.x社區

對比學習框架圖4:ScholarCopilot的對比學習框架,用于優化查詢上下文和相關文檔之間的相似性。

對比學習方法:

1. 將檢索標記之前的內容視為查詢

2. 將實際引用的文檔視為正例

3. 將批次中的其他文檔視為負例

4. 優化查詢和正例之間更高的相似度,同時降低與負例的相似度

對比損失函數定義為:

Lcnotallow=?log?exp?(sim(q,d+)/τ)∑d∈{d+,d1?,...,dn?}exp?(sim(q,d)/τ)Lcnotallow=?log∑d∈{d+,d1?,...,dn?}exp(sim(q,d)/τ)exp(sim(q,d+)/τ)其中 ττ 是一個溫度參數,用于控制分布的銳度。這種方法通過教導模型生成具有上下文意義表示的檢索標記,從而顯著提高檢索準確性。

評估與結果

ScholarCopilot 在檢索準確性和生成質量方面都進行了評估,結果令人印象深刻:

ScholarCopilot:奇怪的文章,好像 AI 寫論文又進一步了-AI.x社區

檢索準確率結果圖 5:檢索準確率比較,顯示了 ScholarCopilot 在不同召回率閾值下相對于基線方法的性能。

檢索性能:

? Top-1 檢索準確率:40.1%(相比之下,E5-Mistral-7B-Instruct 為 15.0%,BM25 為 9.8%)

? Recall@10:64.8%(是同類模型性能的兩倍多)

生成質量:

? 總體生成得分:16.2/25(超過了參數多 10 倍的模型)

? 在五個維度上的評估:相關性、連貫性、學術嚴謹性、完整性和創新性

這些結果表明,ScholarCopilot 不僅檢索到更準確的引文,而且保持了高質量的文本生成。考慮到它優于更大的模型,例如 Qwen-2.5-72B-Instruct (15.8/25),盡管參數明顯更少,但該系統的性能尤其令人印象深刻。

人工評估和用戶體驗

除了自動化指標外,ScholarCopilot 還通過與學術研究人員進行的用戶研究進行了評估:

ScholarCopilot:奇怪的文章,好像 AI 寫論文又進一步了-AI.x社區

人工評估結果圖 6:人工評估結果,比較了 ScholarCopilot 和 ChatGPT 在多個維度上的表現。

人工評估顯示:

? 100% 的參與者認為 ScholarCopilot 的引文質量比 ChatGPT“更好”或“好得多”

? 70% 的人認為 ScholarCopilot 的整體有用性“更好”或“好得多”

? 60% 的人發現易用性有所提高

? 70% 的人報告了更好的時間效率

參與者使用 ScholarCopilot 完成了寫作任務,并使用下圖所示的表格評估了其性能:

ScholarCopilot:奇怪的文章,好像 AI 寫論文又進一步了-AI.x社區

用戶研究表格 1

ScholarCopilot:奇怪的文章,好像 AI 寫論文又進一步了-AI.x社區

用戶研究表格 2

ScholarCopilot:奇怪的文章,好像 AI 寫論文又進一步了-AI.x社區

示例輸出表格

這些結果證實,ScholarCopilot 為學術寫作者提供了切實的益處,尤其是在引文準確性和管理的關鍵領域。

影響和未來方向

ScholarCopilot 代表了為學術寫作提供可靠的 AI 輔助的重要一步,具有以下幾個重要影響:

1.提高研究效率:通過在保持準確性的同時自動化引文過程,ScholarCopilot 可以顯著減少研究人員在參考文獻管理上花費的時間。

2.學術寫作的民主化:該系統可以通過協助研究人員完成正確引用的技術方面來幫助降低學術出版的門檻。

3.RAG 技術的進步:檢索和生成的統一迭代方法可能會影響其他知識密集型領域未來的發展。

4.增強用戶控制:可選的用戶改進階段允許領域專家指導引文過程,從而保持人類判斷在學術寫作中的關鍵作用。

未來研究方向可能包括:

? 將覆蓋范圍擴展到計算機科學以外的其他學科

? 納入更多樣化的引用樣式和格式要求

? 開發區分主要來源和次要來源的機制

? 增強系統識別引文覆蓋范圍差距的能力

結論

ScholarCopilot 通過重新構想引用和文本生成如何集成,引入了人工智能輔助學術寫作的范式轉變。通過開發一個統一的框架,該框架動態地確定何時需要引用,并根據不斷變化的上下文檢索相關參考文獻,該系統實現了比傳統方法更高的準確性。

在自動評估和人工研究中的出色表現證明了這種方法對學術研究人員的實際價值。 ScholarCopilot 解決了引文幻覺這一關鍵挑戰,同時保持了高質量的文本生成,甚至優于參數更多的模型。

隨著人工智能越來越多地支持知識工作,像 ScholarCopilot 這樣尊重學術寫作的嚴格標準,同時提高生產力的方法將變得越來越有價值。通過專注于學術寫作的特定需求,而不是一般的文本生成,ScholarCopilot 代表了在真正有用的人工智能研究輔助方面邁出的重要一步。

本文轉載自??芝士AI吃魚??,作者:芝士AI吃魚

已于2025-5-8 11:45:44修改
收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 色站综合| 黄色大片在线 | 好姑娘影视在线观看高清 | 成人亚洲精品久久久久软件 | 五月婷婷丁香 | 蜜臀网站 | 亚洲国产aⅴ成人精品无吗 综合国产在线 | 国产精品福利网站 | 免费欧美视频 | 一区二区三区国产精品 | 欧美日韩久久 | 欧美日本高清 | 久久亚洲一区二区三区四区 | 国产精品久久久久久久久免费高清 | 国产精品资源在线观看 | 成人国产精品久久久 | 国产精品色一区二区三区 | 最新国产在线 | 午夜免费视频 | 天天草夜夜骑 | 国产在线精品一区二区三区 | 妖精视频一区二区三区 | 日韩欧美在线一区 | 国产女人与拘做受视频 | 97超碰免费 | www.国产一区 | 中文字幕一区二区在线观看 | 欧美大片一区 | www.99re| 国产精品区二区三区日本 | 久久久毛片 | 国产欧美日韩一区 | 成人欧美一区二区三区在线观看 | 成人午夜网站 | 久草电影网 | 国产激情亚洲 | 日韩精品视频一区二区三区 | 久久综合888 | 国产精品久久欧美久久一区 | 亚洲午夜电影 | 一区视频在线 |