成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

AMD發(fā)布科研Agent,論文自動化評分趨近頂會NeurIPS水平!

發(fā)布于 2025-1-13 10:20
瀏覽
0收藏

科學發(fā)現(xiàn)漫長且成本高昂,為了加速科學發(fā)現(xiàn),降低研究成本,并提高研究質(zhì)量,芯片廠商AMD推出了Agent Laboratory,這是一個基于自主大型語言模型(LLM)的框架,能夠完成整個研究流程。

Agent Laboratory接受人類研究想法和一組筆記作為輸入,將其提供給一系列由LLM驅(qū)動的專門Agent組成的流程線,并產(chǎn)生研究報告代碼倉庫

AMD發(fā)布科研Agent,論文自動化評分趨近頂會NeurIPS水平!-AI.x社區(qū)

Agent Laboratory接受人類提供的研究想法,并通過三個階段——文獻綜述、實驗和報告撰寫——來產(chǎn)生全面的研究成果,包括代碼倉庫和研究報告,同時允許用戶在每個階段提供反饋和指導。邀請多位研究人員通過參與調(diào)查、提供人類反饋來指導研究過程,并評估最終論文:

  • o1-preview驅(qū)動的Agent Laboratory產(chǎn)生了最佳的研究成果;

AMD發(fā)布科研Agent,論文自動化評分趨近頂會NeurIPS水平!-AI.x社區(qū)

  • 生成的機器學習代碼能夠與現(xiàn)有方法相比達到最先進的性能;
  • 人類的參與,即在每個階段提供反饋,顯著提高了研究的整體質(zhì)量
  • 自動化評估,按頂會NeurIPS標準,論文(6.1/10)接近了頂會NeurIPS接受論文的平均得分(5.9/10)
  • 而人類評估論文得分只有3.8/10,和自動化評估之間出現(xiàn)了一定差距

AMD發(fā)布科研Agent,論文自動化評分趨近頂會NeurIPS水平!-AI.x社區(qū)

  • 協(xié)作模式(人類指導)下評估Agent Laboratory,評分由3.8提升到4.38(+0.58,NeurIPS接受論文的平均得分是5.9)。自選主題在實用性(+0.5)、繼續(xù)使用(+0.5)和滿意度(+0.25)方面普遍獲得了更高的評分。

AMD發(fā)布科研Agent,論文自動化評分趨近頂會NeurIPS水平!-AI.x社區(qū)

  • Agent Laboratory顯著降低了研究費用,與之前的自主研究方法相比,實現(xiàn)了84%的減少

AMD發(fā)布科研Agent,論文自動化評分趨近頂會NeurIPS水平!-AI.x社區(qū)

Agent Laboratory是如何工作的?

Agent Laboratory包含三個主要階段,系統(tǒng)地指導研究過程:

  • 文獻綜述
  • 實驗,
  • 報告撰寫

在每個階段,由LLM驅(qū)動的專門代理協(xié)作完成特定目標,整合外部工具,如arXiv、Hugging Face、Python和LaTeX,以優(yōu)化結果。這個結構化的工作流程從獨立收集和分析相關研究論文開始,通過協(xié)作規(guī)劃和數(shù)據(jù)準備,最終實現(xiàn)自動化實驗和全面報告生成。具體代理角色及其在這些階段的貢獻在論文中有詳細討論。模塊化設計確保了計算靈活性,適應不同的資源可用性,同時保持生成高質(zhì)量研究成果的效率。

Agent Laboratory工作流程

AMD發(fā)布科研Agent,論文自動化評分趨近頂會NeurIPS水平!-AI.x社區(qū)

解決ML問題

進行研究的第一步是構建解決ML問題的能力。Agent Laboratory通過mle-solver來實現(xiàn)這一點。這個工具作為一個通用的ML代碼求解器,將前一階段的研究方向作為文本輸入,并迭代改進研究代碼。為了實現(xiàn)這一點,一組頂級程序根據(jù)輸入(如任務指令、命令描述和提煉的知識)進行迭代改進,以根據(jù)評分函數(shù)提高實驗結果。通過兩個命令生成一系列更改:REPLACE(重寫所有代碼)和EDIT(修改特定行)。成功編譯的代碼根據(jù)評分更新頂級程序,而錯誤則提示最多三次修復嘗試,然后嘗試新代碼。代理會反思每一步,以優(yōu)化結果。

mle-solver工作流程概覽

AMD發(fā)布科研Agent,論文自動化評分趨近頂會NeurIPS水平!-AI.x社區(qū)


撰寫研究報告

第二步是根據(jù)實驗設計和結果生成研究報告。為此,引入了paper-solver,專注于報告生成。這個模塊作為結果和代碼到報告的生成器,將前一實驗階段的輸出和發(fā)現(xiàn)總結成人類可讀的學術論文。paper-solver綜合前一階段的研究,為研究人員提供清晰的成就總結。輸入包括研究計劃、實驗結果、衍生見解和文獻綜述,輸出格式適合會議提交的標準學術論文格式。

paper-solver的圖形概述

AMD發(fā)布科研Agent,論文自動化評分趨近頂會NeurIPS水平!-AI.x社區(qū)


https://github.com/SamuelSchmidgall/AgentLaboratory
https://agentlaboratory.github.io/
https://arxiv.org/pdf/2501.04227

本文轉載自??PaperAgent??

收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 精品国产欧美一区二区三区成人 | 婷婷久久久久 | 极情综合网 | 自拍第一页 | 欧美精品久久久久久久久老牛影院 | 欧美一区二区三区在线 | 久久精品亚洲精品国产欧美 | 真人一级毛片 | 色综合视频| 精品免费国产视频 | 欧美午夜视频 | 亚洲视频一区在线观看 | 成人久久18免费网站麻豆 | 99在线视频观看 | 久久久久久国产 | 久久久99精品免费观看 | 亚洲视频在线观看 | 99久久国产综合精品麻豆 | 91精品国产一区二区三区 | 国产原创在线观看 | 美日韩免费视频 | 日本a级大片 | 亚洲精品久久久久久久久久久久久 | 国产视频一区二区 | 99热精品国产 | 色天天综合 | 狠狠干综合视频 | www免费视频 | 色婷婷综合久久久中字幕精品久久 | 国产精品国产精品国产专区不卡 | av天天看 | 亚洲一区二区av | 成人综合视频在线 | 欧美国产一区二区 | 天天插天天操 | 欧美国产日韩在线观看成人 | 情侣av | 亚洲视频 欧美视频 | 免费一级黄色录像 | 亚洲国产成人精品女人久久久 | 观看毛片|