成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

AI Scientist爆火背后的技術(shù)詳解以及優(yōu)缺點(diǎn)分析 精華

發(fā)布于 2024-8-26 01:41
瀏覽
0收藏

今天分享一篇最近比較熱門的日本創(chuàng)業(yè)公司Sakana AI的一篇文章,標(biāo)題為《The AI Scientist: Towards Fully Automated Open-Ended Scientific Discovery》。文章提出了一種名為“AI Scientist”的框架,旨在實(shí)現(xiàn)端到端完全自動(dòng)化的科學(xué)發(fā)現(xiàn),完成從Idea構(gòu)建,實(shí)驗(yàn)跑取,文章撰寫的完全自動(dòng)化。驗(yàn)證了AI自動(dòng)化探索新問題,解決新問題,甚至撰寫Paper的可行性。同時(shí)還提出了一個(gè)能與人類評委水準(zhǔn)接近的Review Agent,能夠給出高水準(zhǔn)的評審意見。

總體來說,其還是一個(gè)多agent系統(tǒng),利用了reflection機(jī)制迭代優(yōu)化效果,同時(shí)也結(jié)合Semantic Scholar等工具驗(yàn)證創(chuàng)新性,利用Aider工具來更新代碼和Paper,來執(zhí)行相關(guān)實(shí)驗(yàn)。同時(shí)也要看到其只是搭了一個(gè)基礎(chǔ)的Baseline通道,如何提升Idea生成的深度以及多樣性,如何讓LLM能實(shí)現(xiàn)更復(fù)雜,更有挑戰(zhàn)性的Idea,如何降低Review Agent的False Positive Rate(FPR)都值得進(jìn)一步探索。

本文將對其背后的技術(shù),優(yōu)缺點(diǎn)進(jìn)行詳細(xì)的分析~

一、概述

1. Motivation

  • ? 盡管前沿模型已被用作人類科學(xué)家的輔助工具,如頭腦風(fēng)暴、編寫代碼或預(yù)測任務(wù),但它們?nèi)詢H完成了科學(xué)過程的一小部分。
  • ? 本文提出了第一個(gè)全面的框架,用于實(shí)現(xiàn)完全自動(dòng)化的科學(xué)發(fā)現(xiàn),使前沿大型語言模型能夠獨(dú)立進(jìn)行研究并傳達(dá)其發(fā)現(xiàn)。

2. Method

文章介紹了“AI科學(xué)家”框架,該框架包括三個(gè)主要階段:

1.想法生成:AI科學(xué)家首先“頭腦風(fēng)暴”出一系列新穎的研究方向,然后在此基礎(chǔ)上進(jìn)行創(chuàng)新性迭代優(yōu)化,最后篩選創(chuàng)新性較高的idea。

2.實(shí)驗(yàn)迭代:根據(jù)想法和模板,AI科學(xué)家首先執(zhí)行提出的實(shí)驗(yàn)plan,然后根據(jù)實(shí)驗(yàn)結(jié)果,迭代優(yōu)化實(shí)驗(yàn),最后更新plot代碼,可視化其結(jié)果以供后續(xù)撰寫,代碼通過AIder工具來更新。

3.論文撰寫:AI科學(xué)家使用LaTeX撰寫完整的科學(xué)論文,描述其進(jìn)展。

AI Scientist爆火背后的技術(shù)詳解以及優(yōu)缺點(diǎn)分析-AI.x社區(qū)


? 輸入:總體就兩個(gè)輸入,Baseline Code,以及論文Latex模板,加上init paper的一些信息。

? Baseline code:a starting code template that reproduces a lightweight baseline training run from a popular model or benchmark. For example, this could be code thattrains a small transformeron the works of Shakespeare (Karpathy, 2022), a classic proof-of-concept training run from natural language processing that completes within a few minutes

? Latex模版:LaTeX folder that containsstyle files and section headers, along with simple plotting code.

? 輸出:完整的Paper

1 Idea generate過程

AI Scientist爆火背后的技術(shù)詳解以及優(yōu)缺點(diǎn)分析-AI.x社區(qū)


?輸入:code template

?輸出:some ideas

?代碼:??https://github.com/SakanaAI/AI-Scientist/blob/main/ai_scientist/generate_ideas.py??

? generate_ideas:idea生成

? generate_next_idea:在seed的基礎(chǔ)上繼續(xù)生成新的idea

? search_for_papers:調(diào)用api search paper

? check_idea_novelty:檢查并優(yōu)化創(chuàng)新性

1.1 Idea Generation Prompt

AI Scientist爆火背后的技術(shù)詳解以及優(yōu)缺點(diǎn)分析-AI.x社區(qū)


?優(yōu)點(diǎn):對diversity做了優(yōu)化和限制,引入了COT機(jī)制。

?缺點(diǎn):idea全靠LLM內(nèi)部信息想出來,思考的知識(shí)有限,更新也不及時(shí),不太能及時(shí)follow最新知識(shí),不過內(nèi)部知識(shí)能做到什么粒度其實(shí)還不太確定,另外內(nèi)部知識(shí)其實(shí)是缺乏新知識(shí)的,這對科學(xué)研究非常致命。

1.2 Idea Novelty Prompt

AI Scientist爆火背后的技術(shù)詳解以及優(yōu)缺點(diǎn)分析-AI.x社區(qū)

 

AI Scientist爆火背后的技術(shù)詳解以及優(yōu)缺點(diǎn)分析-AI.x社區(qū)


?特點(diǎn):用于搜索num_rounds相關(guān)的paper來檢查優(yōu)化創(chuàng)新性,如果每次沒search到相關(guān)內(nèi)容,還知道去更新Query重新search,最多探索num_rounds,思路看起來不錯(cuò)。

? 缺點(diǎn):還是創(chuàng)新全部源于LLM內(nèi)部知識(shí)。

2 Experiments過程

AI Scientist爆火背后的技術(shù)詳解以及優(yōu)缺點(diǎn)分析-AI.x社區(qū)


? 輸入:idea + template

? 輸出:experiment result + experiment figures

? 實(shí)現(xiàn)方式:通過Aider更新代碼,然后執(zhí)行命令行跑取模型結(jié)果。

? Aider平臺(tái),可以通過命令更新代碼:https://github.com/paul-gauthier/aider?

AI Scientist爆火背后的技術(shù)詳解以及優(yōu)缺點(diǎn)分析-AI.x社區(qū)

2.1 Experiment Running Aider Prompt

AI Scientist爆火背后的技術(shù)詳解以及優(yōu)缺點(diǎn)分析-AI.x社區(qū)


? 特點(diǎn):先也會(huì)有一個(gè)plan,然后分別實(shí)現(xiàn)experiments

? 缺點(diǎn):沒具體講如何實(shí)現(xiàn)Experiment的,Aider看著是個(gè)平臺(tái),可能可以直接用,但是改代碼很容易出錯(cuò),穩(wěn)定性存疑。

2.2 Plotting Aider Prompt

AI Scientist爆火背后的技術(shù)詳解以及優(yōu)缺點(diǎn)分析-AI.x社區(qū)


? 特點(diǎn):生成plot,還有description,后續(xù)用于添加到論文中。

3 Paper Writing流程

AI Scientist爆火背后的技術(shù)詳解以及優(yōu)缺點(diǎn)分析-AI.x社區(qū)


? 輸入:Latex模版 + Experiments recorded notes + plots,Latex模板圖如下,也是用Aider工具來修改?

AI Scientist爆火背后的技術(shù)詳解以及優(yōu)缺點(diǎn)分析-AI.x社區(qū)

? 輸出:paper

3.1 Paper Writing Aider Prompt

AI Scientist爆火背后的技術(shù)詳解以及優(yōu)缺點(diǎn)分析-AI.x社區(qū)


? 特點(diǎn):提供每個(gè)section的建議+latex的template+plan

?缺點(diǎn):Aider是個(gè)啥,感覺writing比較有用的樣子。

4 Reviewer Agent流程

AI Scientist爆火背后的技術(shù)詳解以及優(yōu)缺點(diǎn)分析-AI.x社區(qū)


? 輸入:PDF manuscript

? 輸出:Paper Review Result

? 優(yōu)點(diǎn):參考了neurips ReviewerGuidelines,同時(shí)引入reflection,few-shot來提升效果。

4.1 Paper Review Prompt

AI Scientist爆火背后的技術(shù)詳解以及優(yōu)缺點(diǎn)分析-AI.x社區(qū)


? 特點(diǎn):引入neurips guideline和few_shot_example。

4.2 Paper Review Reflection Prompt

AI Scientist爆火背后的技術(shù)詳解以及優(yōu)缺點(diǎn)分析-AI.x社區(qū)


? 特點(diǎn):經(jīng)過多輪迭代 + COT思考

4.3 Paper Review Ensembling Prompt

AI Scientist爆火背后的技術(shù)詳解以及優(yōu)缺點(diǎn)分析-AI.x社區(qū)


? 特點(diǎn):還有個(gè)匯總的,優(yōu)點(diǎn)self-consistant的感覺

5 反思和迭代次數(shù)

AI Scientist爆火背后的技術(shù)詳解以及優(yōu)缺點(diǎn)分析-AI.x社區(qū)


3. Coclusion

文章搭建了一個(gè)AI Scientist,通過三個(gè)子任務(wù)驗(yàn)證了其可行性:擴(kuò)散模型、Transformer和Groking。并且每種想法的實(shí)現(xiàn)和開發(fā)成本不到15美元。表明了該框架在Research研究和顯著加速科學(xué)進(jìn)步方面的潛力。

? 搭建了一個(gè)完整的科研鏈路Agent:idea -> Experiments -> Paper,還真work了。

? 附帶送了一個(gè)接近人類水平的Paper Review Agent,效果也還不錯(cuò)。

4. Limitation

? 生成的Idea經(jīng)常非常相似,甚至不同模型,不同run都會(huì)有很類似的idea。

? Aider實(shí)現(xiàn)ideas有困難,GPT-4o寫Latext常不能編譯,有些idea實(shí)現(xiàn)challenging比較大。

? plot的圖像也可能有問題,而且還不止是vision,可能看不出效果。

? Latext的cite和reference可能有問題。

? LLM數(shù)學(xué)能力不太好,對metric不敏感。

? 幻覺。

二、詳細(xì)內(nèi)容

1 LLM Paper Review水平在ICLR2022數(shù)據(jù)集上已經(jīng)接近人類水平


? 特點(diǎn):精度和人類比較接近(balanced 0.65 vs 0.66),F(xiàn)alse Negative Rate(FNR)更低,F(xiàn)alse Positive Rate(FPR)偏高,說明也有打分偏高的情況。

2 Reflexion和one-shot能提升Reviewing效果


? 結(jié)論:從0.66提升到0.70,看著還不錯(cuò)。Ensemble后精度沒有提升,但是variance有降低。

3 Diffusion Modeling優(yōu)化效果


? **結(jié)論1:Sonnet3.5看著比GPT-4o好很多啊,而且還更便宜,完成Paper率居然接近80%**,還是很厲害。

?結(jié)論2:DeepSeek Coder是性價(jià)比之王。

?其他:DIffusion Modeling感覺都是比較老的模型了,利用LLM生成的idea可能都是訓(xùn)練過的了,可能并不能代表真正的創(chuàng)新。

4 Language Modeling優(yōu)化效果

?結(jié)論: 這次完成率只有40%了,這個(gè)差異好大,跟猜測的一樣,coding可能非常不穩(wěn)定,另外DeepSeek Coder確實(shí)厲害。

5 Grokking優(yōu)化效果

?結(jié)論:不同paper,不同LLM基座的Noval Ideas居然都超過90%,但是Experiments的完成率差異非常大。?

本文轉(zhuǎn)載自 ??NLP PaperWeekly??,作者: NLP PaperWeekly

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
主站蜘蛛池模板: 亚洲品质自拍视频网站 | 91网站视频在线观看 | 日本三级电影在线免费观看 | 欧美精品福利 | 久久另类视频 | 国产免费观看久久黄av片涩av | 久久精品无码一区二区三区 | 91免费入口 | 亚洲电影免费 | 亚洲在线 | 亚洲电影第三页 | 夜夜夜夜夜夜曰天天天 | 午夜视频一区 | 97精品视频在线观看 | 婷婷久久精品一区二区 | 日本超碰 | 亚洲一区二区久久 | 国产精品久久久久久久毛片 | 8x国产精品视频一区二区 | 操操日| 做a视频| 国产精品一级 | 黄色成人亚洲 | 亚洲日韩中文字幕一区 | 精品日韩在线观看 | 亚洲一区视频 | 亚洲狠狠| 91av视频| 国产九九精品视频 | av不卡一区 | 91久久国产精品 | 一级毛片中国 | 6996成人影院网在线播放 | 青青草免费在线视频 | 日本午夜免费福利视频 | 黄色一级电影在线观看 | 久久一本 | 91精品国产乱码久久久久久久久 | 日日久| 91夜夜夜| 久久久久成人精品亚洲国产 |