成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

arnoldzhw
LV.3
這個(gè)用戶很懶,還沒(méi)有個(gè)人簡(jiǎn)介
聲望 354
關(guān)注 0
粉絲 0
私信
主帖 41
回帖
今天分享一篇來(lái)自NVIDIA的研究論文,標(biāo)題為《ProRL:ProlongedReinforcementLearningExpandsReasoningBoundariesinLargeLanguageModels》(ProRL:長(zhǎng)時(shí)間強(qiáng)化學(xué)習(xí)拓展大型語(yǔ)言模型的推理邊界)。這篇文章探討了強(qiáng)化學(xué)習(xí)(RL)是否真正能拓展LLM推理上限?還是僅僅優(yōu)化了其基礎(chǔ)模型中已有的高獎(jiǎng)勵(lì)輸出的采樣效率,以及持續(xù)擴(kuò)展RL計(jì)算是否能可靠地提高推理性能。作者通過(guò)引入ProRL(ProlongedReinforcementLearning)訓(xùn)練方法,證...
7天前 880瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
今天分享一篇上海人工智能實(shí)驗(yàn)室的文章,標(biāo)題為DOLPHIN:MovingTowardsClosedloopAutoresearchthroughThinking,Practice,andFeedback(DOLPHIN:通過(guò)思考、實(shí)踐和反饋邁向閉環(huán)自動(dòng)化研究)。這篇文章介紹了一個(gè)名為DOLPHIN的閉環(huán)、LLM驅(qū)動(dòng)的框架,旨在提升科學(xué)研究的自動(dòng)化水平。該框架模擬人類研究過(guò)程,通過(guò)迭代循環(huán)進(jìn)行思考(想法產(chǎn)生)、實(shí)踐(實(shí)驗(yàn)驗(yàn)證)和反饋(結(jié)果分析)。DOLPHIN的方法主要包括三個(gè)關(guān)鍵階段:1)想法產(chǎn)生:...
2025-06-13 06:42:33 783瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
今天分享一篇來(lái)自HarvardUniversity和KempnerInstitute的文章,標(biāo)題為EchoChamber:RLPosttrainingAmplifiesBehaviorsLearnedinPretraining(RL后訓(xùn)練放大預(yù)訓(xùn)練中學(xué)到的行為)。這篇文章旨在系統(tǒng)性地研究強(qiáng)化學(xué)習(xí)(RL)微調(diào)對(duì)語(yǔ)言模型行為的影響,特別是其與預(yù)訓(xùn)練數(shù)據(jù)組成、超參數(shù)和模型規(guī)模的相互作用。該研究通過(guò)從頭開(kāi)始訓(xùn)練模型,并使用完全公開(kāi)的數(shù)據(jù)集混合物進(jìn)行預(yù)訓(xùn)練和RL微調(diào),揭示了RL微調(diào)如何放大預(yù)訓(xùn)練數(shù)據(jù)中的特定模...
2025-05-30 06:03:16 1033瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
從1920年的小說(shuō)《R.U.R》到《鋼鐵俠》中的JARVIS,在過(guò)去的一個(gè)世紀(jì)里,人們一直夢(mèng)想著構(gòu)建能夠自動(dòng)化日常工作的DigitalAgents(數(shù)字代理)。如今,隨著視覺(jué)語(yǔ)言模型(VLMs)的蓬勃發(fā)展,構(gòu)建這樣的Agents成為了可能。11AgentforGUIControl想要構(gòu)建一個(gè)有效的ComputerUseAgents,其必須擁有兩個(gè)能力:(1)Planning能力,即規(guī)劃Computeruse任務(wù)的能力,能將用戶給定的(高階)指令分步劃分為多個(gè)子目標(biāo)(2)Action能力,即根據(jù)...
2025-05-19 01:59:53 748瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
大家好,我是HxShine今天分享一篇來(lái)自清華的文章,標(biāo)題為:“DoesReinforcementLearningReallyIncentivizeReasoningCapacityinLLMsBeyondtheBaseModel”(強(qiáng)化學(xué)習(xí)真的能激勵(lì)大型語(yǔ)言模型(LLM)產(chǎn)生超越基礎(chǔ)模型本身的推理能力嗎?)。這篇文章研究的問(wèn)題:可驗(yàn)證獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)(RLVR)真能夠使LLM持續(xù)自我改進(jìn),獲得超越其對(duì)應(yīng)基礎(chǔ)模型的新推理能力嗎?(即強(qiáng)化學(xué)習(xí)能提高base基座模型的天花板嗎?)。研究者通過(guò)使用passk指標(biāo)(...
2025-05-06 07:12:18 997瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
今天分享一篇來(lái)自清華大學(xué)和上海人工智能實(shí)驗(yàn)室的文章,標(biāo)題為TTRL:TestTimeReinforcementLearning(測(cè)試時(shí)強(qiáng)化學(xué)習(xí))。這篇文章探討了一個(gè)重要且具有挑戰(zhàn)性的問(wèn)題:如何在沒(méi)有顯式標(biāo)簽(groundtruth)的情況下,利用強(qiáng)化學(xué)習(xí)(RL)在測(cè)試階段提升大型語(yǔ)言模型(LLM)在推理任務(wù)上的性能。核心挑戰(zhàn)在于測(cè)試時(shí)無(wú)法獲得真實(shí)的獎(jiǎng)勵(lì)信號(hào)。研究者們發(fā)現(xiàn),像多數(shù)投票(majorityvoting)這類在測(cè)試時(shí)擴(kuò)展(TestTimeScaling,TTS)中常用...
2025-05-06 07:09:42 1401瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
大家好,我是HxShine今天分享一篇香港科技大學(xué)、DeepSeekAI和上海交通大學(xué)聯(lián)合發(fā)表的文章,標(biāo)題為:CODEIO:CondensingReasoningPatternsviaCodeInputOutputPrediction(CODEIO:通過(guò)代碼輸入輸出預(yù)測(cè)濃縮推理模式)。這篇文章提出了一種名為CODEIO的新方法,旨在通過(guò)代碼輸入輸出預(yù)測(cè)來(lái)提煉和濃縮代碼中蘊(yùn)含的多種推理模式,從而提升大語(yǔ)言模型(LLMs)的推理能力。該方法的核心思想是將代碼轉(zhuǎn)換為一種輸入輸出預(yù)測(cè)任務(wù),讓模型...
2025-04-21 07:29:26 1092瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
什么是AgentR1AgentR1是由中科大認(rèn)知智能全國(guó)重點(diǎn)實(shí)驗(yàn)室開(kāi)發(fā)的智能體強(qiáng)化學(xué)習(xí)訓(xùn)練框架,致力于推進(jìn)強(qiáng)化學(xué)習(xí)與智能體技術(shù)的融合發(fā)展。框架采用端到端強(qiáng)化學(xué)習(xí)方法,突破了依賴人工設(shè)計(jì)工作流的傳統(tǒng)智能體開(kāi)發(fā)瓶頸,讓AI直接從與環(huán)境的交互中學(xué)習(xí)最優(yōu)策略,實(shí)現(xiàn)自主決策與行動(dòng)。開(kāi)發(fā)者只需定義特定領(lǐng)域的工具和獎(jiǎng)勵(lì)函數(shù),即可將AgentR1擴(kuò)展到各種應(yīng)用場(chǎng)景,無(wú)需編寫(xiě)復(fù)雜的工作流程。背景隨著大型語(yǔ)言模型(LLM)技術(shù)的快速發(fā)展,智...
2025-04-09 06:29:20 1589瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
今天分享一篇伊利諾伊大學(xué)的文章,標(biāo)題為:SearchR1:TrainingLLMstoReasonandLeverageSearchEngineswithReinforcementLearning(SearchR1:利用強(qiáng)化學(xué)習(xí)訓(xùn)練LLM進(jìn)行推理并利用搜索引擎)。這篇文章是關(guān)于如何訓(xùn)練大型語(yǔ)言模型(LLMs)有效地利用搜索引擎來(lái)增強(qiáng)其推理和文本生成能力。論文提出了一個(gè)名為SEARCHR1的框架,該框架僅僅通過(guò)強(qiáng)化學(xué)習(xí)(RL)讓LLM學(xué)習(xí)如何在逐步推理過(guò)程中自主生成搜索查詢并與實(shí)時(shí)檢索交互。該方法特...
2025-03-27 00:09:53 1956瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
今天分享一篇西湖大學(xué)張?jiān)览蠋煹囊黄煤铣赏评頂?shù)據(jù)做論文評(píng)審文章,Title:DeepReview:ImprovingLLMbasedPaperReviewwithHumanlikeDeepThinkingProcess:通過(guò)合成類人深度思考過(guò)程改進(jìn)基于LLM的論文評(píng)審效果。這篇文章探索了如何利用大型語(yǔ)言模型(LLM)來(lái)改進(jìn)論文評(píng)審過(guò)程,提出了一個(gè)多階段框架DeepReview,通過(guò)結(jié)合結(jié)構(gòu)化分析、文獻(xiàn)檢索和基于證據(jù)的論證,模擬專家評(píng)審員的深度思考過(guò)程,從而提高LLM在論文評(píng)審中的可靠性...
2025-03-14 00:48:05 2909瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
一、概述title:YouTrulyUnderstandWhatINeed:IntellectualandFriendlyDialogueAgentsgroundingKnowledgeandPersona論文地址:https:aclanthology.org2022.findingsemnlp.75代碼地址:https:github.comdlawjddn803INFO1.1Motivation以前的研究將知識(shí)或個(gè)人資料混合融入預(yù)先訓(xùn)練的語(yǔ)言模型。其同時(shí)考慮知識(shí)和人物角色的能力仍然是有限的,導(dǎo)致生成結(jié)果出現(xiàn)幻覺(jué),并且使用人物角色的方法也很被動(dòng)。1.2Methods提出一種有效的agent...
2025-03-04 10:28:34 2250瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
今天分享一篇來(lái)自上海人工智能實(shí)驗(yàn)室、清華大學(xué)、哈爾濱工業(yè)大學(xué)和北京郵電大學(xué)聯(lián)合的一篇文章,標(biāo)題是:Can1BLLMSurpass405BLLMRethinkingComputeOptimalTestTimeScaling(1B的LLM能否超越405B的LLM?重新思考計(jì)算最優(yōu)的測(cè)試時(shí)縮放)。這篇文章研究了大型語(yǔ)言模型(LLMs)在「推理階段通過(guò)增加計(jì)算量來(lái)提高性能的測(cè)試時(shí)縮放」(TestTimeScaling,TTS)方法。作者們「系統(tǒng)地分析了策略模型、過(guò)程獎(jiǎng)勵(lì)模型(PRMs)和問(wèn)題難度如何...
2025-02-24 11:01:35 2233瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
今天分享DeepSeekR1,Title:DeepSeekR1:IncentivizingReasoningCapabilityinLLMsviaReinforcementLearning:通過(guò)強(qiáng)化學(xué)習(xí)激勵(lì)LLM的推理能力。這篇文章介紹了DeepSeek的第一代推理模型DeepSeekR1Zero和DeepSeekR1。DeepSeekR1Zero模型通過(guò)大規(guī)模強(qiáng)化學(xué)習(xí)(RL)訓(xùn)練,沒(méi)有監(jiān)督微調(diào)(SFT)作為初步步驟,展示了RL的潛力及其帶來(lái)的卓越的推理能力。通過(guò)強(qiáng)化學(xué)習(xí),DeepSeekR1Zero自然而然地涌現(xiàn)出許多強(qiáng)大而有趣的推理行為。為了進(jìn)一步優(yōu)...
2025-02-14 13:29:37 3694瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
?還在為大模型推理速度慢、成本高而煩惱嗎?這篇來(lái)自CMU和清華大學(xué)的論文給你帶來(lái)了一個(gè)顛覆性的解決方案!他們發(fā)現(xiàn),在推理大型語(yǔ)言模型時(shí),“大力出奇跡”不再是真理!通過(guò)深入研究推理過(guò)程中的計(jì)算與性能關(guān)系,他們提出了“推理縮放定律”,并革命性地推出了一種名為REBASE的全新算法。REBASE就像一位聰明的向?qū)В軌蚯擅畹乩锚?jiǎng)勵(lì)信號(hào),指引模型在推理的迷宮中高效探索,避免了傳統(tǒng)方法中耗時(shí)費(fèi)力的盲目搜索。實(shí)驗(yàn)結(jié)果令...
2025-02-06 14:25:07 2370瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
大家好,我是HxShine今天分享一篇來(lái)自清華的一篇利用Agent合成數(shù)據(jù)的文章,標(biāo)題為《AgentHospital:ASimulacrumofHospitalwithEvolvableMedicalAgents》。這篇文章介紹了一種名為AgentHospital的仿醫(yī)院模擬系統(tǒng),該系統(tǒng)中患者、護(hù)士和醫(yī)生都是由LLM驅(qū)動(dòng)。文章的核心目標(biāo)是使醫(yī)生Agent能夠在模擬環(huán)境中學(xué)習(xí)如何治療疾病,從而驗(yàn)證社會(huì)模擬過(guò)程是否可以提高LLMAgent在特定任務(wù)上的性能。實(shí)驗(yàn)表明,隨著在模擬過(guò)程中積累的樣本越來(lái)...
2025-01-22 12:26:56 2907瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
今天分享一篇阿里的利用Agent思想做工具調(diào)用的文章,標(biāo)題為《SmallLLMsAreWeakToolLearners:AMultiLLMAgent》。其提出的多LLM代理微調(diào)框架,將工具調(diào)用拆解為三個(gè)agent(Planner、Caller、Summarizer),并結(jié)合一個(gè)二階段的微調(diào)策略。對(duì)比單個(gè)LLM表現(xiàn)更為出色,性能也更為穩(wěn)定,并且能夠超過(guò)像ChatGPT、GPT4等閉源模型,證明了多agent思路在工具調(diào)用上的有效性。除了工具調(diào)用,或許本文的方法也可以拓展到問(wèn)答的其他場(chǎng)景,大家...
2025-01-13 11:02:04 3023瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
今天分享一篇來(lái)自南陽(yáng)理工的一篇文章《LargeLanguageModelsforAutomatedOpendomainScientificHypothesesDiscovery》。本研究的目標(biāo)是探索如何使用大型語(yǔ)言模型,尤其是GPT4,來(lái)自動(dòng)發(fā)現(xiàn)科學(xué)假設(shè)。目前假設(shè)性歸納研究的局限性在于使用的數(shù)據(jù)不是原始網(wǎng)絡(luò)語(yǔ)料庫(kù),而是手動(dòng)選擇后的句子,導(dǎo)致了來(lái)源較為封閉;同時(shí),現(xiàn)有的假設(shè)標(biāo)注大多是常識(shí)性知識(shí),任務(wù)挑戰(zhàn)性不足。本文提出了首個(gè)針對(duì)社會(huì)科學(xué)學(xué)術(shù)假設(shè)發(fā)現(xiàn)的自然語(yǔ)言處理(NLP)...
2025-01-03 12:34:30 2813瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
還在為大模型推理速度慢、成本高而煩惱嗎?這篇來(lái)自CMU和清華大學(xué)的論文給你帶來(lái)了一個(gè)顛覆性的解決方案!他們發(fā)現(xiàn),在推理大型語(yǔ)言模型時(shí),“大力出奇跡”不再是真理!通過(guò)深入研究推理過(guò)程中的計(jì)算與性能關(guān)系,他們提出了“推理縮放定律”,并革命性地推出了一種名為REBASE的全新算法。REBASE就像一位聰明的向?qū)В軌蚯擅畹乩锚?jiǎng)勵(lì)信號(hào),指引模型在推理的迷宮中高效探索,避免了傳統(tǒng)方法中耗時(shí)費(fèi)力的盲目搜索。實(shí)驗(yàn)結(jié)果令人...
2024-12-25 11:42:25 3153瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
?大家好,我是HxShine。今天分享一篇普林斯頓大學(xué)和GoogleResearch,BrainTeam合作的一篇文章,REACT:SYNERGIZINGREASONINGANDACTINGINLANGUAGEMODELS[1]:在語(yǔ)言模型中協(xié)同Reasoning推理和Action行動(dòng)。其在大語(yǔ)言模型中將Thought推理過(guò)程和Action行動(dòng)結(jié)合,一方面可以通過(guò)Action從外部獲取額外信息,另一方面可以通過(guò)Thought過(guò)程,細(xì)化任務(wù),搜索有用信息,過(guò)濾無(wú)用信息,從而來(lái)提高大模型的表現(xiàn)。一、概述Title:REACT:SYNERG...
2024-12-17 12:15:45 5004瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
最近被Sora刷屏,今天結(jié)合OpenAISora的技術(shù)報(bào)告Videogenerationmodelsasworldsimulators來(lái)看下Sora具備哪些能力,以及這些能力是怎么來(lái)的。功能上除了文生圖,還支持以圖片、視頻作為prompt,極大拓展使用場(chǎng)景。技術(shù)上,利用spacetimepatches,統(tǒng)一了時(shí)空分割語(yǔ)言,為后續(xù)模型訓(xùn)練以及使用場(chǎng)景的拓展打下基礎(chǔ)。數(shù)據(jù)側(cè)在準(zhǔn)備高質(zhì)量的caption數(shù)據(jù)做了專門的優(yōu)化。另外模型基礎(chǔ)架構(gòu)采用DiffusionTransformer,通過(guò)Scalling,顯著提...
2024-12-12 11:37:49 2979瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
獲得成就
已積累 2.9w 人氣
獲得 0 個(gè)點(diǎn)贊
獲得 1 次收藏
主站蜘蛛池模板: 91亚洲国产亚洲国产 | 久久精品中文 | 国产一区不卡 | 日本黄色大片免费看 | 天天干天天插天天 | 免费能直接在线观看黄的视频 | 亚洲 欧美 日韩 在线 | 美女天堂 | 日韩欧美精品 | 久久新| 91精品国产91综合久久蜜臀 | 国产在线观看一区二区三区 | 久久噜噜噜精品国产亚洲综合 | 在线精品观看 | 欧美国产精品一区二区三区 | 狠狠躁躁夜夜躁波多野结依 | 自拍第一页 | 亚洲精品视频在线看 | 黄网站在线观看 | 91看片网 | 欧美激情欧美激情在线五月 | 日韩一级免费看 | 二区三区av | 国产精品免费av | 韩日在线视频 | 欧美国产激情二区三区 | 国产欧美一区二区三区另类精品 | 久久久久久久av | 日韩在线国产 | 欧美日韩精品免费观看 | 完全免费在线视频 | 涩涩导航 | 亚洲激情专区 | 国产免费一区二区三区 | 精品欧美一区二区三区久久久小说 | 日韩欧美久久精品 | 欧美综合一区二区三区 | 久久久久黄色 | 一区二区免费看 | 久久久在线视频 | 国产精久久久久久久妇剪断 |