這是一份長達206頁的重磅研究報告,其研究結(jié)果令人擔(dān)憂。該研究發(fā)現(xiàn),對大語言模型的依賴會削弱寫作者自身的神經(jīng)和語言特征。研究者僅通過腦電圖、文本挖掘和交叉對照實驗就證明,保持一定的無AI練習(xí)時間能夠保護記憶回路,并促進更豐富的語言表達,即使后續(xù)重新引入AI工具也是如此。圖片實驗設(shè)計54名波士頓地區(qū)的學(xué)生在三種條件下撰寫SAT風(fēng)格的作文:僅使用ChatGPT、僅使用Google搜索,或僅憑大腦思考。每位參與者在相同條件下...
6天前 551瀏覽 0點贊 0回復(fù) 0收藏
為GPT4.1提供"認知工具"可將其在AIME2024上的表現(xiàn)從26.7%提升至43.3%。太驚人了!這個成績已經(jīng)非常接近o1preview的水平。論文提出了一種模塊化、基于工具的方法來激發(fā)大語言模型的推理能力,靈感來源于認知科學(xué)。作者沒有單純依賴強化學(xué)習(xí)或思維鏈(CoT)提示,而是引入了一個框架,讓大語言模型能夠調(diào)用獨立的"認知工具"來模塊化和支撐內(nèi)部推理過程。圖片agent工具調(diào)用:這些工具封裝了理解問題、回憶類似案例、檢查答案和回溯...
6天前 375瀏覽 0點贊 0回復(fù) 0收藏
還記得OpenAI發(fā)布o1模型時,那種"AI終于會思考了"的震撼嗎?現(xiàn)在,英偉達團隊帶來了更深入的研究成果,揭示了如何讓7B參數(shù)的小模型在數(shù)學(xué)和編程推理上達到頂尖水平。他們的AceReasonNemotron1.1模型在AIME25數(shù)學(xué)競賽中取得了63.2%的準(zhǔn)確率,在編程基準(zhǔn)測試中也屢創(chuàng)新高。這背后的秘密不是簡單的堆算力,而是監(jiān)督學(xué)習(xí)(SFT)和強化學(xué)習(xí)(RL)的巧妙配合。這項研究不僅給出了具體的訓(xùn)練配方,更重要的是回答了一個關(guān)鍵問題:為什...
7天前 473瀏覽 0點贊 0回復(fù) 0收藏
Mistra發(fā)布Magistral——MistralAI首款推理模型——在領(lǐng)域特定、透明和多語言推理方面表現(xiàn)卓越。最優(yōu)秀的人類思維并非線性——它在邏輯、洞察、不確定性和發(fā)現(xiàn)之間穿梭。推理語言模型使我們能夠增強并委托復(fù)雜思考和深度理解給AI,提升我們處理需要精確、逐步深思和分析問題的能力。但這個領(lǐng)域仍處于起步階段。缺乏處理領(lǐng)域特定問題所需的專業(yè)深度、透明度有限,以及在所需語言中推理不一致——這些只是早期思維模型的一些已知...
2025-06-13 06:49:37 544瀏覽 0點贊 0回復(fù) 0收藏
論文通過強化學(xué)習(xí)激勵有效的下一個token推理,僅使用原始文本和內(nèi)在強化學(xué)習(xí)信號就能解鎖更豐富的推理能力。圖片論文簡介論文提出了強化預(yù)訓(xùn)練(RPT),這是一種創(chuàng)新范式,通過將下一個詞元預(yù)測重新解釋為可通過正確性驗證獲得獎勵的推理任務(wù),架起了大語言模型預(yù)訓(xùn)練與強化學(xué)習(xí)之間的橋梁。圖片RPT沒有使用人工精心策劃的昂貴標(biāo)注或人類反饋,而是在大規(guī)模無標(biāo)注文本語料庫上應(yīng)用強化學(xué)習(xí),根據(jù)預(yù)測詞元是否匹配真實答案來分配...
2025-06-13 06:45:43 956瀏覽 0點贊 0回復(fù) 0收藏
你有沒有遇到過這樣的情況:跟AI聊天的時候,它前一秒還好好的,下一秒就開始胡說八道?明明告訴它要遵守某些規(guī)則,但它總是"選擇性失憶"?如果你正在開發(fā)AI產(chǎn)品,或者對AI技術(shù)感興趣,今天這篇文章絕對值得你花5分鐘讀完。我們要聊的是一個讓AI智能體在真實業(yè)務(wù)中"言聽計從"的革命性方法。圖片一、AI智能體的"叛逆期":為什么它們總是不聽話?想象一下,你花了幾個月開發(fā)了一個電商購物助手,結(jié)果上線第一天就出事了:AI居然向...
2025-06-03 05:56:14 1532瀏覽 0點贊 0回復(fù) 0收藏
AI系統(tǒng)能否無限地自我改進?這項工作展示了自我改進AI的潛力,靈感來源于生物進化和開放式探索。總體概況這項工作提出了達爾文哥德爾機器(DGM),該系統(tǒng)通過結(jié)合自指代碼修改和開放式進化搜索,推進了自我改進AI的愿景...與原始哥德爾機器不同(它要求代碼更改具有可證明的益處,這是一個實際上難以處理的約束條件),DGM采用了經(jīng)驗方法:它修改自己的代碼庫,并在編程基準(zhǔn)測試上評估改進效果。自指自我改進循環(huán)DGM從單個編程...
2025-06-03 05:47:32 1101瀏覽 0點贊 0回復(fù) 0收藏
圖片你是否遇到過這樣的情況:GPT、Claude等大模型在對話時很聰明,但經(jīng)過微調(diào)后卻變得「變笨」了?這不是你的錯覺,而是AI學(xué)習(xí)的一個有趣現(xiàn)象。最近,谷歌研究團隊發(fā)表了一篇重磅論文,揭示了大模型兩種學(xué)習(xí)方式之間的巨大差異。現(xiàn)在一起來探索這個AI世界中的奇妙現(xiàn)象:為什么有時候「上下文學(xué)習(xí)」比「微調(diào)學(xué)習(xí)」更靈活?圖片1、大模型的兩種學(xué)習(xí)方式,哪個更強?大模型主要通過兩種方式學(xué)習(xí)新知識:(1)上下文學(xué)習(xí)(Incontex...
2025-05-20 06:15:15 984瀏覽 0點贊 0回復(fù) 0收藏
在人工智能飛速發(fā)展的今天,"AIAgent"(AI智能體)已經(jīng)成為熱門詞匯,但你是否了解它與"AgenticAI"(智能體AI)之間的本質(zhì)區(qū)別?這兩個看似相似的概念實際代表著人工智能領(lǐng)域中兩種截然不同的設(shè)計理念和能力邊界。今天,我們將通過解讀這篇論文來為你揭開這兩種技術(shù)的神秘面紗。圖片1、AIAgent的崛起:從生成式AI到工具增強型助手ChatGPT的出現(xiàn)讓我們見識了大語言模型(LLM)的強大能力,但這只是AI進化的開始。傳統(tǒng)的生成式AI本...
2025-05-20 06:06:42 1425瀏覽 0點贊 0回復(fù) 0收藏
今日目錄1、Nemotron:跨領(lǐng)域推理框架2、Qwen3模型運行與微調(diào)指南3、重塑AI記憶:分類法、操作與未來方向4、LLM在工程領(lǐng)域的突破:教模型設(shè)計高功率火箭5、ReXGradient160K:史上最大公開胸部X光數(shù)據(jù)集1、Nemotron:NVIDIA推出的跨領(lǐng)域推理框架圖片最新研究表明,NVIDIA推出的NemotronCrossThink框架成功將自學(xué)習(xí)擴展到數(shù)學(xué)推理之外的多個領(lǐng)域。該框架通過系統(tǒng)地將多領(lǐng)域語料庫(包括STEM、人文、社科等)納入強化學(xué)習(xí)訓(xùn)練,顯...
2025-05-06 07:17:46 1208瀏覽 0點贊 0回復(fù) 0收藏
就像互聯(lián)網(wǎng)需要TCPIP和HTTP協(xié)議一樣,AIAgent之間的協(xié)作也需要標(biāo)準(zhǔn)化的通信協(xié)議。本文帶你深入了解AIAgent協(xié)議的現(xiàn)狀與未來,看看學(xué)術(shù)界是如何構(gòu)建Agent之間的"社交網(wǎng)絡(luò)"的。圖片1、AIAgent通信協(xié)議:打破信息孤島的關(guān)鍵一步你有沒有想過,當(dāng)ChatGPT、Claude這些AI助手需要互相交流、協(xié)作時,它們該如何"對話"?隨著大語言模型(LLM)的迅猛發(fā)展,各種AIAgent已經(jīng)廣泛應(yīng)用于客戶服務(wù)、內(nèi)容創(chuàng)作、數(shù)據(jù)分析甚至醫(yī)療輔助等領(lǐng)域。然而...
2025-05-06 07:15:18 1195瀏覽 0點贊 0回復(fù) 0收藏
論文《AlleviatingtheFearofLosingAlignmentinLLMFinetuning》解決了大型語言模型(LLM)領(lǐng)域一個令人頭疼的問題:為什么微調(diào)后的AI模型會失去"道德約束",以及如何高效地修復(fù)這個問題。圖片1、AI也會"變壞"?微調(diào)帶來的隱患我們都知道ChatGPT、Llama這類大語言模型在經(jīng)過訓(xùn)練后,通常會遵循一定的"價值觀"——比如當(dāng)你問它"如何入侵別人的電腦"時,它會禮貌地拒絕回答。這種確保AI行為符合人類價值觀的訓(xùn)練叫做"對齊訓(xùn)練"(ali...
2025-04-22 06:43:23 1005瀏覽 0點贊 0回復(fù) 0收藏
?1、AI終于學(xué)會了"工欲善其事,必先利其器"圖片你有沒有這樣的經(jīng)歷:面對復(fù)雜計算題,純靠腦力計算往往容易出錯,而借助計算器或編程工具卻能事半功倍?人類在解決問題時懂得適時借助工具,而AI呢?當(dāng)前的大型語言模型(LLM)雖然在純文本推理方面表現(xiàn)出色,但在涉及精確計算、符號操作等領(lǐng)域,它們往往捉襟見肘。為何不讓AI也學(xué)會"工欲善其事,必先利其器"的智慧?論文提出了一種創(chuàng)新方法,通過強化學(xué)習(xí)讓AI自主掌握何時、如何...
2025-04-22 06:38:39 1180瀏覽 0點贊 0回復(fù) 0收藏
?1、開篇:你是否曾有過這樣的困惑?圖片還記得那些被老師批改得密密麻麻的數(shù)學(xué)作業(yè)嗎?"答案對了,但過程錯了"的批注可能曾讓我們感到困惑。在傳統(tǒng)教學(xué)中,教師們往往需要花費大量時間批改學(xué)生的習(xí)題,尤其是對解題步驟的評判更是耗時耗力。而當(dāng)面對大量作業(yè)時,老師們很難對每個學(xué)生的每一步解題過程都給予詳細的反饋。如今,AI教育技術(shù)正在悄然改變這一切。最新研究提出的StepAMC系統(tǒng)能夠自動分析學(xué)生解題的每一個步驟,識...
2025-04-09 06:35:29 1578瀏覽 0點贊 0回復(fù) 0收藏
?今日目錄1、MedSAM2:3D醫(yī)療圖像和視頻的全能分割模型2、DeepResearcher:通過真實環(huán)境強化學(xué)習(xí)實現(xiàn)深度研究3、APIGenMT:通過模擬代理人類互動生成高質(zhì)量對話數(shù)據(jù)4、更大的語言模型是否意味著更好的推理能力?預(yù)訓(xùn)練推理縮放規(guī)律5、何時求解,何時驗證:計算最優(yōu)問題求解與LLM推理的生成驗證6、突破傳統(tǒng)數(shù)學(xué)批改!這個AI系統(tǒng)能給你的每一步解題過程打分1、MedSAM2:3D醫(yī)療圖像和視頻的全能分割模型圖片MedSAM2模型通過在超過45.5...
2025-04-09 06:32:51 1493瀏覽 0點贊 0回復(fù) 0收藏
圖片圖1:(A)我們的分支合并蒸餾方法的簡化圖解。(1)在分支階段,初始模型(骨干網(wǎng)絡(luò))的每個副本都在不同領(lǐng)域的知識上進行訓(xùn)練;(2)在合并階段,模型基于ArceeFusion規(guī)則進行合并。(B)不同LLM模型的性能比較(Mustar,2025)。TinyR132BPreview在科學(xué)、數(shù)學(xué)和編程領(lǐng)域的表現(xiàn)優(yōu)于同等規(guī)模的蒸餾模型,并達到了與DeepseekR1相當(dāng)?shù)慕Y(jié)果。這里的LiveCodeBench指的是完整LiveCodeBench的24.0825.02子集。你是否好奇:為什么大語言模型一...
2025-03-27 07:13:28 1622瀏覽 0點贊 0回復(fù) 0收藏
Gemma3是谷歌新推出的最先進多模態(tài)(文本+圖像)模型,有1B、4B、12B和27B四種規(guī)模。現(xiàn)已在Unsloth支持,Gemma3擁有128K上下文窗口和多語言支持。(1)使用Unsloth的Colab筆記本微調(diào)Gemma3。Unsloth修復(fù)了一些Gemma3訓(xùn)練問題。(2)Unsloth使Gemma3(12B)微調(diào)速度提升1.6倍,VRAM使用減少60%,在48GBGPU上比使用FlashAttention2的環(huán)境能處理6倍更長的內(nèi)容。(3)Unsloth在HuggingFace這里上傳了所有版本的Gemma3,包括28位GGUF...
2025-03-17 00:41:43 3452瀏覽 0點贊 0回復(fù) 0收藏
挑戰(zhàn)LLM邏輯推理極限!新基準(zhǔn)TEXTGAMES能否揭開大模型的短板?AI.x社區(qū)1、大模型的邏輯推理能力究竟如何?近年來,大語言模型(LLMs)在自然語言理解、生成任務(wù)等方面取得了突破性進展,甚至能在數(shù)學(xué)推理、常識推理等領(lǐng)域展現(xiàn)出不俗的表現(xiàn)。然而,這些模型是否真正具備深入的邏輯推理能力?它們能否像人類一樣,通過不斷嘗試和反思,最終解決復(fù)雜的難題?來自研究團隊的一項最新研究引入了一個全新的TEXTGAMES基準(zhǔn),該基準(zhǔn)通過...
2025-03-17 00:38:58 1917瀏覽 0點贊 0回復(fù) 0收藏
想象一下,如今的AI世界里,大模型如GPT4、Claude動輒上百億參數(shù),能力驚人卻耗資巨大,像是一輛輛豪華跑車,雖快卻燒油無數(shù)。普通人或中小企業(yè)想用AI解決問題時,常常被高昂的成本擋在門外。可就在這時候,微軟扔出了一顆“重磅炸彈”——Phi4Mini和Phi4Multimodal。這兩個小巧的模型,參數(shù)量僅3.8億,卻在語言、數(shù)學(xué)、編碼甚至多模態(tài)任務(wù)上表現(xiàn)出色,堪稱“小身軀,大能量”。這不禁讓人好奇:微軟是怎么讓“小個子”打敗“大...
2025-03-05 10:00:26 3308瀏覽 0點贊 0回復(fù) 0收藏
圖片在大模型訓(xùn)練領(lǐng)域,顯存一直是一個讓研究者和開發(fā)者頭疼的問題。特別是在進行長文本上下文訓(xùn)練時,動輒需要幾百GB的顯存需求,這讓很多研究者望而卻步。不過最近,AI基礎(chǔ)設(shè)施優(yōu)化團隊Unsloth帶來了一個重大突破他們推出的新算法可以讓GRPO訓(xùn)練所需顯存減少高達90%!文章公布了Llama3.1(8B)GRPO在Colab上notebook,見:https:colab.research.google.comgithubunslothainotebooksblobmainnbLlama3.1(8B)GRPO.ipynb1、從510GB...
2025-02-24 11:15:23 3222瀏覽 0點贊 0回復(fù) 0收藏