大家好,今天給大家分享一個圖像生成的新工作—MarryingAutoregressiveTransformerandDiffusionwithMultiReferenceAutoregression,后面我們簡稱TransDiff。首先,TransDiff是目前最簡潔的、將ARTransformer與Diffusion結合用于圖像生成方法。TransDiff將離散輸入(如類別、文本等)、連續輸入(圖像等)經過ARTransformer編碼為圖像語義表征,而后將表征通過一個較小的DiffusionDeocder解碼為圖片。其次,我們提出了一種新的自...
上周五,Qwen團隊又開源了Embedding模型,真是人民需要什么,它開源什么呀!現在好了,文本、多模態、embedding都齊了,別人沒得玩了!上周朋友就問,作為Qwen課代表的我,咋沒分享Qwen3Embedding,哈哈哈哈!這不就來了嘛,主要是前兩天我還在測試。Embedding模型的測試,并不像LLM那樣直觀,給了問題之后直接看答案就可以分辨出好壞,Embedding模型還是要測試在某個數據集下整體得召回率。雖然這次Qwen開源了3個尺寸的模型,0...
2025-06-13 07:17:37 1596瀏覽 0點贊 0回復 0收藏
自適應推理模型的核心就是讓模型自己根據用戶問題的來判斷是否進行推理預測。Arm存在三種格式:直接回答、短CoT或代碼、長CoT,同時引入AdaGRPO解決傳統GRPO中的格式崩潰問題。除了自適應模式,Arm還支持另外兩種模式;指令引導模式,用戶明確強制選擇某一種指定推理格式共識引導模式,聚合直接回答、短CoT或代碼三種格式的輸出,當答案一致時,直接返回,否則認為任務較復雜,切換到LongCoT推理模式。模型的訓練分為兩個階段,...
2025-06-03 06:41:20 675瀏覽 0點贊 0回復 0收藏
大家好,我是劉聰NLP。是的,沒錯,Qwen團隊又開源了,這次是偏好模型WorldPM。偏好模型,就是也可以理解為獎勵模型,在強化學習中用來打分的那個模型!HF:https:huggingface.cocollectionsQwenworldpm6826f363e9c62f97a0b437e6Paper:https:arxiv.orgabs2505.10527WorldPM,是在1500萬條訓練樣本上進行偏好訓練,模型規模從1.5B到72B,同時發現偏好模型遵循與語言模型類似的縮放規律。模型的訓練數據來自多個公共論壇,包括St...
2025-05-20 06:41:02 948瀏覽 0點贊 0回復 0收藏
大家好,我是劉聰NLP。從Llama4隕落之后,國內開源模型是世界第一,誰贊成,誰反對!反對無效!應該也沒人反對吧。模型尺寸、榜單指標、首個混合推理模型,這篇就不重復介紹了,去看我上一篇內容吧。這篇主要是針對Qwen3實測,看看真實測試效果到底如何!測試可以在兩個地方都可以??https:huggingface.cospacesQwenQwen3Demo??或者??https:chat.qwen.ai??主要測試think和nothink兩種情況。正式測試開始。常規測試Qwen32...
2025-05-07 06:53:37 1891瀏覽 0點贊 0回復 1收藏
下面是我前段時間跟一位群友的對話:群友:我最近有都需要進行模型微調,但是每個任務模型調完之后都對單一任務有明顯提高,但如果合在一起訓練的話,效果又達不到最佳。所以在使用階段,部署了多個模型,但是顯卡資源真的吃不消,有什么好的解決辦法嗎?我:你是Lora微調,還是全量參數微調的。群友:Lora微調,全量參數微調,也沒那么多訓練資源。我:你既然是Lora微調,那么你在部署的時候,可以只部署一個底座模型,然后多...
2025-04-22 07:18:29 1190瀏覽 0點贊 0回復 0收藏
MetaAI發布了Llama4模型,終于來啦!開源社區也是等了很久。本次共兩系列模型Scout和Maverick模型,兩個模型均為MoE架構模型,DeepSeek得含金量還在提高,哈哈哈!榜單效果反正是杠杠滴。HF模型路徑:https:huggingface.cocollectionsmetallamallama467f0c30d9fe03840bc9d0164模型的總體信息如上圖所示,模型MoE架構中,無論是Scout還是Maverick,激活的路由專家數據均為1,有點奇怪,之前MoE架構一般激活路由專家數據都是2或更...
2025-04-09 07:07:26 1711瀏覽 0點贊 0回復 0收藏
國內Qwen是汪峰,國外Google是汪峰,昨天Google更新,放出新模型Gemini2.5Pro,凌晨OpenAI更新GPT4o,上新圖像生成功能,難受住了。GPT4o沒測,但是網上的效果也太好了吧,倒影啥的都太自然了吧。。這篇主要測試Gemini2.5Pro的能力,整體測試通過Google的AIStudio上測試,每天免費50次,正常使用夠了,爽玩還是不夠的。https:aistudio.google.comGemini2.5Pro在Benchmark上效果還是很好的,甚至在lmsys的對戰榜單上,現在是第一...
2025-03-27 07:57:17 2317瀏覽 0點贊 0回復 0收藏
今早看到了百度文心大模型4.5和X1可以免費使用啦!之前說4月1號免費,這提前半個月,估計是最近大模型廠商一直都在開源,壓力太大了!話說回來,2025年是真卷,幾乎每一周都有新東西,也都有爆款。之前我是隨機更,現在都變成日更啦!文心4.5是個多模態大模型,可以對文字、圖片、音頻、視頻等內容進行綜合理解。文心X1是深度思考的推理大模型,但支持多模態和工具使用,具有更強的理解、規劃、反思、進化的能力。從榜單上看效...
2025-03-17 01:11:39 2759瀏覽 0點贊 0回復 0收藏
今天給大家帶來一篇探討大模型預訓練與微調之間關系的文章,主要通過微調預訓練階段各個checkpoint,來發現預訓練本身或對下游微調有哪些影響。大模型在預訓練過程中的性能如何變化?更多步數的預訓練對下游微調有何影響?大模型微調學到了什么,又忘記了什么?Paper:https:arxiv.orgabs2408.06663由于目前開源模型中,開放全量checkpoints的模型較少,并且實驗成本較大,以下分析結果主要基于OLMo1B模型(同時訓練細節、預訓練...
2025-03-05 10:55:09 2244瀏覽 0點贊 0回復 0收藏
言簡意賅,發現月之暗面開源MoE模型,總參數量15.29B,激活參數2.24B,使用Muon優化器,在5.7TTokens的訓練數據下,拿到了很好的效果。Github:https:github.comMoonshotAIMoonlightHF:https:huggingface.comoonshotaiMoonlight16BA3BPaper:https:github.comMoonshotAIMoonlightblobmasterMoonlight.pdf效果如下:比較Muon和Adam的擴展定律實驗,發現Muon的樣本效率比Adam高2倍。Muon優化器原理如下:同時,Moonlight16BA3B的...
2025-02-25 12:49:10 2540瀏覽 0點贊 0回復 0收藏
最近DeepSeekR1蒸餾太火了,昨天在群里跟群友們問白嫖R1接口的事情,想著多點搞免費額度蒸餾一波滿血版DeepSeekR1,來做做試驗。結果一個小伙伴,跟我講,他們(無問芯穹)的滿血版DeepSeekR1API是免費調用的,不僅如此,還有DeepSeekV3、Deepseek蒸餾版本模型R1DistillQwen32b也是免費的。當然,現在DeepSeek流量真的爆炸,公眾號標題帶DeepSeek流量都會更高一些,算是現象級模型了。在這里為春節期間同樣努力奮斗,放出新模型...
2025-02-17 07:26:05 3105瀏覽 0點贊 0回復 0收藏
今天看到vLLM的朋友圈發布了DeepSeekR1的PP支持,立刻開始我的搗鼓之旅,假如我訓練的超大MoE上線了,也得做好技術準備工作是不嘛。把踩坑經驗給大家分享一下,希望能夠相比于官方文檔更白話一點。DistributedInferenceandServing:https:docs.vllm.aienlatestservingdistributedserving.htmlrunningvllmonmultiplenodes知乎游凱超說一定要讓整個過程變得絲滑無比,我倆配合做了幾個驗證,現在應該只需要Step0和Step3就可以run起...
2025-02-06 15:33:59 7570瀏覽 0點贊 0回復 0收藏
大家好,我是劉聰NLP。就在今晚,Kimi發布了最新模型k1.5,先來看榜單效果,簡直爆炸。在長推理上,k1.5在數學能力上,無論是純文本還是視覺多模態上,都遠超openai的o1模型;在codeforces與其持平,LiveCode上略差,但相比于QVQ和QWQ有較大的優勢。在短推理上,k1.5的數學能力真實遙遙領先,無論是gpt4o還是claude3.5sonnet都遠不如k1.5,尤其是在AIME榜單上,k1.5有60.8,而最高的deepseekv3只有39.2,堪稱斷層式碾壓。這個應...
2025-01-22 13:33:53 3680瀏覽 0點贊 0回復 0收藏
大家好,我是劉聰NLP。前段時間一直都在嘗試用多模態大模型進行落地應用,除了問答之外,那么最容易想到的就是文檔解析了。一來多模態大模型本身就有強大的OCR功能,二來知識加工對于大模型落地來說也是重中之重,三來現在很多文檔拆解的API或者項目,效果都沒有那么理想吧,比如:夾雜公式的文本、復雜表格等。思路是不是很正,于是乎我就嘗試用多模態大模型進行表格解析的任務了。結果就是:全是眼淚!痛,太痛了!今天此貼主...
2025-01-14 12:31:34 2057瀏覽 0點贊 0回復 0收藏
今天給大家帶來一篇知乎好友hadiii的一篇文章,匯總Llama3.1、DeepSeekV3、TüLU3和Qwen2.5的后訓練PostTraining技術。知乎:https:zhuanlan.zhihu.comp12862210431本文匯總Llama3.1,DeepSeekV3,TüLU3,Qwen2.5報告的后訓練部分,摘錄其中核心的細節。大多涉及到數據,SFT,RL(各種RM訓練,DPO,GRPO,RLVR等等)。1.Llama3.1paper:https:ai.meta.comresearchpublicationsthellama3herdofmodelsIllustrationoftheoverallpos...
2025-01-03 14:05:37 2998瀏覽 0點贊 0回復 0收藏
大家好,我是劉聰NLP。沒錯,是的,對的,很棒,千問!QWQ之后,千問團隊又開源了視覺推理大模型QVQ,是72B的呦。圣誕快樂,如期而至!HF:https:huggingface.coQwenQVQ72BPreview為啥是72B,可想而知,這個QVQ就是基于前一段時間開源的Qwen2VL72B模型上進一步訓練得來的。有個7B的為啥沒出QVQ7B,估計是參數來太少,做o1式推理效果不行,QWQ也是32B起步的,所以模型參數量很關鍵。在榜單上的效果,QVQ在MMMU是突破了70,并且整...
2024-12-25 12:12:27 2779瀏覽 0點贊 0回復 0收藏
模型概述Megrez3BOmni是由無問芯穹研發的端側全模態理解模型,基于無問大語言模型Megrez3BInstruct擴展,同時具備圖片、文本、音頻三種模態數據的理解分析能力,具體模型參數如下表所示。Megrez3BOmni在并未犧牲模型的文本處理能力的前提下,在三個模態上相較于同等參數模型,均取得較好的效果。圖源:https:internvl.github.ioblog20241205InternVL2.5注意:下面的文本、圖像、語音評測均基于https:huggingface.cospacesInfini...
2024-12-17 13:06:53 3889瀏覽 0點贊 0回復 0收藏
在看了OpenAI的直播,精讀了字節論文,以及和知乎真中合歡激烈辯論后。我對RFT(ReinforcementFineTuning)也有了一些自己的認知,這篇文章給大家分享一下我的理解。首先給出我的結論:RFT并不是新的技術范式,而是PPO技術范式下的新應用范式,RFT相比于傳統PPO的創新點是rulebasedrewardmodel。疊甲聲明:RFT屬于應用范式,RFT依賴的是rulebasedrewardmodel,這兩個觀點屬于個人看法,如有不對,還望輕噴。至于“dozensofdata”...
2024-12-13 13:10:40 2720瀏覽 0點贊 0回復 0收藏
晚上發現kimi也更新了,之前網上流傳的kimi在數學上對標o1的模型,可以測試了。感覺有點迫于deepseek的壓力了,本來應該是國內第一個的,長推理、類o1的模型,現在變成了第二個。模型版本叫k0math,在數學上的效果也是對標openaio1,官方也僅僅表示說在數學能力上較強。來自官方帖子https:mp.weixin.qq.comsg4DltigncX4sfaQ6Qn1zA但我非要測試看看在文本推理上的效果如何。測試界面是側邊欄的小眼鏡圖標,進來直接就可以測試,...
2024-11-27 15:42:21 2342瀏覽 0點贊 0回復 0收藏