成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

51CTO首頁

AI.x社區(qū)

博客

學堂

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創(chuàng)認證華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

在線學習

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學堂

IT職業(yè)在線教育平臺

后向傳播

LV.2

張發(fā)恩創(chuàng)作的人工智能技術(shù)文章

帖子 11

聲望 119

關(guān)注 0

粉絲 0

社區(qū)頭條作者

私信

關(guān)注

主帖 11

回帖

開局一把牌，怎么都能打 | 神經(jīng)網(wǎng)絡(luò)從“白癡”訓練到“專家”水平，其參數(shù)并沒有太大的變化

這兩天重讀了一篇很有趣的論文，《Effectoftheinitialconfigurationofweightsonthetrainingandfunctionofartificialneuralnetworks》（https:arxiv.orgpdf2012.02550）。它非常直白的展示了人工神經(jīng)網(wǎng)絡(luò)訓練過程中的初始權(quán)重配置對網(wǎng)絡(luò)功能和性能的影響。通俗來講，神經(jīng)網(wǎng)絡(luò)就像是一臺復(fù)雜的機器，它內(nèi)部有很多“開關(guān)”（也就是權(quán)重），這些開關(guān)從一開始就有隨機的初始設(shè)置。在訓練過程中，這些開關(guān)的設(shè)置會一點一點調(diào)整，目標...

2025-06-23 07:28:16 478瀏覽 0點贊 0回復(fù) 0收藏

聊聊背后的技術(shù) | AI+生物 | 突破進展，世界上首次開發(fā)出“為一人定制”的CRISPR基因編輯體內(nèi)治療藥物

精華

想象一下，一種專門為某個人量身打造的藥物，能夠精確修復(fù)他體內(nèi)導(dǎo)致疾病的那個小小的基因“印刷錯誤”。這聽起來像是科幻小說里的情節(jié)，但如今，它正悄然照進現(xiàn)實。最近，一名叫KJ的嬰兒成為了這個醫(yī)學奇跡的主角。他患有一種罕見的遺傳性肝臟疾病，由于基因突變，身體無法正常分解蛋白質(zhì)，導(dǎo)致有毒物質(zhì)氨在體內(nèi)累積，嚴重威脅著他的大腦發(fā)育和生命健康。傳統(tǒng)的治療方法對于KJ這樣嚴重的病例往往效果有限，預(yù)后不佳。然而，來...

2025-06-10 06:59:33 732瀏覽 0點贊 0回復(fù) 0收藏

好馬配好鞍，好模配指南 | Claude 4發(fā)布了，業(yè)界反響很好，其行為指南“系統(tǒng)提示詞”也被全文公開

在大語言模型（LLM）的進化之路上，我們熟知兩大基石：預(yù)訓練，如同海量知識的灌輸，讓模型博聞強識；微調(diào)（無論是監(jiān)督學習還是強化學習），則更像行為塑造，教會模型如何“得體”地回應(yīng)，比如習得特定的對話風格。這兩種方式，都在潛移默化中改變著模型的“內(nèi)在記憶”——也就是那些神經(jīng)網(wǎng)絡(luò)的參數(shù)。一種LLM缺失的重要學習方式——“系統(tǒng)提示學習”？反觀人類的學習，似乎還存在一種更為直接、更為“顯性”的模式。想象一下，...

2025-05-28 06:22:20 660瀏覽 0點贊 0回復(fù) 0收藏

思維鏈(COT)+反思(Reflection)+語言強化(Verbal R)能否提升大模型推理能力到ChatGPT O1的水平？

已有的大模型能否通過PromptEngineering達到O1類似的推理水平？我見過很多嘗試，在個別案例上有觀察到驚艷的推理效果，但大多沒有普遍提升已有大模型的推理能力。今天看到這個方法，感覺是通過PromptEngineering可以有效普遍提升大模型的推理能力。以下就是那個MagicPrompt，先睹為快。作者準備了50道需要長推理過程的問題，分別測試幾種場景：ClaudeSonnet+上述PromptClauseSonnetLlama3.18B+上述PromptLlama3.18BChatGPT4o+上...

2025-05-14 06:55:34 691瀏覽 0點贊 0回復(fù) 0收藏

Reward Hacking | 強化學習提升大模型推理能力，獎勵機制是關(guān)鍵 | 機制不合理，會導(dǎo)致多變的欺詐行為

大語言模型（LLM）的飛速發(fā)展正深刻改變著我們與信息和技術(shù)交互的方式（想想大家有多久不用傳統(tǒng)搜索引擎了）。它們展現(xiàn)出的能力令人矚目，但要驅(qū)動它們超越模仿，在復(fù)雜推理、規(guī)劃和解決未知問題等層面達到更高的“智能”水平，傳統(tǒng)的預(yù)訓練（Pretrain）和監(jiān)督微調(diào)（SFT）范式顯得力有不逮。強化學習（RL），特別是結(jié)合人類或規(guī)則反饋的RLHFRL，已成為關(guān)鍵的引擎，推動LLM智能向更高層級躍遷。RL的核心在于賦予模型一種“目標導(dǎo)...

2025-04-28 00:25:51 1234瀏覽 0點贊 0回復(fù) 0收藏

Muon優(yōu)化器：AI模型訓練算法的下一個里程碑？| 目前還不是業(yè)界焦點，但有潛力是重大基礎(chǔ)創(chuàng)新

精華

人工智能（AI）快速發(fā)展，模型訓練是核心環(huán)節(jié)，優(yōu)化器扮演著至關(guān)重要的角色，它負責調(diào)整模型的參數(shù)，讓模型在數(shù)據(jù)上表現(xiàn)得更好。多年來，AdamW優(yōu)化器一直是優(yōu)化器的標桿，因其穩(wěn)定性和高效性深受研究者和工程師的喜愛。然而，隨著AI模型規(guī)模的不斷擴大，訓練成本和時間的需求也在激增，這讓人們開始尋找更高效的優(yōu)化方法。近期，一種名為Muon的優(yōu)化器算法悄然出現(xiàn)（源代碼????https:github.comKellerJordanMuon????），...

2025-04-17 06:40:28 1289瀏覽 0點贊 0回復(fù) 0收藏

GRPO教會DeepSeek R1高智商推理，但GRPO可能不完美且有偏見 | Dr. GRPO簡化之，消除偏見帶來改進

DeepSeekR1在數(shù)學推理、問題解決等復(fù)雜任務(wù)上的表現(xiàn)令全世界矚目。它在AIME2024等高難度數(shù)學測試中取得了79.8分好成績（OpenAIo11217得分79.2）。而這一切的背后，有一個關(guān)鍵技術(shù)功不可沒——GroupRelativePolicyOptimization（GRPO），一種基于強化學習的優(yōu)化算法。盡管GRPO教會R1高智商推理，但有研究人員發(fā)現(xiàn)，它存在一些缺陷，比如它會導(dǎo)致模型生成冗長的錯誤回答，或者更傾向于解決簡單問題而忽略難題。大家在用DeepSeekR1...

2025-04-07 00:08:13 2188瀏覽 0點贊 0回復(fù) 0收藏

LLaMA 4來了 | 千呼萬喚始出來，猶抱琵琶半遮面 | 不盡如人意

精華

社區(qū)頭條

開源世界的期待與漣漪人工智能的浪潮奔涌向前，Meta的Llama系列一直扮演著特殊的角色。回想Llama2的橫空出世和開源姿態(tài)，極大地降低了高性能大模型的門檻，在全球范圍內(nèi)點燃了研究和應(yīng)用的熱情，催生了無數(shù)創(chuàng)新，其影響力至今仍在激蕩。相較之下，Llama3的發(fā)布雖然帶來了性能提升，但在社區(qū)看來，似乎少了些Llama2那樣的顛覆性震撼，更像是一次穩(wěn)健但略顯保守的迭代。在這樣的背景下，Llama4的發(fā)布承載了社區(qū)極高的期待。4月6日...

2025-04-07 00:04:09 1813瀏覽 0點贊 0回復(fù) 0收藏

Muon優(yōu)化器：AI模型訓練算法的下一個里程碑？| 目前還不是業(yè)界焦點，但有潛力是重大基礎(chǔ)創(chuàng)新

精華

2025-03-25 00:43:07 2116瀏覽 0點贊 0回復(fù) 1收藏

GPT-4.5發(fā)布了，參數(shù)規(guī)模可能在3-5萬億之間，宣稱是最好的聊天模型，但有“強弩之末”的感覺

2月28日OpenAI發(fā)布了GPT4.5，OpenAI稱這是其迄今為止最大的預(yù)訓練模型。我有點期待GPT4.5會帶來令人振奮的突破。然而，從官方披露的信息以及實際表現(xiàn)來看，GPT4.5沒有展現(xiàn)出超越前代模型的顯著優(yōu)勢。有點“強弩之末”的感覺。可能再次驗證了業(yè)界比較廣泛的認知：“單純擴大模型參數(shù)規(guī)模，對性能提升的邊際效應(yīng)正在遞減”。接下來分幾個章節(jié)，談?wù)勎业母惺堋Ｆ诖c現(xiàn)實的落差GPT4.5被OpenAI定位為“ourlargestandbestmodelforcha...

2025-03-13 06:57:59 2986瀏覽 0點贊 0回復(fù) 0收藏

白話DeepSeek R1的GRPO強化學習算法：原理、圖解、視頻

GRPO(GroupRelativePolicyOptimization)算法核心思想：想象一下，老師在教一個學生寫作文。傳統(tǒng)的強化學習方法（比如PPO）會給學生的每一句話打分，告訴他這句好，那句不好。但GRPO不這么做，它更像是一位“佛系”老師：不看過程，看結(jié)果：GRPO不會逐句指導(dǎo)學生，而是讓學生一口氣寫完幾篇不同的作文（一組作文）。幾篇作文一起比較：然后，老師把這幾篇作文放在一起比較，根據(jù)一個預(yù)先定好的規(guī)則（基于規(guī)則的獎勵模型），評判...

2025-02-28 12:15:57 4066瀏覽 0點贊 0回復(fù) 0收藏

獲得成就

已積累 4129 人氣

獲得 0 個點贊

獲得 1 次收藏