成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

比英偉達工程師還熟練!DeepSeek R1+測試時Scaling自動優化GPU內核

人工智能 新聞
英偉達巧妙地將DeepSeek-R1與推理時擴展相結合,構建了全新工作流程,自動優化生成GPU內核,取得了令人矚目的成果。

本周英偉達的一篇技術博客引發了業界震動!

英偉達的團隊嘗試利用DeepSeek-R1和推理時擴展實現GPU內核生成自動化,效果極佳。

隨著AI模型的擴展,推理時擴展(inference-time scaling),也叫測試時擴展(test-time scaling)正閃亮登場。

推理時擴展就像是給AI模型配備了一個「智慧錦囊」。當模型進行推理時,它會額外分配計算資源,讓模型有能力評估多種可能的結果,然后從中挑選出最優解。

通過這種方式,AI可以像人類一樣,有條不紊地剖析復雜問題,找到最佳解決方案。

圖片

為了充分發揮DeepSeek-R1的優勢,同時克服其在生成優化GPU內核時遇到的困難,英偉達的工程師們想出了一個創新的方法——將推理時擴展技術與DeepSeek-R1相結合,構建了一種全新的工作流程。

他們使用DeepSeek-R1,在推理過程中借助額外的計算能力來解決一個復雜問題:旨在自動生成數值正確且針對不同類型注意力機制進行優化的GPU注意力內核,整個過程無需任何顯式編程。

在某些情況下,R1生成的內核甚至比嫻熟的工程師開發出來的還要出色!

對此,網友評價道:「英偉達是在毀掉自己的護城河嗎?」

圖片

優化注意力內核的挑戰

深入了解推理時擴展技術如何發揮作用之前,先要認識一個LLM中至關重要的概念——注意力機制。

注意力機制就像是「聚光燈」,能讓AI模型在處理任務時,有選擇地聚焦在輸入信息中最相關的部分,快速找到關鍵語句,做出更準確的預測,發現數據中的隱藏模式。

但是,注意力操作的計算復雜度與輸入序列長度的平方成正比。輸入的文本越長,模型處理起來就會越吃力,不僅計算量大幅增加,還可能出現運行時錯誤,比如內存不足的情況。

為了避免這些問題,提高計算效率,開發優化的底層實現,也就是GPU內核,十分必要。

另外,注意力機制有多種不同的變體,像因果注意力、相對位置嵌入、alibi等。工程師們在面對不同的任務時,往往需要把這些變體組合起來使用。

在多模態模型,比如視覺Transformer中,需要專門的注意力機制,像空間鄰域注意力(Spatial Neighborhood Attention),來處理計算機視覺、視頻生成模型中常見的時空信息。

圖片

開發一個優化的GPU注意力內核,對經驗豐富的軟件工程師來說,也是一項艱巨的任務,費時費力。

盡管像DeepSeek-R1這樣的模型在代碼生成任務中展現出了很大的潛力,但它們在第一次嘗試生成優化代碼時,還是會遇到不少挑戰。

這使得在推理時必須使用其他策略來生成優化代碼。

以下是為相對位置嵌入注意力內核輸入的示例用戶提示。

圖片

模型有時會產生幻覺,生成一些「不靠譜」的代碼,要么在語法上有錯誤,要么把不同語言或框架的語法混在一起,導致無法運行或效率低下。

計算最優的GPU線程映射也不是一件容易的事,通常需要反復調整優化,才能得到一個正確又高效的內核。

DeepSeek R1與推理時擴展「強強聯合」

為了攻克優化GPU注意力內核這個難題,英偉達的工程師們想出了一個巧妙的辦法,他們把DeepSeek-R1模型和推理時擴展技術結合起來,創造了一種新的工作流程。

圖片

一開始,工程師會手動輸入一個提示。然后,DeepSeek-R1會根據這個提示,在第一次遍歷中生成GPU代碼,也就是內核代碼。

生成的代碼會交給一個特殊的驗證器,這個驗證器運行在英偉達H100 GPU上,仔細分析生成的內核代碼。

如果發現代碼有不足的地方,驗證器就會生成新的提示,再把這些提示作為輸入,反饋給DeepSeek-R1。模型根據新的提示,對代碼進行改進,如此循環往復。

工程師們發現,這個過程持續15分鐘,就能得到一個性能更好的注意力內核。

圖片

根據斯坦福大學的KernelBench基準測試,它生成的內核在處理Level-1問題時,在數值上100%是正確的。在處理Level-2問題時,正確率也能達到96% 。

KernelBench Level-1問題解決率,是用來評估LLM為特定計算任務生成高效GPU內核能力的數值正確指標,它是一系列測試LLM GPU編程能力挑戰的一部分。

推理時間預算對生成正確內核的影響也很明顯。從測試結果來看,在Level-1問題中,如果每個問題分配的推理時間超過10分鐘,就能為100個問題中的大多數生成數值正確的代碼。

這也意味著,給模型足夠的「思考時間」,它真的能給出更好的答案。

圖片

利用DeepSeek-R1模型,通過在推理時投入更多計算資源,可以生成比一些熟練工程師開發的優化內核還要好的結果,這為GPU內核的自動化生成開辟了一條新的道路。

目前這項技術還處于早期研究階段,雖然已經取得了一些令人振奮的成果,但要想讓它能穩定地產生更好的結果,還有很多工作要做。

研究者對DeepSeek-R1的最新進展及潛力感到興奮。

責任編輯:張燕妮 來源: 新智元
相關推薦

2025-02-13 12:27:13

2025-02-27 09:09:45

2025-04-07 07:30:00

模型AI訓練

2025-05-07 10:12:52

英偉達模型AI

2025-05-06 15:39:53

DeepSeek-R英偉達開源

2025-02-26 10:24:51

2025-05-19 08:41:00

AI模型開發者

2012-09-29 10:06:56

英偉達測試Tesla K20

2025-05-20 09:02:00

2025-03-19 10:10:43

2024-04-01 12:51:55

AI訓練

2025-04-16 08:50:00

模型AI數據

2025-02-06 09:30:00

2025-04-14 09:15:00

英偉達模型數據

2022-05-12 13:09:18

Linux英偉達開源

2024-10-18 14:46:51

2025-04-07 08:42:00

2024-07-19 13:09:50

2024-11-12 13:07:44

2025-06-12 09:48:27

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 欧美国产免费 | h视频网站在线观看 | 久久新视频 | 成人福利网| 最新中文字幕 | 日本不卡一区二区三区 | 尤物在线精品视频 | 羞羞的视频在线观看 | av香蕉| 亚洲国产黄 | 日韩免费视频一区二区 | 欧美一区二区免费在线 | 欧美v免费 | 国产综合久久 | 一区二区三区在线免费观看视频 | 亚洲网在线 | 亚洲精品在线国产 | 人人干人人爽 | 亚洲韩国精品 | 天天爽天天操 | 999精品网| 国产精品区二区三区日本 | 成年人黄色一级片 | 国产精品美女一区二区 | 日韩一二区| 国产乱人伦| 亚洲中国字幕 | 中文字幕在线一区二区三区 | 久久这里只有精品首页 | 99精品久久久久久久 | 欧美亚洲视频在线观看 | www.黄色在线观看 | 成人在线观看免费视频 | 亚洲视频在线一区 | 欧美精品一二三 | www.日韩 | 天久久 | 日本超碰 | 日韩精品久久久久 | www.色.com | pacopacomama在线 |