比英偉達工程師還熟練！DeepSeek R1+測試時Scaling自動優化GPU內核

作者：新智元 2025-02-17 09:10:00

英偉達巧妙地將DeepSeek-R1與推理時擴展相結合，構建了全新工作流程，自動優化生成GPU內核，取得了令人矚目的成果。

本周英偉達的一篇技術博客引發了業界震動！

英偉達的團隊嘗試利用DeepSeek-R1和推理時擴展實現GPU內核生成自動化，效果極佳。

隨著AI模型的擴展，推理時擴展（inference-time scaling），也叫測試時擴展（test-time scaling）正閃亮登場。

推理時擴展就像是給AI模型配備了一個「智慧錦囊」。當模型進行推理時，它會額外分配計算資源，讓模型有能力評估多種可能的結果，然后從中挑選出最優解。

通過這種方式，AI可以像人類一樣，有條不紊地剖析復雜問題，找到最佳解決方案。

為了充分發揮DeepSeek-R1的優勢，同時克服其在生成優化GPU內核時遇到的困難，英偉達的工程師們想出了一個創新的方法——將推理時擴展技術與DeepSeek-R1相結合，構建了一種全新的工作流程。

他們使用DeepSeek-R1，在推理過程中借助額外的計算能力來解決一個復雜問題：旨在自動生成數值正確且針對不同類型注意力機制進行優化的GPU注意力內核，整個過程無需任何顯式編程。

在某些情況下，R1生成的內核甚至比嫻熟的工程師開發出來的還要出色！

對此，網友評價道：「英偉達是在毀掉自己的護城河嗎？」

深入了解推理時擴展技術如何發揮作用之前，先要認識一個LLM中至關重要的概念——注意力機制。

注意力機制就像是「聚光燈」，能讓AI模型在處理任務時，有選擇地聚焦在輸入信息中最相關的部分，快速找到關鍵語句，做出更準確的預測，發現數據中的隱藏模式。

但是，注意力操作的計算復雜度與輸入序列長度的平方成正比。輸入的文本越長，模型處理起來就會越吃力，不僅計算量大幅增加，還可能出現運行時錯誤，比如內存不足的情況。

為了避免這些問題，提高計算效率，開發優化的底層實現，也就是GPU內核，十分必要。

另外，注意力機制有多種不同的變體，像因果注意力、相對位置嵌入、alibi等。工程師們在面對不同的任務時，往往需要把這些變體組合起來使用。

在多模態模型，比如視覺Transformer中，需要專門的注意力機制，像空間鄰域注意力（Spatial Neighborhood Attention），來處理計算機視覺、視頻生成模型中常見的時空信息。

開發一個優化的GPU注意力內核，對經驗豐富的軟件工程師來說，也是一項艱巨的任務，費時費力。

盡管像DeepSeek-R1這樣的模型在代碼生成任務中展現出了很大的潛力，但它們在第一次嘗試生成優化代碼時，還是會遇到不少挑戰。

這使得在推理時必須使用其他策略來生成優化代碼。

以下是為相對位置嵌入注意力內核輸入的示例用戶提示。

模型有時會產生幻覺，生成一些「不靠譜」的代碼，要么在語法上有錯誤，要么把不同語言或框架的語法混在一起，導致無法運行或效率低下。

計算最優的GPU線程映射也不是一件容易的事，通常需要反復調整優化，才能得到一個正確又高效的內核。

為了攻克優化GPU注意力內核這個難題，英偉達的工程師們想出了一個巧妙的辦法，他們把DeepSeek-R1模型和推理時擴展技術結合起來，創造了一種新的工作流程。

一開始，工程師會手動輸入一個提示。然后，DeepSeek-R1會根據這個提示，在第一次遍歷中生成GPU代碼，也就是內核代碼。

生成的代碼會交給一個特殊的驗證器，這個驗證器運行在英偉達H100 GPU上，仔細分析生成的內核代碼。

如果發現代碼有不足的地方，驗證器就會生成新的提示，再把這些提示作為輸入，反饋給DeepSeek-R1。模型根據新的提示，對代碼進行改進，如此循環往復。

工程師們發現，這個過程持續15分鐘，就能得到一個性能更好的注意力內核。

根據斯坦福大學的KernelBench基準測試，它生成的內核在處理Level-1問題時，在數值上100%是正確的。在處理Level-2問題時，正確率也能達到96% 。

KernelBench Level-1問題解決率，是用來評估LLM為特定計算任務生成高效GPU內核能力的數值正確指標，它是一系列測試LLM GPU編程能力挑戰的一部分。

推理時間預算對生成正確內核的影響也很明顯。從測試結果來看，在Level-1問題中，如果每個問題分配的推理時間超過10分鐘，就能為100個問題中的大多數生成數值正確的代碼。

這也意味著，給模型足夠的「思考時間」，它真的能給出更好的答案。

利用DeepSeek-R1模型，通過在推理時投入更多計算資源，可以生成比一些熟練工程師開發的優化內核還要好的結果，這為GPU內核的自動化生成開辟了一條新的道路。

目前這項技術還處于早期研究階段，雖然已經取得了一些令人振奮的成果，但要想讓它能穩定地產生更好的結果，還有很多工作要做。

研究者對DeepSeek-R1的最新進展及潛力感到興奮。

責任編輯：張燕妮來源：新智元

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看