成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<kbd id="algin"></kbd>

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

AI.x社區

登錄/注冊
51CTO

中國優質的IT技術網站

51CTO博客

專業IT技術創作平臺

51CTO學堂

IT職業在線教育平臺

AMD AI芯片被曝軟件有大量bug、無法開箱即用!難成英偉達平替！原創

發布于 2024-12-25 14:09

瀏覽

0收藏

編輯 | 伊風

出品 | 51CTO技術棧（微信號：blog51cto）

AMD的旗艦AI GPU加速器，被曝軟件存在大量bug，幾乎無法用于訓練AI模型？！

這事挺讓人意外的，因為它可是AMD用來阻擊霸主英偉達的一張王牌。

去年12月，AMD在自家的“Advancing AI”活動中，首次宣布推出了MI300X，其性能比英偉達的 H100 足足高出 60%！

AMD AI芯片被曝軟件有大量bug、無法開箱即用!難成英偉達平替！-AI.x社區圖片

一年過去了，已經投產的AMD MI300X是否真有當時宣傳的那么強勁？

技術分析公司SemiAnalysis發了一份真實、詳盡的報告，感覺太打臉了……他們對 @NVIDIA H100/H200 GPU 和 @AMD MI300X 的性能進行了比較，揭開了發布會數據與現實的殘忍鴻溝！

這份報告有多真實呢？報告中一點拐彎抹角也沒有，直接說：AMD 的軟件體驗充滿了 bug，使得 MI300X 的開箱即用訓練幾乎不可能。

報告中還給了個細節：這份歷時五個月的調查報告，本來計劃幾個月前就發布——但都被AMD的軟件bug給生生耽誤了！

報告團隊直接聯系了 AMD技術人員一起debug！

“為了讓 MI300X 的表現不因軟件棧的 bug 而受限，我們花費了大量時間定位和修復 AMD 軟件的 bug，而非僅僅展示開箱性能問題?！?/p>

報告中提到：我們與 AMD 的反復互動旨在確保我們的測試能夠客觀地評估實際用戶可能遇到的體驗。

這個體驗差不說。主要問題是，不是所有用戶都有機會聯系上AMD副總裁解決這些bug吧……

看來，英偉達的“CUDA護城河”依然穩穩的很安心。

MI300X暫時無法匹敵對手的芯片，報告說，AMD的改進仍有許多的工作要做，”如果軟件沒有實質性的改進，AMD可能會進一步落后，尤其是在Nvidia即將推出下一代Blackwell芯片的情況下。”

那么AMD的MI300X關鍵問題有哪些？我們梳理了這份報告的Key Findings ，然后看看已經囤了AMD卡的該如何“補救”一下。

一、“如果不是AMD工程師幫助，其效能會遠低于Nvidia”

SemiAnalysis團隊透露，他們和蘇姿豐會面談了1.5個小時，并向蘇媽給了很多的建議。

蘇媽承認 AMD 軟件棧中存在缺陷。并且也大方回復，表示聽勸。

AMD AI芯片被曝軟件有大量bug、無法開箱即用!難成英偉達平替！-AI.x社區圖片

我們詳細看看報告中AMD MI300X 問題的部分：

僅從理論上的FLOP/s和HBM帶寬/容量進行比較，就像僅憑相機的像素數來評估相機性能一樣。真正判斷性能的唯一方法是運行實際的基準測試。
Nvidia的“開箱即用”性能和用戶體驗非常出色，我們在基準測試中沒有遇到任何Nvidia特有的Bug。Nvidia僅安排了一名工程師為我們提供技術支持，但由于我們沒有遇到Nvidia軟件問題，因此幾乎不需要額外支持。
相比之下，AMD的“開箱即用”體驗非常難以使用，需要相當的耐心和努力才能達到可用狀態。在我們的大部分基準測試中，AMD PyTorch公共穩定版本仍然存在問題，需要通過各種變通方法來解決。
如果沒有AMD多支工程師團隊的支持來排查和修復我們遇到的軟件問題，AMD的結果會遠低于Nvidia的水平。
我們與Sustainable Metal Cloud合作，在256塊Nvidia H100上運行了非官方的MLPerf訓練GPT-3 175B模型，以測試不同VBoost設置的效果。
對于AMD而言，其公開穩定版本軟件的實際性能遠遠低于其宣傳的理論TFLOP/s。Nvidia的實際性能同樣低于宣傳的理論TFLOP/s，但差距沒有AMD那么大。
雖然MI300X的總體擁有成本（TCO）比H100/H200更低，但基于AMD公開穩定版本軟件的訓練性能在TCO維度上的表現更差。不過，如果使用AMD軟件的定制開發版本，情況會有所改變。
在訓練性能上，MI300X在矩陣乘法微基準測試中的表現較弱，基于AMD公共版本軟件的單節點訓練吞吐量仍然落后于Nvidia的H100和H200。
MI300X的性能受限于AMD的軟件。雖然MI300X在BF16開發分支上的性能有所改善，但這些改進尚未合并到AMD內部代碼庫的主分支中，也沒有進入PyTorch穩定版本。在這些改進被合并并發布之前，Nvidia的下一代Blackwell可能已經上市了。
AMD的訓練性能還受到MI300X擴展性能較弱的限制。這是由于其ROCm計算通信庫（RCCL）的弱點，以及與Nvidia相比，AMD在網絡和交換硬件的垂直整合程度較低。而Nvidia通過其Nvidia集體通信庫（NCCL）、InfiniBand/Spectrum-X網絡結構和交換機實現了高度的整合。
AMD的許多AI庫是Nvidia AI庫的分支版本，這導致了次優的結果和兼容性問題。
AMD的客戶通常僅在推理時使用手工優化的內核，這意味著其性能僅限于非常狹窄且定義明確的用例，而在快速變化的工作負載下缺乏靈活性。

需要查看完整報告的朋友，地址在這里↓：

?? https://semianalysis.com/2024/12/22/mi300x-vs-h100-vs-h200-benchmark-part-1-training/??

二、機器學習編譯技術，讓AMD變得更“好用”

雖然AMD GPU的軟件棧有硬傷，但也不是完全無解的。

Hacker News上熱議的一篇技術博客，講解了他們如何使用機器學習編譯技術，讓AMD能和NVIDIA的卡掰掰手腕。

通過機器學習編譯（MLC）技術，在性能優化和自動化配置上解決了AMD GPU在軟件層面的主要缺陷。

最終實現的效果：能在AMD GPU 上使用 ROCm 部署 LLM ，而且性能極具競爭力！

通過他們的 MLC-LLM 項目，AMD Radeon RX 7900 XTX 的推理性能已經接近 NVIDIA RTX 3090 Ti 的 94%，并達到 RTX 4090 的 80%。

AMD AI芯片被曝軟件有大量bug、無法開箱即用!難成英偉達平替！-AI.x社區圖片

通過機器編譯技術，復雜的手動優化工作實現了自動化。巧妙解決了AMD用戶手動設置大量環境變量（如幾十個）來優化性能的痛點。

MLC-LLM 項目做到這些的核心原理有三：

自動生成最優計算路徑
替代手動調參，提升易用性
高效利用硬件特性

關于具體實現方法，請跳轉該博客進行閱讀：

?? https://blog.mlc.ai/2023/08/09/Making-AMD-GPUs-competitive-for-LLM-inference??

三、寫在最后：英偉達的領先態勢還將繼續

這篇技術報告揭露的問題，讓我們看到了發布會和現實的差距。

一位前NVIDIA的技術人員說，“除了實驗性硬件規格之外，還有許多事情要做”。

AMD AI芯片被曝軟件有大量bug、無法開箱即用!難成英偉達平替！-AI.x社區圖片

Nvidia的CUDA生態已然是修好的高速公路，一路暢通；而AMD的生態目前仍像是一條坑坑洼洼的鄉村小路——開發者需要花很多時間修路。

AMD的消費級 GPU 基于 RDNA 架構，而數據中心級 GPU 基于 CDNA 架構，預計到 2026 年， AMD 才會發布統一的 UDNA 架構。

AMD AI芯片被曝軟件有大量bug、無法開箱即用!難成英偉達平替！-AI.x社區圖片

在AMD修路的時候，英偉達的工程師還在加班加點，通過新功能、新庫和性能更新來加深護城河。

在如此深的護城河下，沒有英偉達的平替。

?本文轉載自??51CTO技術棧??，作者：伊風

?著作權歸作者所有，如需轉載，請注明出處，否則將追究法律責任

標簽

已于2024-12-25 14:27:25修改

贊

收藏

回復

舉報

回復

相關推薦

英偉達股價暴跌！或與 Llama 3 發布有關？

開發者阿橙 ? 3673瀏覽 ? 0回復
英偉達開源大模型對齊框架—NeMo-Aligner

Aceryt ? 3260瀏覽 ? 0回復
清華推出首個通用城市時空預測模型UniST，零樣本場景開箱即用｜KDD2024

Crystalcxt ? 3106瀏覽 ? 0回復
GPT-4o攻破ARC-AGI無法被挑戰的神話！71%準確率成新SOTA

angel ? 2538瀏覽 ? 0回復
英偉達拼了！突破拜登政府芯片出口限制，為中國定制旗艦版B20!

51CTO技術棧 ? 2713瀏覽 ? 0回復
Fooocus：一款開箱即用的圖片生成軟件

sword_hero ? 3649瀏覽 ? 0回復
英偉達NVLM多模態大模型細節和數據集

大模型自然語言處理 ? 2777瀏覽 ? 0回復
博通連續30天暴漲，英偉達將遭平替？AMD優勢不夠，英偉達卡生產過剩

51CTO技術棧 ? 2810瀏覽 ? 0回復
曝英偉達:78%員工是百萬富翁，每兩人就有一個資產過億！

51CTO技術棧 ? 2961瀏覽 ? 0回復
DeepSeek上線國家超算互聯網平臺，免注冊開箱即用！

51CTO技術棧 ? 1.2w瀏覽 ? 0回復
DeepSeek被曝估值1500億達OpenAI一半？巴黎地鐵70歲老人都在聊！

duhorse ? 2338瀏覽 ? 0回復
Claude 4被曝發布在即！DeepSeek把大招都給逼出來了

Crystalcxt ? 2023瀏覽 ? 0回復
英偉達發布天氣模型CorrDiff，預測效率大漲

Aceryt ? 2033瀏覽 ? 0回復
試試這幾款開箱即用的computer use智能體，附教程

王吉偉自頻道 ? 5888瀏覽 ? 0回復
五分鐘讀懂Manus平替：深度解析OpenManus 如何重新定義Multi Agent?

AI博物院 ? 5302瀏覽 ? 0回復
英偉達全力發展AI Agent！開源專屬大模型，最強AI工廠

Aceryt ? 1827瀏覽 ? 0回復
英偉達 GTC 2025：從芯片到機器人，AI 未來已來，市場為何不買賬？

Halo咯咯 ? 2036瀏覽 ? 0回復
英偉達押注Agent新基建！AI專屬搜索引擎問世

探索AGI ? 1864瀏覽 ? 0回復
2.2k Star通用型、開源Agent平替Manus、GenSpark AI

CourseAI ? 1048瀏覽 ? 0回復

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

最近發布

熱門推薦

本命周！MiniMax M1有多猛？網友：僅用40k思考預算就干翻Gemini，實測：真·超DS！ 1回復

Devin聯合創始人：別搞多智能體系統！微軟和OpenAI鼓吹的代理構建理念大錯特錯！ 1回復

從原理到調參，小白也能讀懂的大模型微調LoRA，不懂線性代數也沒問題 0回復

Deepseek R1 0528實測：性能直逼頂尖，普通電腦本地運行全攻略 0回復

AI Agents開源工具棧全解析~ 0回復

上一篇： GPT5基本玩崩了！谷歌和Meta勝算很大！AI投資人爆料：Meta承接谷歌搜索后，或收購某獨角獸

下一篇：勁爆！理想汽車轉做大模型，主持人質疑李想是否跟風：你有理想嗎？

社區精華內容

目錄

主站蜘蛛池模板：播放一级毛片 | 中文字幕a√ | 在线观看亚洲精品 | 国产一区二区精品在线 | 国产精品欧美精品日韩精品 | 伊人超碰| 久久精品无码一区二区三区 | 本地毛片 | 影视一区 | av网站在线播放 | 精品国产区 | 国产精品久久久久久一级毛片 | 国产亚洲一区二区三区在线观看 | 一级做受毛片免费大片 | 精品久久久久久久久久久久 | 岛国av免费看 | 三级黄色片在线观看 | 国产亚洲一区二区三区在线观看 | 日韩在线观看网站 | 在线观看中文字幕 | 久热中文字幕 | 天天干天天爽 | 精品国产欧美一区二区 | 日韩精品视频在线观看一区二区三区 | 成人一区av | 久久久久一区二区三区四区 | 天堂成人国产精品一区 | 日韩免费视频 | 偷派自拍 | 日韩欧美亚洲综合 | 久久综合成人精品亚洲另类欧美 | 日韩久久久久 | 久久成人综合 | 国产免费黄网 | 99久久久无码国产精品 | 亚洲欧美在线观看 | 亚洲国产成人在线视频 | 久久精品久久综合 | 国产欧美在线 | 日韩在线免费 | 一区二区三区视频在线 |

<video id="zcijv"></video>

<table id="zcijv"></table>

<s id="zcijv"></s>