成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

AMD AI芯片被曝軟件有大量bug、無法開箱即用!難成英偉達平替! 原創

發布于 2024-12-25 14:09
瀏覽
0收藏

編輯 | 伊風

出品 | 51CTO技術棧(微信號:blog51cto)

AMD的旗艦AI GPU加速器,被曝軟件存在大量bug,幾乎無法用于訓練AI模型?!

這事挺讓人意外的,因為它可是AMD用來阻擊霸主英偉達的一張王牌。

去年12月,AMD在自家的“Advancing AI”活動中,首次宣布推出了MI300X,其性能比英偉達的 H100 足足高出 60%!

AMD AI芯片被曝軟件有大量bug、無法開箱即用!難成英偉達平替!-AI.x社區圖片

一年過去了,已經投產的AMD MI300X是否真有當時宣傳的那么強勁?

技術分析公司SemiAnalysis發了一份真實、詳盡的報告,感覺太打臉了……他們對 @NVIDIA H100/H200 GPU 和 @AMD MI300X 的性能進行了比較,揭開了發布會數據與現實的殘忍鴻溝!

這份報告有多真實呢?報告中一點拐彎抹角也沒有,直接說:AMD 的軟件體驗充滿了 bug,使得 MI300X 的開箱即用訓練幾乎不可能。

報告中還給了個細節:這份歷時五個月的調查報告,本來計劃幾個月前就發布——但都被AMD的軟件bug給生生耽誤了!

報告團隊直接聯系了 AMD技術人員一起debug!

“為了讓 MI300X 的表現不因軟件棧的 bug 而受限,我們花費了大量時間定位和修復 AMD 軟件的 bug,而非僅僅展示開箱性能問題?!?/p>

報告中提到:我們與 AMD 的反復互動旨在確保我們的測試能夠客觀地評估實際用戶可能遇到的體驗。

這個體驗差不說。主要問題是,不是所有用戶都有機會聯系上AMD副總裁解決這些bug吧……

看來,英偉達的“CUDA護城河”依然穩穩的很安心。

MI300X暫時無法匹敵對手的芯片,報告說,AMD的改進仍有許多的工作要做,”如果軟件沒有實質性的改進,AMD可能會進一步落后,尤其是在Nvidia即將推出下一代Blackwell芯片的情況下。”

那么AMD的MI300X關鍵問題有哪些?我們梳理了這份報告的Key Findings ,然后看看已經囤了AMD卡的該如何“補救”一下。

一、“如果不是AMD工程師幫助,其效能會遠低于Nvidia”

SemiAnalysis團隊透露,他們和蘇姿豐會面談了1.5個小時,并向蘇媽給了很多的建議。

蘇媽承認 AMD 軟件棧中存在缺陷。并且也大方回復,表示聽勸。

AMD AI芯片被曝軟件有大量bug、無法開箱即用!難成英偉達平替!-AI.x社區圖片

我們詳細看看報告中AMD MI300X 問題的部分:

  1. 僅從理論上的FLOP/s和HBM帶寬/容量進行比較,就像僅憑相機的像素數來評估相機性能一樣。真正判斷性能的唯一方法是運行實際的基準測試。
  2. Nvidia的“開箱即用”性能和用戶體驗非常出色,我們在基準測試中沒有遇到任何Nvidia特有的Bug。Nvidia僅安排了一名工程師為我們提供技術支持,但由于我們沒有遇到Nvidia軟件問題,因此幾乎不需要額外支持。
  3. 相比之下,AMD的“開箱即用”體驗非常難以使用,需要相當的耐心和努力才能達到可用狀態。在我們的大部分基準測試中,AMD PyTorch公共穩定版本仍然存在問題,需要通過各種變通方法來解決。
  4. 如果沒有AMD多支工程師團隊的支持來排查和修復我們遇到的軟件問題,AMD的結果會遠低于Nvidia的水平。
  5. 我們與Sustainable Metal Cloud合作,在256塊Nvidia H100上運行了非官方的MLPerf訓練GPT-3 175B模型,以測試不同VBoost設置的效果。
  6. 對于AMD而言,其公開穩定版本軟件的實際性能遠遠低于其宣傳的理論TFLOP/s。Nvidia的實際性能同樣低于宣傳的理論TFLOP/s,但差距沒有AMD那么大。
  7. 雖然MI300X的總體擁有成本(TCO)比H100/H200更低,但基于AMD公開穩定版本軟件的訓練性能在TCO維度上的表現更差。不過,如果使用AMD軟件的定制開發版本,情況會有所改變。
  8. 在訓練性能上,MI300X在矩陣乘法微基準測試中的表現較弱,基于AMD公共版本軟件的單節點訓練吞吐量仍然落后于Nvidia的H100和H200。
  9. MI300X的性能受限于AMD的軟件。雖然MI300X在BF16開發分支上的性能有所改善,但這些改進尚未合并到AMD內部代碼庫的主分支中,也沒有進入PyTorch穩定版本。在這些改進被合并并發布之前,Nvidia的下一代Blackwell可能已經上市了。
  10. AMD的訓練性能還受到MI300X擴展性能較弱的限制。這是由于其ROCm計算通信庫(RCCL)的弱點,以及與Nvidia相比,AMD在網絡和交換硬件的垂直整合程度較低。而Nvidia通過其Nvidia集體通信庫(NCCL)、InfiniBand/Spectrum-X網絡結構和交換機實現了高度的整合。
  11. AMD的許多AI庫是Nvidia AI庫的分支版本,這導致了次優的結果和兼容性問題。
  12. AMD的客戶通常僅在推理時使用手工優化的內核,這意味著其性能僅限于非常狹窄且定義明確的用例,而在快速變化的工作負載下缺乏靈活性。

需要查看完整報告的朋友,地址在這里↓:

?? https://semianalysis.com/2024/12/22/mi300x-vs-h100-vs-h200-benchmark-part-1-training/??

二、機器學習編譯技術,讓AMD變得更“好用”

雖然AMD GPU的軟件棧有硬傷,但也不是完全無解的。

Hacker News上熱議的一篇技術博客,講解了他們如何使用機器學習編譯技術,讓AMD能和NVIDIA的卡掰掰手腕。

通過機器學習編譯(MLC)技術,在性能優化和自動化配置上解決了AMD GPU在軟件層面的主要缺陷。

最終實現的效果:能在AMD GPU 上使用 ROCm 部署 LLM ,而且性能極具競爭力!

通過他們的 MLC-LLM 項目,AMD Radeon RX 7900 XTX 的推理性能已經接近 NVIDIA RTX 3090 Ti 的 94%,并達到 RTX 4090 的 80%。

AMD AI芯片被曝軟件有大量bug、無法開箱即用!難成英偉達平替!-AI.x社區圖片

通過機器編譯技術,復雜的手動優化工作實現了自動化。巧妙解決了AMD用戶手動設置大量環境變量(如幾十個)來優化性能的痛點。

MLC-LLM 項目做到這些的核心原理有三:

  • 自動生成最優計算路徑
  • 替代手動調參,提升易用性
  • 高效利用硬件特性

關于具體實現方法,請跳轉該博客進行閱讀:

?? https://blog.mlc.ai/2023/08/09/Making-AMD-GPUs-competitive-for-LLM-inference??

三、寫在最后:英偉達的領先態勢還將繼續

這篇技術報告揭露的問題,讓我們看到了發布會和現實的差距。

一位前NVIDIA的技術人員說,“除了實驗性硬件規格之外,還有許多事情要做”。

AMD AI芯片被曝軟件有大量bug、無法開箱即用!難成英偉達平替!-AI.x社區圖片

Nvidia的CUDA生態已然是修好的高速公路,一路暢通;而AMD的生態目前仍像是一條坑坑洼洼的鄉村小路——開發者需要花很多時間修路。

AMD的消費級 GPU 基于 RDNA 架構,而數據中心級 GPU 基于 CDNA 架構,預計到 2026 年, AMD 才會發布統一的 UDNA 架構。

AMD AI芯片被曝軟件有大量bug、無法開箱即用!難成英偉達平替!-AI.x社區圖片

在AMD修路的時候,英偉達的工程師還在加班加點,通過新功能、新庫和性能更新來加深護城河。

在如此深的護城河下,沒有英偉達的平替。

?本文轉載自??51CTO技術棧??,作者:伊風


?著作權歸作者所有,如需轉載,請注明出處,否則將追究法律責任
已于2024-12-25 14:27:25修改
收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 播放一级毛片 | 中文字幕a√ | 在线观看亚洲精品 | 国产一区二区精品在线 | 国产精品欧美精品日韩精品 | 伊人超碰| 久久精品无码一区二区三区 | 本地毛片 | 影视一区 | av网站在线播放 | 精品国产区 | 国产精品久久久久久一级毛片 | 国产亚洲一区二区三区在线观看 | 一级做受毛片免费大片 | 精品久久久久久久久久久久 | 岛国av免费看 | 三级黄色片在线观看 | 国产亚洲一区二区三区在线观看 | 日韩在线观看网站 | 在线观看中文字幕 | 久热中文字幕 | 天天干天天爽 | 精品国产欧美一区二区 | 日韩精品视频在线观看一区二区三区 | 成人一区av | 久久久久一区二区三区四区 | 天堂成人国产精品一区 | 日韩免费视频 | 偷派自拍 | 日韩欧美亚洲综合 | 久久综合成人精品亚洲另类欧美 | 日韩久久久久 | 久久成人综合 | 国产免费黄网 | 99久久久无码国产精品 | 亚洲欧美在线观看 | 亚洲国产成人在线视频 | 久久精品久久综合 | 国产欧美在线 | 日韩在线免费 | 一区二区三区视频在线 |