发布时间:2025-02-08 14:36:06 点击量:
HASH GAME - Online Skill Game GET 300
智通财经APP获悉,英伟达在AI芯片与PC芯片领域最强竞争对手AMD(AMD.US)的数据中心业务部门业绩未达到市场预期,意味着其在人工智能算力基础设施市场上未能缩小与有着“AI芯片霸主”称号的英伟达(NVDA.US)的巨大市场份额差距。尽管AMD的整体营收超出市场预期,并为当前季度提供了稳健的业绩预测,但对标英伟达数据中心业务(该业务部门涵盖H100/H200以及Blackwell系列高性能AI GPU的销售额)的AMD数据中心业务部门被视为薄弱环节。财报发布后,这家芯片巨头的股价在美股盘后交易中一度下跌超过10%。
这股低成本风暴不仅指的是DeepSeek引领的AI训练与推理端成本大幅下降的新AI算力范式,还指代DeepSeek引领的“精细化的PTX优化浪潮”,打破英伟达最强护城河——“CUDA生态”的独占地位,DeepSeek的底层PTX优化技术提升了对AI基础硬件性能的利用。通过这种方式,微软与亚马逊等云巨头可以更容易地在不同的硬件架构之间切换,PTX允许开发者进行更精细的控制,从而提供比传统CUDA编程更精确的性能优化。
具体的财报数据显示,第四季度,AMD数据中心业务部门的营收规模约为38.6亿美元,同比增长69%,但华尔街分析师此前的普遍预计约为40.9亿美元。该芯片巨头周二在业绩展望部分表示,预计当前季度数据中心业务部门的营收将在68亿至74亿美元之间,分析师普遍预期约为70.4亿美元,其预测区间的中值仅仅略高于分析师预期,相比于其AI芯片最强竞争对手英伟达过去两年数据中心业务营收指数级增长而言,这还不足以让投资者印象深刻。平均而言,分析师们预测该部门将在2025年创造184亿美元营收,意味着有望相比于2024年增长约46%。
AMD首席执行官苏姿丰(Lisa Su)在业绩会议上表示,与AI芯片相关的营收规模将在“未来几年”达到“数百亿美元”级别,并且还预计AMD的数据中心业务部门的营收增长将在2025年下半年将比上半年强劲得多,展望新产品线系列产品的客户需求非常强劲,整体数据中心业务部门在今年有望实现“强劲的两位数增长”。对此,有华尔街分析师表示,AMD已观察到DeepSeek等低成本AI大模型带来的更大规模算力需求,并且AMD的算力产品在AI芯片性价比方面远强于英伟达。
最近几周,中国初创公司DeepSeek所推出的DeepSeek-R1大模型,以极低成本的方式进入AI大模型市场,虽然有分析师表示AMD未来AI芯片销售额将受益于低成本AI算力范式,但AMD在短期内难以避免因训练成本大幅下降带来的“杀估值效应”,跟随英伟达、博通以及阿斯麦等芯片巨头股价暴跌。截至周二收盘,AMD股价今年已下跌1.1%,上周AMD股价的周跌幅巨大,主要因DeepSeek带来的情绪面打击而大跌近6%。
DeepSeek 的低成本+超高效+不输于o1的大模型综合性能,源于对大模型训练流程的每个环节都施加了“极致工程”与“精细微调”,幅降低大模型训练/推理成本。比如,以极致工程为导向的高效训练与数据压缩策略,通过多层注意力(MLA)——尤其对Query端进行低秩化,将连续的Key/Value矩阵进行合并和压缩,大幅减少内存占用,从而在训练时减少激活内存负担,还包括FP8 混合精度训练、DualPipe 并行通信、专家门控(MoE)负载均衡等手段,让 DeepSeek 在训练阶段将硬件资源利用率最大化,减少“不必要的算力浪费”,以及“强化学习(即RL)+蒸馏+专业数据优化”的创新型AI训练举措,无需依赖监督微调(SFT)或人工标注数据。
DeepSeek通过直接操作PTX,进行极限级的硬件优化,包括细粒度的线程/线程束调整和通信优化,这种基于PTX级别的优化允许DeepSeek在H800 GPU上实现更高效的AI算力资源使用。这也是为什么在DeepSeek问世后,AMD第一时间宣布将DeepSeek开源大模型集成到 Instinct MI300X GPU 体系上。这一集成旨在与 SGLang 配合使用,以实现最佳性能。AMD还透露,SGLang与DeepSeek团队通力合作,使 DeepSeek V3 FP8从首发当天就能在英伟达和AMD GPU体系上顺利运行。
AMD全新推出的MI325X性能指标方面,基于台积电3nm制造工艺的MI325X将延续AMD强大的CDNA3构架,同时与英伟达H200一样采用第四代HBM存储系统——HBM3E,内存容量大幅提升至288GB,带宽也将提升至6TB/s,整体的性能将进一步提升,其他方面的基准规格与兼容性则基本与MI300X一致,方便AMD客户升级过渡。MI325X AI性能提升幅度为AMD史上最大幅度,相较竞品英伟达H200将有1.3倍以上提升;AMD MI325X峰值理论FP16是H200的1.3倍左右,1.3 倍于H200的内存带宽,基于每台服务器的模型大小是H200的2倍。