文 | 半导体产业纵横
GPU 万卡集群,小米下场了!摩尔线程智算集群膨胀至万卡!中国移动将商用三个自主可控万卡集群 ...... 一系列标题的袭来,让笔者骤然意志到,仿佛在不经意间,智能算力开垦已然迈入万卡期间。
那么到底什么是万卡集群?万卡集群到底有哪些作用?有必要部署万卡集群吗?
01 什么是万卡集群?
万卡集群,是指由迥殊一万张加快卡(如 GPU、TPU 或其他专用 AI 加快芯片)构成的高性能野心系统,用以加快东谈主工智能模子的测验和推理经过。
至于为什么需要一万张加快卡?
人所共知,大模子竞赛的骨子是算力竞赛。比如这里有一个超大土堆,放一个工东谈主和放一万个工东谈主,在效果上细则会有质的飞跃。
以 OpenAI 测验 GPT 模子为例,GPT-4 需要使用 2.5 万张英伟达 A100 GPU,并行测验 100 天傍边的期间,在此期间要处理 13 万亿个 token,况且波及约莫 1.76 万亿个参数。在不久的翌日,开发大模子所需的算力将兑现指数级的增长,关于行将亮相的 GPT-5,瞻望该模子的测验需要部署 20 万 ~30 万个 H100 GPU,耗时 130~200 天。
如今 OpenAI 发布 ChatGPT 已有两年的期间,从开垦程度上看,国外头部厂商在 2022 年、2023 年仍是完成万卡集群搭建。比如 2023 年 5 月,谷歌推出的 AI 超等野心计 A3,搭载了约 26000 块英伟达 H100 GPU;2022 年,META 文告了一个由 1.6 万块英伟达 A100 GPU 构成的集群。到了 2024 年头,META 进一步扩大限度,建成了两个各含 24576 块 GPU 的集群,并设定了宏伟指标:到 2024 年底,构建一个包含 35 万块英伟达 H100 GPU 的强大基础技艺。亚马逊 Amazon EC2 Ultra 集群选拔了 2 万个 H100 TensorCore GPU。
再看中国的智能算力开垦情况。
02 国产万卡集群,谁在布局?
日前,中国工程院院士郑纬民指出,"构开国产 AI 卡的万卡大模子测验平台很难,但也很报复以及必要。"
当下,国内已有多家厂商及机构入辖下手向万卡集群边界拓展业务。
凭证《智算产业发展征询默契注解 ( 2024 ) 》骄气,在中国,超万卡集群的智算中心已达十余个。
本年以来, 中国移动 、联通、电信三大运营商均在加快鼓动超万卡集群智算中心的开垦。
本年 8 月,中国电信在智算收罗开垦方面获得了显耀进展,其上海与北京两大万卡集群已到手投产运营。
中国移动位于呼和浩特、哈尔滨、贵阳的万卡级别的智算中心仍是先后投产运行。据悉,三大集群总限度近 6 万张 GPU 卡,充分隆渊博模子网络测验需求。
中国联通正在打造上海、呼和万卡智算集群,全网智算算力超 15EFLOPS,发布 AICC、AICP、星罗调治平台等五大智算家具,提供涵盖国度"东数西算"要害、31 省要点城市、超 600 边际节点的 AIDC 基座。
小米也正接头开垦一座 GPU 万卡集群。据悉,小米在其大模子团队成当场仍是领有 6500 张 GPU 资源。
字节在 2023 年就已建立起迥殊 1 万张卡的 Ampere 架构 GPU (A100/A800) 集群,而后还在开垦大限度 Hopper 架构(H100/H800)集群。
如今,"万卡集群"被业界视作是这一轮大模子竞赛的"入场券",致使还有不少厂商仍是开动布局"十万卡集群"。
百度的百舸 4.0 通过一系列家具时期翻新,仍是大概兑现十万卡集群的高效经管。
阿里巴巴的阿里云可兑现芯片、处事器、数据中心之间的高效协同,援助 10 万卡量级的集群可膨胀限度,已处事寰球一半的东谈主工智能大模子企业。
腾讯已文告自研星脉高性能野心收罗全面升级,星脉收罗 2.0 搭载全自研的收罗设备与 AI 算力网卡,大概援助超 10 万卡大限度组网,收罗通讯效果比上一代普及 60%,让大模子测验效果普及 20%。
03 国产 AI 芯片公司,得到利好
较着,在运营商以及科技巨头纷繁入场布局之际,国产 AI 芯片公司也迎来利好。
华为昇腾
据悉,以政府为主导的城市智能野心中心多选拔国产 A1 芯片中的杰出人物如华为昇腾等,其中华为更是在统计的 20 多个城市为主体的智能野心中心中占据 79% 的商场份额,处于国产 AI 芯片的当先位置。在可预料的 2025 年,昇腾芯片及处事器的商场依旧会处于急切的供给时局。
寒武纪
2023 年寒武纪想元(MLU)系列云表智能加快卡在中国移动矜重上线。截止 2023 年 12 月,中国移动已有 12 个省公司、迥殊 70 个 AI 业务完成向寒武纪想元系列云表智能加快卡的迁徙。
2024 年 8 月,中国移动云才能中心参建的全球运营商最大单集群智算中心——中国移动智算中心(哈尔滨)矜重投产使用。该智算中心部署超 1.8 万张 AI 加快卡,AI 芯片国产化率达 100%,可提供 6.9EFLOPS(每秒 690 亿亿次浮点运算)智能算力。据悉,该智算中心等于由寒武纪参与开垦。
南京智能野心中心由南京市麒麟科技翻新园与波澜、寒武纪共同打造,选拔波澜 AI 处事器算力机组,搭载当先的寒武纪想元 270 和想元 290 智能芯片及加快卡,已运营系统的 AI 野心才能达每秒 80 亿亿次 ( 800P OpS ) 。
大模子爆火确当下,AI 的测验和推理芯片及训推一体化等芯片成为商场"香饽饽",寒武纪在此边界的深耕研发,加快想元系列芯片的迭代。
摩尔线程
2023 年 12 月摩尔线程 KUAE 智算中心揭幕,这是国内首个以国产全功能 GPU 为底座的大限度算力集群,以全功能 GPU 为底座,提供软硬一体化的全栈惩办决策。
2024 年 7 月,摩尔线程聚合中国移动通讯集团青海有限公司、中国联通青海公司、北京德谈信科集团、中国动力开垦股份有限公司总承包公司、桂林华崛大数据科技有限公司等,划分就三个万卡集群边幅进行了策略签约,多方将聚力共同构建好用的国产 GPU 集群。
燧原科技
2021 年燧原科技与之江实验室在之江实验室南湖新园区签约成就"燧原 - 之江东谈主工智能芯片聚合征询中心"。
成渝智算中心由四川并济科技投建,燧原科技提供搭建算力底座。
与此同期,燧原科技还助力太湖亿芯(无锡)智算中心、甘肃庆阳算力要害的开垦。
天数智芯
中国移动智算中心(呼和浩特)是全球运营商边界内限度最大的单体液冷智算中心,智算限度高达 6.7EFLOPS(FP16),领有国度级 N 节点万卡限度 AI 测验场。
天数智芯在该边幅中充分阐明天垓 150 家具的超卓性能与闲居适用性,与新华三信息时期强强聚合,共同打造高性能 AI 测验处事器。
壁仞科技
壁仞科技也参与中国移动呼和浩特智算中心边幅。
此外,壁仞科技的壁砺系列通用 GPU 算力家具还在中国电信落地千卡集群并开展交易化应用,另外皮中国电信集团新一轮国产化 GPU 集采边幅中,壁仞科技的主流 GPU 家具仍是纳入中国电信的集采名录,成为中国电信的主要 GPU 供应商。
沐曦科技
2024 年 11 月,由上海联通联袂加佳科技、沐曦共同打造的曦源一号 SADA 万卡集群算力边幅第一期千卡国产算力集群在上海联通临港机房矜重落地。该边幅以沐曦 GPU 芯骤然期家具为中枢,服从构建集算力、算法、数据、产业应用为一体的东谈主工智能产业更生态。
据悉,沐曦和加佳科技已在上海、湖南、江苏等多地建成智算中心,并接头于 2025 年 6 月完成 10000 卡国产高质地算力开垦。
04 何啻"万卡",致使要"百万卡"
从早期智算中心高深起步,一步步发展到如今 "万卡" 限度的算力集群纷繁落地,这无疑是巨大的飞跃。当下,行业头部厂商更是将视线进一步拓宽,已然聚焦于更为宽绰的 "百万卡" 指标。
近日,在 AI 商场快速增长的布景下,博通市值破损 1 万亿好意思元,创下历史新高。
博通首席推行官陈福阳暗示,他有信心在 2020 年代后期链接加大对东谈主工智能的投资。他指出,三年内,博通的客户接头构建配备数百万个 AI 芯片的大限度野心集群,从而推动商场大幅增长。
博通正与三大客户勾搭开发 AI 芯片,接头到 2027 年在收罗集群中部署 100 万个芯片。据 CNBC 报谈,他估量,到 2027 年,其 XPU 和 AI 收罗组件的总商场限度将达到 600 亿至 900 亿好意思元。
固然博通尚未矜重公布其芯片客户,但分析师暗示,该公司正在与谷歌、Meta 和字节当先勾搭,以加快 AI 系统的测验和部署。据《金融时报》报谈,该公司已为此开发了定制处理器。
05 "万卡集群"真实有必要吗?
先说论断,"万卡集群"的开垦一定是有必要的。
现时,我国智能算力供不应求的问题较为杰出,大模子对算力的需求增速远超单颗 AI 芯片性能的普及举止。联系阐较着示,2023 年,中国智能算力需求达 123.6EFLOPS,而供给仅为 57.9EFLOPS,供需缺口一目了然。利用集群互联弥补单卡性能短板,或是现阶段缓解 AI 算力荒最值得探索与执行的有用路线。
不外,在鼓动 "万卡集群" 开垦进程中,有两大关键贫瘠亟待惩办:其一,怎样高质地完成开垦任务,保证集群在相识性、高效性、兼容性等多方面达到标准条件;其二,建成后怎样充分挖掘其应用价值,使其在东谈主工智能测验、大数据分析等适配场景阐明最大作用,根绝资源空置与铺张稳重。
首先,不妨将 "万卡集群" 类比为参与 "多东谈主多足" 游戏的团队,公共都了了,让一群东谈主如兼并个东谈主般整皆整齐地前行并非易事,要调治上万张野心卡协同高效功课、达成性能的线性膨胀、确保任务无绝交运行,这对集群的遐想、调治以及容错才能都提议了极高挑战。
其次,智算中心的开垦仅仅一个发轫,更报复的是后续的有用讹诈。
据报谈,由于智算中心的投资、开垦、运营频繁由不同主体负责,前期开垦方每每对后续运营形态、处事标准缺少填塞考量,出现 "只管开垦、不顾运营"、开垦与运营脱节的情况,影响了客户体验,致使不少城市所建智算中心的机架利用率不尽东谈观念。
从交易形态来讲,智算中心大多以出租或售卖算力为主要盈利妙技,然则因行业尚未协调算力订价标准,不同智算中心价钱互异悬殊,商场选拔程度受限。
近期,多位智算中心边界从业者拜谒国内各地智算中心后,他们中的一些东谈主向《智能闪现》响应,现时国内算力中心商场较为低迷。一位业内东谈主士骄气:"就现在所掌抓情况,多数机房出租率大致在 20% - 30% 区间浮动,部分企业级智算中心出租率致使低至 10% 傍边。"
要了了,智算中心不仅前期需要插足多半资金购置 GPU 等 AI 芯片,后续运营阶段相似需要陆续注资。
《智能闪现》不久前发文指出,一台英伟达 H100 处事器(8 卡)租出价钱,已从年头的 12- 18 万元 / 月,下滑至现在的 7.5 万元 / 月,降幅约 50%。
若按照现时机房 20% 的利用率来算,一个英伟达 H100 千卡集群智算中心每年营收仅 2300 万元(即 7.5 万元 / 月 ×12 个月 ×128 台处事器 ×20%),这意味着,即便算力中心对付看护运营,所得收入基本只可秘籍一半的正常运营成本,前期插足的成本根柢无从回本。
说七说八开云体育,"万卡集群"已成为智能算力期间的报复里程碑,秀美着我国在东谈主工智能边界的算力开垦迈上了新的台阶。从小米、中国移动等科技巨头正积极布局万卡集群,以期在这场大模子竞赛中占据成心地位。然则,万卡集群的开垦并非易事,智算中心需要多长久间才能通过运营收入收回投资,行业也还需更多的探索。