要拆解微软的 AI 战略,最先确定的不是分析细节,而是开篇必须讲清楚的核心问题:这家曾在 2023-2024 年领跑 AI 行业的巨头,为何会突然按下暂停键?又为何在 2025 年重新加码?
先从一个关键事实说起:2023 到 2024 年,微软确实站在了 AI 行业的顶端。ChatGPT 引爆市场后,它是最早抓住机遇的科技巨头,不仅在 2023 年 1 月将对 OpenAI 的投资从 10 亿美元提升至 100 亿美元,拿到了 OpenAI 模型的独家 IP 访问权,还启动了当时最激进的数据中心建设规划,只为支撑 OpenAI 的算力需求。那时行业里几乎默认,微软会沿着深度绑定 OpenAI + 大规模扩算力的路线一直走下去。
但变化在一年前悄然发生,SA最早注意到异常,是在给数据中心模型客户提供咨询时,微软的数据中心建设进度明显放缓,原本规划的 1.5GW 自建项目停滞,甚至取消了多份已谈好的租赁合同。更关键的是,它对 OpenAI 的承诺也不再像之前那样坚定,双方的合作似乎出现了松动。后来SA专门写了一篇通讯文章梳理这个趋势,当时就判断:微软的 AI 战略进入了调整期,后来把此阶段称为大暂停。
不过,市场的需求不会等企业调整。2025 年,随着全球 AI 应用的爆发,微软的 AI 投资又重新再启动了,而且这次的需求强度远超以往,尤其是对加速计算的需求,几乎到了能拿到多少算力就拿下多少的程度。基于SA的 Tokenomics 模型,这是专门用来推算 AI 业务经济规律的工具,数据来源包括企业披露信息和行业调研,预测 Azure 的增长会在接下来的几个季度明显加速:AI 业务对营收的贡献会持续提升,而非 AI 业务则保持相对平稳的增长节奏。简单说,未来 Azure 的增长动力,几乎全要靠 AI 业务来拉动。
为了让分析更有条理,SA搭建了一个核心框架 -- AI Tokens Economic Stack(AI 令牌工厂经济栈)。这个框架的逻辑很简单:把微软的 AI 业务从底层到顶层拆成几个关键环节,包括芯片、IaaS(基础设施即服务)、PaaS(平台即服务)、LLMs、应用,还有系统架构。后续所有的分析,都会围绕这几个层级展开,不是为了追求复杂,而是因为只有这样,才能把微软在 AI 领域的优势、短板和布局逻辑讲透。比如,想知道微软的成本控制能力如何,就要看它在芯片和 IaaS 层的表现;想知道它的盈利潜力,就得分析 PaaS 层的定价策略和应用层的用户粘性。
还有一个趋势就是2025 年,OpenAI 不再只依赖微软了。我们正真看到 Oracle、CoreWeave、Amazon、Google 这一些企业,都和 OpenAI 签了大额的算力合同,这在某种程度上预示着微软失去了独家供给的优势,也从侧面解释了为什么微软会在 2025 年重新加速 AI 投资:如果再不行动,市场占有率可能会被进一步挤压。但这也引出了一个更核心的问题:微软的大暂停到底是战略失误,还是必要的调整?在后续的分析里会详细拆解,但开篇可以先给出一个结论:这次暂停,既有对 ROIC(投资回报率)的担忧,当时 AI 业务的 ROIC 只有 20%,远低于微软整体 35-40%的水平,也有对自身执行能力的清醒认知,比如数据中心建设进度跟不上 OpenAI 的需求。
梳理微软的 AI 战略,绕不开它和 OpenAI 的关系,这段始于 2019 年的合作,在 2023-2025 年间经历了从全力押注到步调放缓的剧烈变化,甚至直接影响了微软数据中心布局、Azure 业务走向,以及整个 AI 算力市场的格局。接下来,就从具体的合作细节、算力建设规模,到后来调整的原因与影响,慢慢拆解这几年的关键转折。
先回到 2023 年,那是双方合作最紧密的阶段。ChatGPT 在 2022 年底发布后,整个行业都在寻找落地路径,微软是最早做出一定的反应的科技巨头。早在 2019 年,微软就给 OpenAI 投了 10 亿美元,而到了 2023 年 1 月,它直接把投资翻了 10 倍,同时拿到了 OpenAI 模型的独家 IP 访问权,这在某种程度上预示着,微软的产品能优先用上 GPT 系列模型,这在当时是绝无仅有的优势。但比资本投入更关键的,是微软为OpenAI量身打造的算力基础设施。
那时,微软启动了一个名叫 Fairwater 的超大规模数据中心计划,核心就是为 OpenAI 的模型训练和推理提供足够的算力支撑。最早落地的是爱荷华州的训练集群,我们测算下来,这个集群部署了大约 2.5 万个 NVIDIA A100 芯片,大多数都用在 GPT-3.5 的训练。有意思的是,虽然整个园区规模不小,但 OpenAI 初期只用到了其中一栋 Ballard 建筑的两个数据厅,实际占用的算力大概 19 兆瓦,这也能看出,当时大模型的算力需求还在迅速增加,微软的建设其实是超前布局。
到了 2024 年,算力需求逐步扩大,微软又在亚利桑那州扩建了更大的集群。这个集群不是一次性建成的,而是分阶段迭代:2023 年先完成了首座搭载 H100 GPU 的建筑,2024 年新增了使用 H200 的独立设施,到 2025 年更是建成了两座支持 GB200 GPU 的数据中心。算下来,整个亚利桑那集群的 GPU 数量最终达到了约 13 万个,覆盖了 NVIDIA 三代主流 GPU 产品,这种迭代速度在当时的行业里是很少见的。
除了单个集群的扩建,微软还在规划更宏大的跨数据中心训练方案。当时微软计划把全球的大型 AI 区域用超高速的 AI WAN 连接起来,初期带宽就设计到 300Tb/s,而且预留了扩展到 10Pb/s 的空间,目的很明确,就为了实现 5GW 规模的分布式集群训练。那时SA还专门写过一篇分析,认为这个规划是微软 “对标并试图超越 Google 基础设施” 的关键一步,因为跨数据中心训练能大幅度的提高模型训练的效率,也能应对更大规模的参数需求。
但就在所有人都以为这种高速扩张会持续下去时,2024 年中期,微软突然按下了暂停键。最先出现变化的是数据中心建设:原本规划的 1.5GW 自建项目进度明显放缓,已经谈好的多份数据中心租赁合同被取消,甚至有超过 3.5GW 的算力建设规划被冻结,这些算力原本预计在 2028 年前建成,覆盖的区域包括美国的凤凰城、芝加哥,欧洲的英国、北欧,还有拉丁美洲的一些关键市场。这些被放弃的场地,很快就被 Oracle、Meta、Google 这些竞争对手接手,原本属于微软的算力市场占有率,就这样被一步步蚕食。
更受关注的是微软和 OpenAI 合作的变化,2025 年,OpenAI 开始和更多厂商签署算力合同,Oracle、CoreWeave、Nscale、SB Energy、Amazon、Google 都成了它的合作伙伴,不再像之前那样依赖微软。其中最让微软遗憾的是 Stargate 项目,这个价值 1000 亿美元的项目,原本是微软为 OpenAI 规划的重点合作,计划部署在威斯康星州的数据中心园区,最终目标是把该园区的算力提升到 2GW 以上。但因为微软的执行效率太低,威斯康星项目 2023 年 9 月就动工了,到 2025 年 11 月还没投入运营 ,OpenAI 不得不转向 Oracle。而 Oracle 在得克萨斯州 Abilene 的数据中心,从 2024 年 5 月动工到 9 月投入运营,只用了 4 个月时间,两者的差距显而易见。
很多人会问,微软为何需要突然暂停?核心原因有两个。第一个是对 ROIC 的担忧。当时微软 AI 业务的 ROIC 只有 20% 左右,远低于微软整体业务35-40%的水平,长久来看盈利效率不高。而且如果持续独家承接 OpenAI 的业务,用不了几年,OpenAI 就会占据 Azure 收入的近 50%,这会严重偏离 Azure 传统的多元化业务结构,增加整个业务的风险,对于微软这样的大公司来说,业务稳定性往往比短期增长更重要。
第二个原因是微软自身的执行能力跟不上。最典型的就是电力传输规划的滞后,以威斯康星的 1.5GW 扩建项目为例,关键的输电设施要到 2027 年中期才能完工,这在某种程度上预示着即使数据中心建好了,也无法满负荷运行。而 OpenAI 当时的算力需求是按月增长的,根本等不了这么久。OpenAI 选择 Oracle,很大程度就是因为 Oracle 能快速提供稳定的电力和算力,这恰恰是微软当时做不到的。
这次暂停给微软带来的影响是实实在在的,在超大规模厂商的数据中心预租赁容量中,微软的占比从峰值时的 60% 以上降到了 25% 以下;OpenAI 的多元化合作也让微软失去了稳定的算力需求来源,原本为 OpenAI 准备的部分数据中心资源,不得不重新寻找客户。但换个角度看,这次暂停也让微软有机会重新审视自己的 AI 战略,不再是为了绑定 OpenAI 而盲目扩产,而是更注重自身业务的盈利性和可持续性。
当然,这段合作历史也不是只有 “暂停” 这一个关键词。2025 年之后,随着 AI 需求的重新爆发,微软又开始重新加码 AI 投资,和 OpenAI 的合作也进入了新的阶段,不再是之前的独家供给,而是更偏向优势互补。但那就是另一段故事了。
作为支撑所有 AI 业务的地基,基础设施即服务的表现直接决定了微软能否稳定承接算力需求、守住市场占有率。但从 2024 年中期到 2025 年,我们正真看到的却是微软在 IaaS 层的一系列失误:裸金属服务落地缓慢、关键订单流失、对第三方算力过度依赖,这样一些问题不仅拉低了 Azure 的盈利效率,还让竞争对手趁机抢占了大量市场空间。
先从裸金属服务说起,对于大规模 AI 训练和推理来说,裸金属 GPU/XPU 集群是刚需,它能提供更直接的硬件访问权限,减少虚拟化带来的性能损耗,这也是 OpenAI、Meta 这类客户最看重的服务。但微软在这一领域的执行能力,远不如 Oracle、CoreWeave 等竞争对手。最典型的案例就是威斯康星州的 Fairwater 项目,2023 年 9 月动工的 350MW 裸金属集群,到 2025 年仍未正式投入运营,而同期 Oracle 在得克萨斯州 Abilene 的项目,从破土动工到启动运营只用了 4 个月。
为什么会差这么多?核心问题还是出在上面提到的电力规划和建设节奏上。威斯康星项目的输电配套设施严重滞后,光是新建 138kV 变电站、500MVA 变压器和区域 345kV 变电站,总投资就超过 10 亿美元,且关键设施要到 2027 年才能全部完工。这在某种程度上预示着即便数据中心的硬件设备安装好了,也没有办法获得稳定的满负荷供电,对需要持续高算力支撑的 AI 客户来说,这种看得见却用不上的情况是没有办法接受的。反观 Oracle,在 Abilene 项目启动前就提前搞定了电力传输协议,确保建成后能立即投入到正常的使用中,这种以客户的真实需求为核心的执行思路,正是微软当时欠缺的。
裸金属服务的滞后,直接引发微软错失了关键订单,其中最具代表性的就是 上面提到的OpenAI 的 Stargate 项目。这个价值 1000 亿美元的合同,原本计划由微软威斯康星园区承接,建成后将成为 OpenAI 的核心算力基地。但由于微软无法按时交付可用算力,OpenAI 最终选择了 Oracle,而 Oracle 也凭借这一个项目,一跃成为 OpenAI 的主要 GPU 合作伙伴,后续还签下了总价值超 420 亿美元的合同,对应约 150 亿美元的毛利,这些本可能属于微软的收益,就这样因为执行失误付诸东流。
除了执行问题,微软对市场需求的误判也让 IaaS 层陷入被动。2024 年中期暂停数据中心建设时,微软内部认为 AI 算力需求会进入平稳期,但真实的情况是,Meta、Snowflake 等企业的 XPU 云需求在 2025 年迎来爆发式增长。通过测算 12 个月新增 RPO(未完成订单)发现,微软虽然从暂停前的 500 亿美元增长到 1320 亿美元,但 Azure 的市场占有率却从 38% 下滑到 18%;而 Oracle 的新增 RPO 从 320 亿美元飙升至 4250 亿美元,GCP 也从 220 亿美元增长到 710 亿美元。这种差距的背后,是微软对需求规模的低估,它没有及时预判到企业客户对 AI 算力的长期渴求,导致竞争对手提前锁定了大量订单。
需求误判带来的直接后果,是微软对 Neocloud 算力的被动依赖。当自有数据中心建设跟不上需求时,微软不得不转向 Neocloud 厂商,通过租赁他们的 GPU 集群,再以裸金属或 Token 形式转售给第三方客户。但这种模式的问题很明显:Neocloud 的毛利率只有 35%,远低于微软自有数据中心的盈利水平,而且租赁成本会随市场需求上涨而增加,进一步压缩 Azure 的利润空间。我们从数据中心模型中看到,2025 年后微软新增算力中,Neocloud 的占比持续上升,最高时接近 50%,这种靠买算力来维持业务的模式,显然不是一家技术巨头该有的长期选择。
更值得关注的是,微软在 IaaS 层的失误还影响了客户信任。SA调研了 140 多家 AI 企业,从 OpenAI、Meta 这样的行业巨头,到 Periodic Labs、AdaptiveML 这类初创公司,发现慢慢的变多的客户开始倾向于与 Oracle、CoreWeave 合作。一家 AI 独角兽的技术负责人告诉我们,他们原本计划与微软合作部署 8000 个 GB300 GPU,但由于微软无法确定交付时间,最终选择了 CoreWeave,我们应该的是稳定、可预期的算力供给,而微软给不了这种确定性。这种客户信任的流失,比短期订单损失更可怕,因为它会影响微软长期的市场口碑。
当然,微软也在尝试弥补这些短板。2025 年下半年,它开始重启部分自建数据中心项目,同时在偏远地区寻找具备充足电力的场地,这些地区的土地和电力成本更低,建设周期也相对较短,能快速补充短期算力。但这些动作能否扭转局面,还需要一些时间验证。毕竟,Oracle、CoreWeave 等竞争对手已经积累了足够的客户基础和运营经验,微软要想重新夺回市场占有率,不仅要加快建设进度,还要在服务稳定性、成本控制上拿出更存在竞争力的方案。
IaaS 层的困境,本质上反映了微软在 AI 战略中的取舍难题,既要追求业务规模,又要兼顾盈利效率;既要依赖自有基础设施,又不得不面对第三方算力的诱惑。但从目前的情况去看,微软还没找到完美的平衡方案。
作为连接基础设施与应用场景的关键环节,平台即服务(PaaS)的核心价值在于把复杂的算力资源转化为客户可直接用的工具,无论是 AI 模型的部署、推理效率的优化,还是与企业现有系统的适配,都依赖 PaaS 层的能力。但在调研微软 2024-2025 年的 PaaS 层表现时,看到的是一幅 “优势与风险并存” 的图景:既有全球布局带来的差异化潜力,也面临 GPU 部署失衡、客户体验下滑、市场之间的竞争加剧等现实问题。
先从 GPU 部署的失衡问题说起。对于 PaaS 层而言,GPU 资源的分配效率直接决定客户满意程度,AI 企业要的是按需获取、稳定可用的算力,尤其是 H100、H200 这类主流 GPU。但微软的资源分配策略,却明显偏向了单一客户。通过调研发现,Azure 的大部分高端 GPU 资源优先供给了 OpenAI,剩余资源又多被传统 Fortune 500 企业占据,这一些企业大多用 GPU 来开发内部 RAG 聊天机器人,对算力的利用效率相比来说较低。而真正需要大规模、灵活算力的 AI 初创公司,却很难从 Azure 拿到足量资源。
这种失衡直接反映在客户反馈里。SA访谈了 140 多家 AI 算力买家,从 OpenAI、Meta 这样的行业头部,到 Periodic Labs、AdaptiveML 这类初创公司,不少企业都提到了 Azure 的资源获取难题。有一家从 A 轮成长起来的 AI 公司负责人说,他们在 2025 年 3 月采购了 256 个 H100,到 11 月计划扩至 9000 个 GB300 NVL72 时,Azure 无法给出明确的交付时间,最终只能转向 CoreWeave。更关键的是,微软在 GPU 类型的布局上也出现了偏差,它投入大量工程师成本和资本开支在 AMD GPU 与 GB200/GB300 NVL72 系统上,但当时行业主流需求仍集中在 NVIDIA 的 H 系列 GPU,这种错配进一步加剧了资源紧张。
资源分配的问题,还间接导致了 Azure 在行业评级中的风险。SA在 2025 年 3 月发布的 ClusterMAX 1.0 评级里,曾将 Azure 列为 “Gold 级”—— 彼时它在网络性能、最新 GPU 可用性上都处于行业前列,还占据了 OpenAI 大部分算力订单。但到了 11 月的 ClusterMAX 2.0 评级时,Azure 的优势已明显减弱:CycleCloud 和 AKS 等 AI 集群管理工具的功能更新停滞,监控系统的稳定性、硬件故障的自动恢复能力,都落后于 CoreWeave、Nebius 等竞争对手。更关键的是,Azure 到今天都没有推出针对 AI 场景的托管 Slurm 或 Kubernetes 集群,而这类服务正是初创公司最需要的,没有成熟的工具链,客户要花费更多时间搭建环境,自然会转向体验更好的平台。SA当时就判断,若微软不及时作出调整,Azure 有被降级至 “Silver 级” 的风险。
不过,微软在 PaaS 层也有自己的差异化布局,那就是可互换舰队战略。这个战略的核心逻辑很清晰:依托全球 70 个区域、400 多个数据中心的布局,把 AI 服务贴近企业客户,满足他们对数据本地化、合规性的需求。这一点在企业级市场尤其重要,随着数据安全法规的收紧,很多跨国企业要在特定地区处理 AI 任务,避免数据跨境传输。我们正真看到了一些成功案例,比如字节跳动 Seed 在美国亚利桑那州租用微软的算力训练视频模型,而非选择中国或马来西亚的节点,这正是看中了微软在美国市场的基础设施覆盖与合规能力。
但这个战略也有明显短板:数据中心的选址受限于电力供应。企业集中的 major metros 大多面临电力紧张问题,数据中心建设速度远不如偏远地区——Oracle、CoreWeave 可以在电力充足的偏远地带快速搭建大规模集群,而微软为了贴近企业客户,只能在电力受限的城市周边布局,导致算力扩张速度落后于竞争对手。这种速度与贴近性的矛盾,至今仍是微软 PaaS 层战略的核心挑战。
但企业 Token 市场目前仍处于早期阶段,微软要面临的挑战不少。Alphabet CEO Sundar Pichai 在 2025 年 Q3 财报中提到,近 12 个月有 150 家 Google Cloud 客户各处理了约 1 万亿个 Token,但这部分收入仅占 GCP 业务的 0.5%。这个数据足以说明,把 Token 转化为实际营收并不是特别容易,要解决输入输出比计算、缓存 Token 的成本扣除、不一样的行业的定价适配等复杂问题。微软若想让 Azure Foundry 成为增长引擎,还需要在 “Token - 营收转化” 的效率上持续优化。
除了资源与布局,硬件折旧也是微软 PaaS 层不得不面对的争议点。大空头 Michael Burry 曾公开质疑,包括微软在内的超大规模厂商,通过延长 IT 资产折旧年限来人为提振收益,从 2020 年的 3-5 年延长至 2025 年的 5-6 年,而 NVIDIA 芯片的产品周期只有 2-3 年,经常使用旧硬件会导致性能落后。但从行业真实的情况来看,这个质疑并不成立。Dylan明显对Michael Burry印象不好,原文中使用的词是“臭名昭著”的Michael Burry。
可以从两个维度反驳这个观点。首先是硬件可靠性的提升。现在服务器 OEM 厂商如 Dell、SuperMicro 提供的标准保修期已达 3-5 年,还可扩展至 6-7 年,只要储备足够备件,硬件完全能长时间运行。就像汽车一样,有人 2 年换车,但也有人能把车开 10 年以上,核心在于维护而非单纯的使用的时间。其次是超算领域的案例佐证:IBM Summit 超算 2018 年投入到正常的使用中,2024 年 11 月才退役,连续运行 6.5 年;日本 Fugaku 超算 2020 年安装,至今仍在全球 Top500 中排名第 7;中国的神威太湖之光 2016 年投用,现在仍是 Top21 的常客。这些超算的硬件使用周期远超 2-3 年,足以说明 AI 硬件的寿命并非短期。
从微软的实际运营数据分析来看,旧 GPU 也仍有实用价值。以 NVIDIA V100 为例,这款 2017 年发布的 GPU,NVIDIA 的备件供应持续到 2022 年 1 月,截至 2025 年,AWS 等平台仍在销售搭载 V100 的实例,部分市场如 Shadeform、Runpod 也能找到租赁服务,这在某种程度上预示着 V100 在发布 8 年后仍在运营。当然,微软确实会拆除部分旧 GPU,但原因并非硬件损坏,而是为了优化空间与电力效率:用 H200、GB200 等更高性能的 GPU 替换旧款,提升单位空间的营收,而非旧硬件无法使用。
模型层与应用层这两个层级的表现,直接决定了微软 AI 战略能否从算力供给落地为实际价值:模型层是技术能力的核心载体,应用层则是用户感知与商业变现的最终出口。从 2024 到 2025 年,微软在这两个层面走出了一条双轮驱动的路径:既依赖 OpenAI 的 IP 优势打造差异化功能,也在加速自研模型 MAI 的迭代;既凭借 GitHub Copilot、Office 365 Copilot 巩固应用生态,也面临着竞争对手的持续冲击。这些努力与挑战如何塑造微软 AI 的竞争力,正是我们接下来要深入探讨的内容。
先看模型层,微软的核心策略可以概括为 “借力 OpenAI + 自研 MAI”。前者是短期抢占市场的利器,后者则是长期摆脱依赖的根基。
在借力 OpenAI 方面,微软的优点是对 IP 的深度利用。由于拥有 OpenAI 模型的独家访问权,微软不仅能优先将 GPT 系列模型集成到自有产品中,还能通过 模型蒸馏与微调实现低成本复用。所谓模型蒸馏,就是从复杂的 OpenAI 大模型中提取核心能力,移植到更小的模型里,这样既能保留接近大模型的效果,又能大幅度降低推理成本,尤其适合部署在 Office 这类轻量级场景中。而微调则是利用微软独家的企业数据,比如 Office 用户的文档处理习惯、企业内部的业务数据,对 OpenAI 模型进行针对性优化,让模型更贴合企业实际需求。
最典型的案例就是 Excel Agent。这个功能基于 OpenAI 的推理模型微调而成,专门针对表格数据处理、公式生成、数据分析等场景优化。在 SpreadsheetBench 测试中看到,Excel Agent 的准确率达到 71.3%,超过了 GPT-4 的 57.2%,甚至优于其他 frontier 实验室的模型。这背后的关键,就是微软将 OpenAI 的通用能力与 Excel 的场景数据结合,打造出了通用模型 + 场景优化的差异化优势。这种模式不仅提升了产品体验,还避免了从零训练模型的高额算力成本,是微软在模型层最务实的策略。
但依赖 OpenAI 也有隐忧,双方的 IP 授权协议并非永久,目前约定的权限仅持续到 2032 年。一旦协议到期,微软将失去核心技术支撑。也正是出于这个顾虑,微软在 2024 年后加快了自研模型 MAI 系列的研发,试图构建第二增长曲线。
目前 MAI 系列已推出三款模型,覆盖文本、图像、语音三个方向。文本模型 MAI-1 在 LMArena 榜单中排名第 38 位,尚未对外开放;图像模型表现稍好,能进入 LMArena 前 10 位;语音模型则已集成到 Copilot 中,向普通用户开放。从性能上看,这些模型暂时还无法与 OpenAI、Anthropic 的顶尖模型抗衡,定位更偏向 “低成本、中高质量” 的场景,比如日常语音助手、基础图像生成,而非复杂的推理或多模态任务。
但微软对 MAI 的投入正在快速加大。通过 Tokenomics 模型测算,微软计划在未来几年将 MAI 的年度算力支出提升至 160 亿美元,季度内部算力投入从 2025 年第二季度开始慢慢地增长,到 2028 年第四季度可能超过 40 亿美元。这种大规模投入背后,是微软希望能够通过 MAI 实现 “模型自主可控” 的决心,毕竟,只有拥有自研的核心模型,才能在未来的 AI 竞争中避免被第三方绑定,也才能更好地与自有应用生态深度协同。不过,模型研发是个长期过程,MAI 要想追上行业顶尖水平,还要解决数据质量、算法优化、算力支撑等一系列问题,短期内很难完全替代 OpenAI 模型的作用。
聊完模型层,再看应用层,这是微软 AI 价值变现的核心战场,也是竞争最激烈的领域。目前微软的应用布局主要围绕两大核心:代码辅助领域的 GitHub Copilot,以及办公协同领域的 Office 365 Copilot。但两者的市场表现,却呈现出一稳一忧的分化。
先说说 GitHub Copilot,这款产品曾是微软在 AI 应用层的王牌,凭借与 VS Code、GitHub 的深度绑定,以及早期集成 GPT-4 的优势,一度垄断了代码辅助市场。它的核心价值在于inline 实时辅助,开发者在编写代码时,Copilot 能实时推荐代码片段、补全函数、排查语法错误,大幅度的提高开发效率。在推出初期,GitHub Copilot 的用户上涨的速度远超行业预期,甚至成为不少开发者的必备工具。
但 2024 年后,GitHub Copilot 的护城河开始松动。最大的挑战来自竞争对手的生态突围。Anthropic、Cognition 等公司通过 “fork VS Code”,打造了更紧密的 “编辑器 + 模型” 集成方案。比如 Claude Code,不仅能提供代码补全,还能直接对接 Anthropic 的 Claude 模型,支持代码解释、漏洞检测、文档生成等更全的功能,而且兼容性与 VS Code 几乎一致,开发者迁移成本极低。更关键的是,这些竞争对手采用的是多模型策略,能按照每个用户需求切换不同模型,而 GitHub Copilot 早期仅依赖 OpenAI 模型,灵活性不足。
与 GitHub Copilot 不同,Office 365 Copilot 的表现相对稳健。作为覆盖销售、财务、服务、安全等多个场景的综合性工具,它的优点是生态绑定。Office 是全球最普及的办公软件,用户基数超过 10 亿,而 Office 365 Copilot 直接集成在 Word、Excel、PowerPoint、Teams 等产品中,用户无需切换平台就能使用 AI 功能。这种无缝体验是竞争对手难以复制的。
目前 Office 365 Copilot 的月活跃用户已超过 1000 万,成为企业 AI adoption 的主要推动力。在企业场景中,它的价值不仅在于提升效率,还能降低 AI 使用门槛,比如财务专员用 Copilot 自动生成报表分析,销售人员用 Copilot 整理客户沟通记录,甚至非技术岗位的员工也能通过自然语言指令完成复杂的办公任务。我们调研发现,使用 Office 365 Copilot 的企业,员工的文档处理效率平均提升 30%,会议纪要生成时间缩短 50%,这种看得见的效率提升让企业愿意为订阅付费,也支撑了 Azure AI 的营收增长。
但 Office 365 Copilot 也面临挑战。随着 Google Workspace、飞书等竞品陆续推出 AI 功能,用户的选择慢慢的变多。比如 Google 在 Workspace 中集成了 Gemini 模型,支持多文档联动分析、实时翻译等功能,与 Office 365 Copilot 形成直接竞争。而且企业客户对 AI 的需求正在从基础辅助转向深度业务集成,比如将 AI 与企业的 CRM 系统、ERP 系统对接,实现从数据录入到业务决策的全流程自动化。这就要求微软不仅要优化 Office 内部的 AI 功能,还要加强与第三方企业软件的协同,而这正是微软目前需要突破的方向。
芯片是 AI 算力的核心载体,直接决定成本与性能上限;网络架构则是连接算力资源的血管,影响大规模集群的效率与扩展性。从 2024 到 2025 年,微软在这两个层面呈现出 “两极分化” 的表现:芯片层受制于自研 ASIC 的滞后,不得不依赖第三方;网络层却凭借创新拓扑与高速 AI WAN,实现了对大规模 GPU 集群的高效连接。
先看芯片层,这是微软 AI 战略中最棘手的环节。对于超大规模厂商而言,自研 AI 芯片是实现垂直整合、降低 NVIDIA 依赖的关键 ,Google 的 TPU、Amazon 的 Trainium、Meta 的 MTIA,都是通过自研芯片在成本与性能上建立优势。但微软的自研 ASIC Maia 系列,却始终未能跟上行业节奏,成为其硬件布局的明显短板。
Maia 系列的首款产品 Maia 100 在 2023 年底发布,当时被视为微软进军自研芯片的标志性动作。从参数上看,Maia 100 的 BF16 算力为 800 TFLOPS,内存容量 64GB,内存带宽 1600GB/s, 单看这些数字似乎不差,但对比同行就会发现差距:Google TPUv7 的 BF16 算力达 4614 TFLOPS,内存带宽 7370GB/s;Amazon Trainium2E 的内存带宽也有 2898GB/s。更关键的是,Maia 100 的设计早于生成式 AI 爆发,内存带宽不足以满足大模型训练与推理的需求,最终未能大规模量产,仅在部分内部场景小范围测试。
后续的 Maia 200 更是一波三折,原本计划在 2024 年完成流片,但设计过程中出现多个技术问题,导致流片延迟至 2024 年底,2025 年才启动量产。从微软内部人士处了解到,Maia 200 的性能未达预期,被内部评估为失败项目,相关软件开发也已暂停,这在某种程度上预示着即便芯片量产,短期内也难以支撑核心 AI workload。而计划在 2027 年部署的 Maia 300,虽然瞄准 2nm 工艺,目标是接近内部性能预期,但届时还要与 NVIDIA 的下一代芯片 Vera Rubin 竞争,能否缩小差距仍是未知数。
Maia 系列进展滞后的核心原因,在于微软的战略绑定思路。微软认为,自研芯片需要与自研模型 MAI 协同,即先有成熟的模型,再匹配适配的芯片。这种思路导致硬件研发与市场需求脱节,当行业都在为大模型优化芯片带宽与算力时,Maia 仍在等待 MAI 的进展,错失了迭代窗口期。而 Google、Amazon 等对手采用硬件与模型异步迭代的策略,芯片研发围绕通用 AI 需求推进,再通过软件适配不同模型,反而更快实现了规模化应用。
为了弥补自研芯片的不足,微软不得不寻求外部替代方案。最主要的路径是依赖 OpenAI 的定制芯片 Titan ASIC。OpenAI 的芯片研发起步比微软晚,但进展更快,且微软拥有 OpenAI 除消费级硬件外的所有 IP rights,这在某种程度上预示着微软未来可能通过授权使用 Titan ASIC,为 OpenAI 模型提供算力支撑。这种模式虽能解燃眉之急,但风险在于IP 依赖, 一旦双方合作生变,微软将失去硬件保障,且无法像自研芯片那样实现深度成本控制。
另一路径是通过旗下风投基金 M12 投资芯片初创公司,布局未来技术。比如投资专注于编程框架的 Modular,其开发的 Modular MAX 有望替代 vLLM、SGLang 等现有推理运行时,支持多类型加速器,降低对 NVIDIA 生态的依赖;还有研发光学处理单元 OPU 的 Neurophos,宣称能实现每皮焦耳 1000 次浮点运算的效率,若技术落地,可能颠覆传统 GPU 架构。但初创公司的技术成熟度低,商业化周期长,短期内难以支撑微软的硬件需求,更多是战略卡位。
与芯片层的挣扎不同,微软在系统架构层的网络设计上,展现出了行业领先的创新能力。对于大规模 AI 集群而言,网络是效率瓶颈,当 GPU 数量从数千扩展到数十万时,怎么来实现低延迟、高带宽的互联,直接决定训练与推理效率。微软通过高基数交换机、创新拓扑与超高速 AI WAN 的组合,解决了这一难题,甚至实现了从 2048 到 524288 GPU 的规模突破。
先看高基数交换机带来的连接革命。传统 2 层网络采用 64 端口 800G 交换机,最多只能连接 2048 个 GPU,不足以满足超大规模集群需求。微软的解决方案是端口拆分 + 512-Radix 交换机:将每个 GPU 的 800G 逻辑端口拆分为 8 个 100G 端口,搭配支持 512 个 100G 端口的交换机(如 Broadcom Spectrum-5)。通过这一种调整,2 层网络能连接的 GPU 数量从 2048 提升至 131072 个,且 GPU 与交换机的比例保持在 21.3:1,比 4 层网络的 9:1 更高效,大幅度降低了网络成本。
在此基础上,微软还创新推出rail-only 拓扑,进一步突破规模限制。传统网络中,每个 GPU 的多个端口连接到同一交换机平面,而 rail-only 拓扑将每个计算托盘的 3200G 带宽拆分为 32 个链路,分别连接到 32 个独立平面。这种设计让 2 层网络能连接的 GPU 数量达到 524288 个,且保持 21.3:1 的 GPU 交换机比例,相当于用同样的网络成本,实现了 4 倍的算力规模。不过,这种拓扑也有妥协:同一计算托盘的 GPU 需通过 NVLink 而非 Scale-out 网络通信,对软件调度提出了更加高的要求,微软通过优化训练协议,才缓解了这一问题。
除了数据中心内部的网络优化,微软还打造了超高速 AI WAN,实现跨区域算力互联。首先是校园级 AI WAN,用于连接同一园区内的多栋数据中心,比如 Fairwater 2 Atlanta 园区的两栋建筑,每栋部署 157696 个 GPU,通过 AI WAN 实现低延迟通信,支撑分布式训练。其次是 “长距离 AI WAN”,连接全球不一样的区域的 AI 集群,比如威斯康星、亚特兰大、凤凰城的 Fairwater 园区,当前带宽达 300Tb/s,可扩展至 10Pb/s。
为了提升长距离传输效率,微软采用了两项关键技术:光学电路开关 OCS 与密集波分复用 DWDM。OCS 能灵活配置光学链路,无需复杂 rewiring,且无需深度缓冲交换机,降低了网络延迟;DWDM 则通过在单根光纤上传输多个波长的光信号,大幅度的提高带宽,比如利用 32 个 C 波段与 32 个 L 波段信道,单根光纤对可承载 51.2Pbit/s 的带宽,原本需要 375 根光纤对的 300Tb/s 连接,通过 DWDM 可减少至 12 根,明显降低了部署成本。
这些网络创新的价值,最终体现在跨数据中心训练的能力上。微软计划将威斯康星与亚特兰大的 Fairwater 园区互联,构建 5GW 规模的分布式集群,这种规模的集群能支撑万亿参数级大模型的训练,且能通过区域间算力调度,提升资源利用率。我们在测试中发现,通过 AI WAN 连接的跨区域集群,训练效率仅比单区域集群低 8%,远优于行业平均 15% 的损耗,这在某种程度上预示着微软能利用全球算力资源,实现分散部署、集中调度的灵活模式。
,小9直播间