在一批公司反应过来要做 AI 应用之际,领跑的微软冲入一个艰难的市场。科技媒体 The Information 报道称,微软希望使用一款内部代号为 “雅典娜”(Athena)的 AI 芯片为 ChatGPT 和其他 AI 应用提供算力支持。
雅典娜并非临时为 ChatGPT 打造,早在 2019 年,包括 CEO 纳德拉在内的微软高管就意识到公司在云计算领域已经落后于 Google 和亚马逊,并开始自研服务器芯片。去年,微软还从苹果挖走了资深芯片设计专家 Mike Filippo。目前雅典娜的团队规模已经超过 300 人,不少工程师都来自英伟达、AMD、英特尔等芯片大厂。
但 ChatGPT 确实促使微软加快了项目进度。去年 11 月,微软和英伟达达成多年合作协议,共同打造基于英伟达芯片的超级计算机。不过微软很快发现,随着 ChatGPT 火热引发算力荒,完全依赖英伟达的成本过于昂贵。
根据研究机构 SemiAnalysis 首席分析师迪伦·帕特尔(Dylan Patel)的测算,ChatGPT 每天的运营成本约为 70 万美元,再加上已经或即将嵌入 GPT 的 Bing、Office 365 和 GitHub 等,微软每年要在 AI 推理上花费数百亿美元。而 “雅典娜” 每年研发费用约为 1 亿美元,性能占优的话每块芯片可以节省约三分之一成本。
微软预计将在明年大规模生产初代雅典娜芯片,使用台积电 5nm 工艺,量产后供公司内部和 OpenAI 使用,微软还制定了后续的迭代路线图。
不过微软还没决定是否要向其他云计算客户提供雅典娜芯片,因为大多数客户并不需要培训自己的大模型,也就不需要太多算力。而如果公开售卖,微软还必须为雅典娜开发与之匹配的软件和系统,后者是英伟达 GPU 能够广泛应用于 AI 领域的重要原因。
在自研 AI 芯片方面,Google 比微软走得更早、更远,其专用芯片(ASIC)TPU 自 2015 年就已经部署到自家服务器当中,目前已经迭代到第四代。根据 Google 最近更新的一篇博客,TPU v4 比英伟达上一代最先进的 AI 芯片(GPU) A100 快 1.2 至 1.7 倍,功耗低 1.3 至 1.9 倍。目前 Google 90% 以上的 AI 训练工作都由自家 TPU 芯片承担。
基于 TPU,Google 还打造了拥有 4096 块芯片的超级计算机,迄今为止公开披露过的最大语言模型 PaLM 就曾被拆分至两台 Google 超级计算机上训练,用时 50 天。此外,AI 绘画平台 Midjourney 背后的模型也是通过 Google 的超级计算机训练。(邱豪)