您的位置：首页>国际 >内容

并行科技董事长陈健谈算力荒：涨价不可持续，国产芯片要在软件算法上寻求突破

2023-12-08 17:23:04来源：

导读原标题：并行科技董事长陈健谈算力荒：涨价不可持续，国产芯片要在软件算法上寻求突破出品 | 搜狐科技作者 | 梁昌均今年以来，AI算力持...

出品 | 搜狐科技

作者 | 梁昌均

今年以来，AI算力持续紧缺。物以稀为贵，涨价也成了必然。自11月份以来，国内不少算力服务公司开启调价，涨价50%，甚至直接翻倍。

算力概念股也颇受资本市场关注，11月初在北交所挂牌的并行科技，作为第一家提供超算和智算服务的A股上市公司，股价也迎来暴涨。

近日，并行科技董事长陈健在与搜狐科技的独家对话中认为，算力涨价将是短期行为。“算力最终是靠成本定价，供需关系是局部因素。”他表示，算力成本未来会越来越低，核心在于制程和设计架构的进步。

陈健判断，当计算需求的量足够大的时候，训练和推理都会有专用芯片，GPU也许会被淘汰。“为什么英伟达还在疯狂往前跑？因为有不少人在做专用芯片，这对它来说是很大的威胁。”

谈及今年以来的算力荒，陈健最直接的感受是来寻求合作的企业变多。“算力需求爆发式增长，ChatGPT之后，算力需求出现了量级增长，导致已有算力不够，供需关系失衡。”

不过，陈健强调称，目前市场并不是所有的算力都缺，缺的只有大规模并行计算的算力需求。通用大模型训练即是标准的大规模并行计算，而这方面目前对国外芯片依赖较大。

今年10月底，美国收紧出口管制，A800/H800供应被掐断。早前报道称，英伟达将为中国市场开发三款特供算力芯片——HGXH20、L20PCle和L2PCle，但何时量产还未确认。

“这不会阻碍我们训练大模型的步伐，但可能不得不付出更高的成本去解决。”陈健表示，“我们肯定会往前走，相信差距会随着时间而缩短。”

陈健认为，目前市场头部算力需求在变大，从千卡到万卡，而国内能跑万卡规模的算力集群基本集中在头部互联网企业，它们都是优先供自己去训练通用大模型。不久前，阿里云就暂停对外提供A100云服务器的算力服务。

在陈健看来，通用大模型有看得见、摸得着的资金门槛，而行业模型、推理需求都在快速增长，未来算力需求也必然会从训练端转向推理端。

“我们期待国产芯片尽快进入主流。”陈健在对话中呼吁。他认为，目前国内芯片在大模型大规模训练上尚有差距，而推理更多是性价比的竞争，对国内来说不是卡脖子的地方。

在先进芯片受限的情况下，国内也需要找到更多的突破点。陈健提到，国产芯片在软件、算法等层面存在优化机会。

“软件和硬件的问题，其实都是时间问题。”陈健认为，国产化现在遇到的最大问题是没有市场，没有机会去迭代。“这个是鸡生蛋、蛋生鸡的问题，这事有解但不好解决。”

英伟达如今的市场地位，正是得益于建立了完整的软硬件生态。陈健强调称，软件跟硬件适配，一定要有人去做这件事，而华为在这方面最有希望胜出。

以下是对话精编：

搜狐科技：今年算力持续短缺，全球都在抢算力，您是什么样的感受？现在最缺哪种算力？

陈健：从我们的角度来说，叫算力需求爆发式增长。算力荒跟供求失衡直接相关，ChatGPT出现之后，尤其是2月爆火后，算力需求发生了量级的增长，可能不止十倍的增长，所以会显得市场上缺算力。随着时间推移，算力供给会持续上升。对我们来说，预示着大量的新的机会，这几个月找我们合作的企业变多。

其实市场上也有大量闲置算力，小规模计算、大规模超算等还是供大于求，中小规模模型的训练不缺算力，现在只缺大规模并行计算的算力，有几家训练大模型的企业需要上万卡的规模，而现在全国范围内能跑万卡的算力集群屈指可数，都集中在头部的互联网企业，但真的拿出来做算力服务的基本没有。

搜狐科技：最近不少算力公司涨价，甚至翻倍，能持续吗？算力高成本的情况能否缓解？

陈健：都是短期行为，原因就是供给变化。算力最终是靠成本定价，特别大量的东西是靠成本定价，供需关系永远都是局部的因素。算力供给会持续上升，各种各样的新算力也会不断出现，实现供需平衡很难，而且大概率最终是供大于求，因为供不应求的时候，就有商业价值，会有无数人蜂拥而上。

随着时间推移，算力成本越来越低，核心就是制程和设计架构的进步。从CPU到GPU，到专用的FPGA，再到专用的AISC芯片，速度会迎来越快。现在有很多企业在做训练和推理的专用芯片，GPU也许有一天会被淘汰。

当计算需求的量足够大的时候，用不了多久专用芯片就会出现，市场足够大就会有人用。但为什么英伟达还在疯狂往前跑？因为已有不少人在做专用芯片，这对它来说是很大的威胁。

搜狐科技：现在很多大厂都说对外提供算力服务，但阿里云前面暂停了A100服务，怎么看大厂在算力市场中的角色？

陈健：头部互联网企业的算力实际上是优先供自己去训练通用大模型。算力服务就像供水供电的基础服务，想象空间有多大？盈利空间是挤出来的，客观来说不是特别高大上。但大模型太有想象空间，更具商业价值，所以对于大厂来说，算力为什么要给竞争对手用？这也可以算是一种竞争策略。

今天国内还在疯狂投入通用大模型的企业，一年能投十亿级别算力的基本就头部这几家。大家已经看得很明白，谁有钱？大厂，还有几家拿了几十亿的头部创业公司，这就是看得见、摸得着的资金门槛，中部企业已经知道在通用大模型竞争中没有机会胜出，但行业模型、推理的算力需求还在快速增长。

搜狐科技：现在买不到高性能的芯片，英伟达称会再推出合规芯片，这对国内AI大模型的发展会有什么影响？

陈健：有比没有好，英伟达通过这种方式，多挣好几倍的钱，我们期待国产芯片尽快进入主流。禁售不会阻碍我们训练大模型的步伐，但可能不得不付出更高的成本，需要花更多的钱买更多的卡，比如原来100张就行，但现在可能要300张或500张才行。

搜狐科技：除了要买更多的卡，技术上有什么办法能够解决算力不够的问题？

陈健：当然有办法，有很多软件技术可以使用。性能是硬件上跑在软件表现出来，硬件往前走，软件往前走，算法也在往前走，这些共同组合后，达到最后的优化效果。现在有效计算比较低，还有大量优化的空间，这是软件工程师的机会。做大规模并行也有极限，到一定规模后加速比曲线到顶，这跟应用程序直接相关，取决于什么算法。

搜狐科技：国内包括大厂和不少创业企业都在做AI芯片，您认为替代水平如何？现在面临的主要问题是什么？

陈健：大模型训练是标准的大规模并行计算，对算力要求很高，是GPU超级计算机的综合比拼，国内在这块差距比较明显。千卡规模以上涉及到的技术点很多，还有失效率等很多问题需要解决。这已经不是科学问题，更多是工程化方面的难题。中小规模的训练，海量小规模计算的推理，更多是性价比的竞争，不是卡脖子的地方，国内替代都没问题。

天下技术，无坚不破，唯快不破，时间问题，人家做到3纳米，我们如果做不到7纳米，那就退到14纳米。我们肯定会往前走，相信差距会随着时间而缩短。对我们的封锁，会让我们更强大。

软件和硬件的问题，我们肯定搞得定，是个时间问题。现在国产化遇到的最大问题是没有市场，没有机会去迭代。这个就是鸡生蛋、蛋生鸡的问题，用的人多就会变得好用，好用的话用的人就多，这事有解但不好解决。

搜狐科技：从企业角度来看，这个问题应该怎么解决？国内谁能够跑出来？

陈健：我原来在英特尔做软件工程师，一款新芯片出来之后，在生态就绪的情况下，依然有1万名工程师在推广，去给所有软件公司做适配。国内谁有？我个人认为华为有可能胜出。所有的能用、好用都是用出来的，软件要跟硬件适配，一定需要有人去做这件事。

以前说花10亿做一款芯片，但需要花100亿解决推广过程中的所有问题。大家准备好了前面那10亿，没有准备好后边的100亿。我个人认为，华为准备好了。我们也在2018年加入鲲鹏的凌云计划，坚定不移支持国产算力发展。

搜狐科技：业内呼吁建立全国算力一张网，这能解决算力不足的问题吗？对国家支持算力发展方面有什么样的希望？

陈健：全国不少地方都在建智算中心，去支持自己的企业，因为看到大模型企业未来比较强的商业价值。但如果供给和市场需求脱节，智算中心可能做不好，做好了也许能收回成本。

全国一张网肯定是对的，但很难解决头部万卡需求的问题，它更多还是技术问题。一个可能的解决办法是联合多家企业投资，共同投资运营，相当于共享模式。如果国家想支持人工智能产业的发展，尽量投资到需求端，不要投到供给端，因为非常有可能增加的供给不是需求端需要的算力，要让需求端用脚投票，谁做得好投给谁，市场自然就活了。

免责声明：本文由用户上传，如有侵权请联系删除！

标签：