最近,芯片独角兽Groq宣布获得D轮6.4亿美元(约合人民币45.86亿元)融资,估值达到28亿美元(约合人民币200亿元)。
本次融资由贝莱德旗下私募基金组合业务BlackRock Private Equity Partners领投,思科旗下投资基金Cisco Investments及三星电子旗下投资基金Samsung Catalyst Fund跟投。
Groq专做推理芯片,去年,Groq适配了meta的大型语言模型LLaMA,使其能够在自己的芯片上运行,而无需英伟达的芯片。
AI大模型分为训练和推理两个环节,需要用到训练芯片和推理芯片。可以理解为让大模型“成型”,用到训练芯片,大模型建好了,让它执行命令、回答问题,用到推理芯片。
经常在科技报道中看到,微软、谷歌、meta、xAI等公司囤积了很多英伟达GPU,如A100、A800、H100,用来训练大模型,这些都是训练芯片,注重*的计算能力,要求很高、很贵。
而推理芯片更注重综合指标,相对来说对性能的要求并不高,对精度要求也要更低,在特定的场景下,对通用性要求也低。
对于训练芯片,企业愿意出最多的钱、砸性能*的芯片;而对于推理芯片,企业则会更多考虑芯片的能耗、成本,选用性价比*的。推理阶段,就没必要全用英伟达的,能省点是点,毕竟训练阶段已经花了巨资。
在训练芯片领域,目前能撼动英伟达的对手,还没有,但是推理芯片领域,则有不少想挑战英伟达。像AMD CEO苏姿丰就坚信:未来大模型推理市场的规模将远远大于模型训练市场(不“坚信”也不行啊,训练芯片实在没法跟英伟达抢市场)。
Groq创办于2016年底,创始人乔纳森·罗斯(Jonathan Ross)来自谷歌,是开发张量处理器(TPU)的关键成员,他设计并实现了TPU的核心功能。当年击败围棋大师李世石的“阿尔法狗”用的就是TPU。可见,罗斯是真正的大佬级人物。
Groq的产品是“语言处理单元”(LPU),据称其推理速度相较于英伟达 GPU 提高了 10 倍,成本却降低到十分之一。目前有超过 70000 名开发人员使用 GroqCloud 创建应用程序。使用Groq的LPU的小模型或中模型一秒钟可以生成500-750个字段(token),而ChatGPT一秒钟只有40个。
注意看,LPU的部署场景非常有诸多限制,而英伟达的芯片虽然在一些特定指标上被Groq的LPU超过,但它是通用的,几乎适应任何AI模型、AI任务,LPU做不到。而且,英伟达的CUDA平台被开发者广泛适应,再迁移去使用LPU的架构可能导致任务不稳定。
今年 4 月,罗斯表示,Groq不再试图直接向客户销售硬件,而是转向向开发者提供云计算服务(GroqCloud)。这是因为客户自己购买和设置 Groq 的芯片成本太高,风险太大。
而且Groq的LPU也不便宜,每块卡的售价高达20000美元,只能用于推理。如果是垂直模型、行业模型,考虑到LPU的速度,单位成本可能比较划算。
随着这笔新资金的到位,Groq可能会在明年转向4nm制造工艺,以支持更大的模型、增强通用性。罗斯说:“我们打算提供资源,让任何人都能创造尖端的AI产品,而不仅仅是*的科技公司。这笔资金将使我们能够在GroqCloud中再部署10万多个LPU。”
Groq的融资,也是对中国的相关企业的间接鼓舞。中 美在生成式AI发展上虽然不完全同步,但方向基本一致,这波巨额融资说明高性能推理芯片的价值正在被更广泛地认可。在中国,在推理芯片市场“国产化”浪潮中可能会有一波红利。
西部证券在今年早些时候也认为,生成式AI的发展是一个不断迭代升级的过程,随着国内生成式AI模型的质量持续提升,有望出现更多优质应用,从而带动推理算力需求快速上升。在推理场景下,算力的性价比显得更为重要。在供给端有所限制的情况下,国产推理芯片有望受益于国内生成式AI应用的落地,迎来重大发展机遇。