200亿美金重注!英伟达LPU正式发布,产业全景梳理

2026-03-18
来源:融中咨询
LPU行业迎来高景气周期,2026至2027年LPU累计出货量预计达400万至500万颗,较历史年度出货量实现十倍以上增长。

核心观点:

  • 美西时间3月16日,黄仁勋宣布Groq3 LPU现将纳入英伟达产品目录。Groq3 LPX机架搭载256个LPU处理器,提供128GB片上SRAM和640TB/s扩展带宽。LPX与VeraRubin平台结合后,推理吞吐量/功耗比将能提升35倍。LPU芯片将由三星代工,预计机架将于今年下半年开始出货。据悉,OpenAI已同意成为该处理器的最大客户之一。
  • AI行业正从“训练”转向“推理”。据最新供应链调查,英伟达入股Groq后,LPU出货量预测已出现实质性上调。2026至2027年LPU总出货量为400至500万台,与历史年产量相比,这一规模意味着约10倍以上的数量级跃升。
  • 算力PCB、高端材料、国产LPU相关标的受益,如沪电股份、南亚新材、无问芯穹等。PCB方面,核心受益标的应是具备高多层PCB生产能力并获得头部客户认证的公司。此外,LPU通过适配国产芯片有望在推理场景中逐步替代GPU,缓解技术封锁带来的供应链风险。

英伟达推出的LPU推理专用芯片,并不是简单的GPU简化版,而是从架构、封装、散热、互联方式上全面重构的新一代推理计算单元,其对上游供应链的要求完全不同于传统AI服务器。英伟达表示,此次推出的Groq3 LPX(机架)标志着加速计算的一个里程碑。当与VeraRubin NVL72一起部署时,Rubin GPU和LPU通过共同计算AI模型每一层来提升解码速度,从而为每个输出token提供计算。

图1 英伟达Groq3 LPX系数

信息来源:NVIDIA英伟达

(1)行业定义及发展历程

1)定义及特点

LPU,即Language Processing Unit,是专为语言处理任务打造的硬件处理器,与GPU有着本质差异。GPU最初用于图形渲染,凭借出色的并行计算能力在AI领域大放异彩,广泛应用于模型训练和推理。而LPU即语言处理单元,是一种专门用于加速大语言模型推理的芯片,LPU聚焦于文本数据处理,针对自然语言理解、文本生成等任务进行深度优化,以辅助加速器的工作。

LPU较GPU有明显优势。从硬件架构看,LPU采用时序指令集计算机架构,无需芯片外内存,这是其显著优势,它使用的SRAM速度比GPU所用存储器快约20倍,极大提升了数据读写效率。在能效方面,LPU减少多线程管理开销,避免核心资源浪费,执行推理任务时能耗低于英伟达GPU,实现了更高的每瓦特计算性能。

表1 GPU与LPU对比

信息来源:融中咨询

在英伟达投资Groq后,其LPU出货的规划大幅上修。据预测,2026-2027年LPU共出货预估约400~500万颗,相较过去年度出货量,将出现十倍以上的数量级成长。LPU芯片和ASIC芯片类似,存储器采用SRAM降低延时,显著提升推理速度。

2)特点

以Groq LPU为例,其创新特点包括采用SRAM、确定性执行引擎、可编程流水线架构:

表2 LPU特点

信息来源:融中咨询

图2 LPU的张量流处理器(TSP)的架构(右图)对比传统GPU采用多核布局(左图)

信息来源:groq官网

LPU针对延迟和内存带宽这两大推理瓶颈进行了专项优化。据业内人士的估算,倘若LPU得以全面普及,AI推理成本将会再度降低90%。有了LPU的加持,模型生成的吞吐量可以从每秒几十个词提升到每秒上千个词(快过人类阅读速度数十倍);而面对代理型AIAgent,LPU可以让Agent更频繁快速地进行逻辑推理。

为了突破困扰行业已久的“存储墙”瓶颈,LPU舍弃了高带宽但高延迟的HBM,转而密布了高达230MB的片上SRAM,内存带宽升至80TB/s。在这种极致的带宽支持下,LPU能够在单批次(BatchSize1)推理中实现几乎“感知不到”的首字延迟(TTFT),其Token生成速度稳定维持在1600tokens/s以上,将大语言模型的响应从逐字跳动进化为瞬时成文。

图3 GPU、NPU与LPU性能对比

信息来源:融中咨询

3)技术方案

从技术架构看,Groq3LPU与主流AI加速器的差异化路线鲜明。GPU推理时需频繁搬运HBM中的数据,产生延迟。而LPU采用高密度片上SRAM(如Groq原芯片可达80TB/s带宽),数据访问速度快,从根本上解决了这一问题。大多数AI加速器依赖HBM作为工作内存,而每颗Groq3 LPU内置500MB SRAM——与CPU和GPU超高速缓存所用内存类型相同。尽管这一容量远低于RubinGPU所配备的288GB HBM4,但其带宽高达150TB/s,远超后者22TB/s的HBM带宽。

LPU用SRAM代替DRAM/HBM作为主存储器,直接将权重数据加载到片上,访问延迟从数百纳秒降至几乎为零。设计方面,Feynman系列探索以SRAM为核心的广泛集成,通过3D堆叠整合LPUs(本地处理单元),有望从根本上解决内存墙问题,改变芯片设计范式,预计将要影响未来5-10年芯片设计理念。

图4 LPU与GPU对比

信息来源:融中咨询

4)发展历程

2025年底,英伟达通过200亿美元战略授权并深度集成的Groq LPU(Language Processing Unit)架构。通过引入Groq创始人Jonathan Ross(前Google TPU之父)主导的软件定义硅片范式,突破传统GPU在生成式AI推理场景下的表现瓶颈。英伟达此外吸纳其核心团队并将LPU架构纳入自家生态。

表3 LPU发展史

信息来源:融中咨询

(2)行业现状分析

1)行业规模

AI行业正从“训练”转向“推理”,LPU与英伟达CUDA生态的深度整合,大幅降低了应用开发和部署的门槛,使得AI代理、实时消费端应用等超低延迟场景的需求得以快速扩张。据最新供应链调查,英伟达入股Groq后,LPU出货量预测已出现实质性上调。2026至2027年LPU总出货量为400至500万台,其中2026年占30%至40%,2027年占60%至70%。与历史年产量相比,这一规模意味着约10倍以上的数量级跃升。相对应的全球AI服务器PCB方面,其市场规模将从2024年的约31亿美元激增至2027年的271亿美元,年复合增长率超过100%。

2)产业链分析

LPU芯片产业链核心环节覆盖芯片设计、存储芯片SRAM、PCB、先进封装、边缘计算、液冷等领域。

图5 LPU芯片产业链核心环节

信息来源:融中咨询

3)相关公司

算力PCB、高端材料与国产LPU是核心受益环节。

一是PCB,核心受益标的应是具备高多层PCB生产能力并获得头部客户认证的公司。LPU的技术特性直接催生了对高端PCB的巨大需求。由于其内部集成了复杂的内存架构,LPU配套的电路板必须达到30至40层以上的高多层设计,技术门槛极高。

  • 沪电股份

简介:公司专注于单/双面及多层电路板、HDI板的生产销售,产品应用于通讯设备、汽车电子等领域,多层板市场份额居国内首位。公司主导产品广泛应用于通讯设备、汽车、工业设备、数据中心、网通、微波射频、半导体芯片测试等多个领域。沪电股份的主要客户包括英伟达、华为特斯拉、谷歌、思科、阿里、腾讯等全球头部企业,业务覆盖AI服务器、通信设备、汽车电子等多个高景气赛道。业绩方面,2025年公司实现营业收入约189亿元,同比增长约42%;实现归属于上市公司股东的净利润约38.22亿元,同比增长约47.74%;实现归属于上市公司股东的扣除非经常性损益后的净利润约37.61亿元,同比增长约47.69%。

核心技术路线:2025年上半年公司在数据中心PCB、22层及以上PCB、交换机及路由器PCB等细分领域均位列全球第一。公司的核心技术路线聚焦于高频高速PCB技术、高多层复杂结构技术以及高散热、高可靠性汽车电子技术。

技术突破:公司在数据中心与AI服务器领域、高速网络设备领域等实现了显著的技术突破。

代表产品:沪电股份在英伟达AI服务器电路板的全球供应份额超过50%,特别是在H100/B200这类顶级系统的主板上,具备独家供货能力。在汽车电子领域,它的产品覆盖了特斯拉等头部车企的智能驾驶域控制器和“三电”系统。

二是覆铜板,LPU/LPX机架代表了M9级CCL(覆铜板)材料的大规模商业部署。

  • 南亚新材

简介:公司是国内领先的高频高速覆铜板制造商。公司直接客户包括奥士康、健鼎集团、深南电路、景旺电子、五株集团、广东骏亚等知名PCB厂商,其终端客户主要包括华为、中兴、联想、戴尔等通讯行业客户。业绩方面,公司2025年实现营业总收入52.28亿元,同比增长55.52%;归母净利润2.41亿元,同比增长378.65%。

核心技术路线:南亚新材自主研发了包括M6—M9等级覆铜板。其技术平台覆盖环氧树脂体系、碳氢树脂体系(PPO/SEBS)以及聚四氟乙烯(PTFE)体系等多种材料路线。

技术突破:公司成功开发出多个损耗等级的高频高速覆铜板产品,满足了主流服务器平台和5G基站对材料信号损耗的严苛要求,实现了对国外高端产品的部分替代。

代表产品:南亚新材高速材料产品迭代始终紧跟市场应用需求,应用于交换机材料,除56G材料NY-P2外,112G材料NY-P4N/NY-P4也已应用于大客户产品。

三是先进封装,全球先进封装厂商阵容庞大,包括中国台湾厂商台积电,海外英特尔和三星等国际巨头,以及中国大陆封测厂商长电科技、通富微电、华天科技等。据Wcctech,英伟达Feynman架构芯片预计将采用3D封装的方式将LPU堆叠在主芯片上,将专为推理任务优化的LPU芯片直接集成在GPU计算核心之上,从而实现通用计算与专用计算在物理层面的深度融合。

四是国产LPU,国产LPU的推出将强化国产算力生态的自主性,当前全球AI算力市场由英伟达主导,而LPU通过适配国产芯片(如燧原、壁仞),有望在推理场景中逐步替代GPU,缓解美国技术封锁带来的供应链风险。

  • 无问芯穹

基本情况:成立时间2023年5月,创始团队来自清华大学电子工程系。与LPU概念公司对标,主要通过算法压缩、编译优化和异构调度来实现高性能推理,是LPU生态的重要构建者。

核心技术路线:异构计算优化+软硬协同(MxN中间层),不单纯依赖单一硬件架构,而是通过软件栈和编译优化技术,打通不同芯片之间的壁垒,实现算力资源的池化和高效调度。

技术突破:此前,无问芯穹宣布国产LPU芯片取得重大突破,只需一块即可承载Llama2-70B模型推理,速度高达每秒300token,且成本仅为英伟达GPU的1/10。内部测试数据显示,在大规模模型推理场景中,其算力成本下降高达90%

代表产品:无穹LPU,计划于2025年面世的端侧大模型推理处理器(可能以IP形式集成)。Infini-AI平台:支持多种异构芯片混合训练的云平台。

(3)应用场景

LPU(语言处理单元)作为面向AI推理优化的专用处理器,其下游应用聚焦于对实时交互与超低延迟具备刚性需求的场景。

云计算AI服务:在云端推理侧,LPU将AI服务的响应范式从“异步等待”推向“同步对话”,核心价值在于支撑实时翻译、智能编程、内容生成等对交互流畅性要求极高的应用。随着AI代理与实时消费端应用的兴起,超低延迟推理需求正快速增加。英伟达为应对长文本推理带来的KV缓存需求增长,计划将单机柜LPU数量从64颗提升至256颗,以扩大内存容量并维持超低延迟性能,新架构机柜预计于2026年Q4至2027年Q1量产。2025年第三季度,中国云基础设施服务市场规模达134亿美元,同比增24%。

边缘计算:边缘侧是LPU实现低功耗、低延迟推理的关键战场,涵盖自动驾驶、工业质检、协作机器人、实时安防等对时延高度敏感的本地化AI应用。随着实体AI与面向消费者的实时应用加速落地,LPU在边缘侧的渗透率有望快速提升。2024年中国边缘云计算服务市场规模攀升至132亿元。自2020年起,该市场便展现出强劲扩张势头,2020-2024年的复合年增长率高达48.6%。

科研与金融:在高频数据处理场景,时间直接量化为商业价值与科研产出。金融交易领域需要对新闻情绪、财报文本等非结构化数据进行纳秒级处理,为高频策略争取关键交易窗口;前沿科研方面,蛋白质折叠模拟、天文数据分析等任务对大规模并行计算能力提出极高要求。该领域对算力投入具备强付费意愿与高客户粘性,是LPU早期商业化验证的核心切入点。

(1)技术路线:SRAM、硅光子、CPO技术并进

LPU的核心技术特征是采用片上SRAM替代HBM,实现超低延迟推理,在处理长上下文推理时优势显著。未来技术演进的关键在于3D堆叠融合。英伟达Feynman架构已明确采用3D堆叠加硅光子互连,推理性能达Blackwell的5倍。此外,硅光子与CPO技术将成为LPU集群互连的关键,机柜内外的数据传输带宽需求激增。

(2)市场规模:爆发在即

根据天风最新供应链调查,2026至2027年LPU累计出货量预计达400万至500万颗,较历史年度出货量实现十倍以上增长。其中,2026年出货占比约30%-40%,2027年提升至60%-70%。在机柜层面,英伟达将单柜LPU数量提升至256颗以应对长文本推理带来的KV缓存需求。新架构机柜预计2026年第四季度量产,2026年出货300-500台,2027年跃升至1.5万至2万台。

(3)供应链变革:PCB产业链的新周期

LPU机柜的规模化量产将深刻改变上游供应链格局。高层数PCB及相关材料(CCL)成为最大受益环节——单机柜需配置的PCB及相关材料大幅度上升。覆铜板方面,从竞争格局看,日韩厂商将资源集中于ABF载板,沪电股份、深南电路等在52层板良率上已追平台系对手,有望在LPU浪潮中占据关键生态位。

LPU(语言处理单元)行业在迎来爆发式增长的同时,也面临多维度的风险与挑战。综合当前行业动态,主要风险集中在技术路线、市场竞争、商业落地等方面。

技术架构自身的局限性风险。LPU的核心优势在于其采用片上SRAM(静态随机存取存储器)来实现超低延迟推理,但这一设计存在天然短板。与DRAM(动态随机存取存储器)相比,SRAM的单元面积大5到10倍,导致相同容量下芯片面积剧增,限制了模型规模。

市场竞争格局的剧烈演变风险。AI产业重心正从训练转向推理,客户对"极致性价比"的追求日益强烈。英伟达虽然通过收购Groq强化了LPU布局,但其最大客户群(如谷歌、亚马逊、Meta)正加速自研芯片(TPU、Trainium等),试图将算力利润内部化并构建排他性优势。

商业落地与成本效益风险。尽管LPU在延迟指标上表现突出,但其商业价值需通过成本效益检验。SRAM方案与现有HBM生态的关系并非简单的替代,而是协同共存,这意味着下游客户需在技术选型、系统适配方面承担额外的整合成本和试错风险。

第一时间获取股权投资行业新鲜资讯和深度商业分析,请在微信中搜索“融中财经”公众号,或者用手机扫描左侧二维码,即可获得融中财经每日精华内容推送。

您可能也喜欢的文章