200亿美金重注！英伟达LPU正式发布，产业全景梳理

2026-03-18

来源：融中咨询

LPU行业迎来高景气周期，2026至2027年LPU累计出货量预计达400万至500万颗，较历史年度出货量实现十倍以上增长。

核心观点：

美西时间3月16日，黄仁勋宣布Groq3 LPU现将纳入英伟达产品目录。Groq3 LPX机架搭载256个LPU处理器，提供128GB片上SRAM和640TB/s扩展带宽。LPX与VeraRubin平台结合后，推理吞吐量/功耗比将能提升35倍。LPU芯片将由三星代工，预计机架将于今年下半年开始出货。据悉，OpenAI已同意成为该处理器的最大客户之一。
AI行业正从“训练”转向“推理”。据最新供应链调查，英伟达入股Groq后，LPU出货量预测已出现实质性上调。2026至2027年LPU总出货量为400至500万台，与历史年产量相比，这一规模意味着约10倍以上的数量级跃升。
算力PCB、高端材料、国产LPU相关标的受益，如沪电股份、南亚新材、无问芯穹等。PCB方面，核心受益标的应是具备高多层PCB生产能力并获得头部客户认证的公司。此外，LPU通过适配国产芯片有望在推理场景中逐步替代GPU，缓解技术封锁带来的供应链风险。

英伟达推出的LPU推理专用芯片，并不是简单的GPU简化版，而是从架构、封装、散热、互联方式上全面重构的新一代推理计算单元，其对上游供应链的要求完全不同于传统AI服务器。英伟达表示，此次推出的Groq3 LPX（机架）标志着加速计算的一个里程碑。当与VeraRubin NVL72一起部署时，Rubin GPU和LPU通过共同计算AI模型每一层来提升解码速度，从而为每个输出token提供计算。

图1 英伟达Groq3 LPX系数

信息来源：NVIDIA英伟达

（1）行业定义及发展历程

1）定义及特点

LPU，即Language Processing Unit，是专为语言处理任务打造的硬件处理器，与GPU有着本质差异。GPU最初用于图形渲染，凭借出色的并行计算能力在AI领域大放异彩，广泛应用于模型训练和推理。而LPU即语言处理单元，是一种专门用于加速大语言模型推理的芯片，LPU聚焦于文本数据处理，针对自然语言理解、文本生成等任务进行深度优化，以辅助加速器的工作。

LPU较GPU有明显优势。从硬件架构看，LPU采用时序指令集计算机架构，无需芯片外内存，这是其显著优势，它使用的SRAM速度比GPU所用存储器快约20倍，极大提升了数据读写效率。在能效方面，LPU减少多线程管理开销，避免核心资源浪费，执行推理任务时能耗低于英伟达GPU，实现了更高的每瓦特计算性能。

表1 GPU与LPU对比

信息来源：融中咨询

在英伟达投资Groq后，其LPU出货的规划大幅上修。据预测，2026-2027年LPU共出货预估约400~500万颗，相较过去年度出货量，将出现十倍以上的数量级成长。LPU芯片和ASIC芯片类似，存储器采用SRAM降低延时，显著提升推理速度。

2）特点

以Groq LPU为例，其创新特点包括采用SRAM、确定性执行引擎、可编程流水线架构：

表2 LPU特点

信息来源：融中咨询

图2 LPU的张量流处理器（TSP）的架构（右图）对比传统GPU采用多核布局（左图）

信息来源：groq官网

LPU针对延迟和内存带宽这两大推理瓶颈进行了专项优化。据业内人士的估算，倘若LPU得以全面普及，AI推理成本将会再度降低90%。有了LPU的加持，模型生成的吞吐量可以从每秒几十个词提升到每秒上千个词（快过人类阅读速度数十倍）；而面对代理型AIAgent，LPU可以让Agent更频繁快速地进行逻辑推理。

为了突破困扰行业已久的“存储墙”瓶颈，LPU舍弃了高带宽但高延迟的HBM，转而密布了高达230MB的片上SRAM，内存带宽升至80TB/s。在这种极致的带宽支持下，LPU能够在单批次（BatchSize1）推理中实现几乎“感知不到”的首字延迟（TTFT），其Token生成速度稳定维持在1600tokens/s以上，将大语言模型的响应从逐字跳动进化为瞬时成文。

图3 GPU、NPU与LPU性能对比

信息来源：融中咨询

3）技术方案

从技术架构看，Groq3LPU与主流AI加速器的差异化路线鲜明。GPU推理时需频繁搬运HBM中的数据，产生延迟。而LPU采用高密度片上SRAM（如Groq原芯片可达80TB/s带宽），数据访问速度快，从根本上解决了这一问题。大多数AI加速器依赖HBM作为工作内存，而每颗Groq3 LPU内置500MB SRAM——与CPU和GPU超高速缓存所用内存类型相同。尽管这一容量远低于RubinGPU所配备的288GB HBM4，但其带宽高达150TB/s，远超后者22TB/s的HBM带宽。

LPU用SRAM代替DRAM/HBM作为主存储器，直接将权重数据加载到片上，访问延迟从数百纳秒降至几乎为零。设计方面，Feynman系列探索以SRAM为核心的广泛集成，通过3D堆叠整合LPUs（本地处理单元），有望从根本上解决内存墙问题，改变芯片设计范式，预计将要影响未来5-10年芯片设计理念。

图4 LPU与GPU对比

信息来源：融中咨询

4）发展历程

2025年底，英伟达通过200亿美元战略授权并深度集成的Groq LPU(Language Processing Unit)架构。通过引入Groq创始人Jonathan Ross(前Google TPU之父）主导的软件定义硅片范式，突破传统GPU在生成式AI推理场景下的表现瓶颈。英伟达此外吸纳其核心团队并将LPU架构纳入自家生态。

表3 LPU发展史

信息来源：融中咨询

（2）行业现状分析

1）行业规模

AI行业正从“训练”转向“推理”，LPU与英伟达CUDA生态的深度整合，大幅降低了应用开发和部署的门槛，使得AI代理、实时消费端应用等超低延迟场景的需求得以快速扩张。据最新供应链调查，英伟达入股Groq后，LPU出货量预测已出现实质性上调。2026至2027年LPU总出货量为400至500万台，其中2026年占30%至40%，2027年占60%至70%。与历史年产量相比，这一规模意味着约10倍以上的数量级跃升。相对应的全球AI服务器PCB方面，其市场规模将从2024年的约31亿美元激增至2027年的271亿美元，年复合增长率超过100%。

2）产业链分析

LPU芯片产业链核心环节覆盖芯片设计、存储芯片SRAM、PCB、先进封装、边缘计算、液冷等领域。

图5 LPU芯片产业链核心环节

信息来源：融中咨询

3）相关公司

算力PCB、高端材料与国产LPU是核心受益环节。

一是PCB，核心受益标的应是具备高多层PCB生产能力并获得头部客户认证的公司。LPU的技术特性直接催生了对高端PCB的巨大需求。由于其内部集成了复杂的内存架构，LPU配套的电路板必须达到30至40层以上的高多层设计，技术门槛极高。

沪电股份

简介：公司专注于单/双面及多层电路板、HDI板的生产销售，产品应用于通讯设备、汽车电子等领域，多层板市场份额居国内首位。公司主导产品广泛应用于通讯设备、汽车、工业设备、数据中心、网通、微波射频、半导体芯片测试等多个领域。沪电股份的主要客户包括英伟达、华为、特斯拉、谷歌、思科、阿里、腾讯等全球头部企业，业务覆盖AI服务器、通信设备、汽车电子等多个高景气赛道。业绩方面，2025年公司实现营业收入约189亿元，同比增长约42%；实现归属于上市公司股东的净利润约38.22亿元，同比增长约47.74%；实现归属于上市公司股东的扣除非经常性损益后的净利润约37.61亿元，同比增长约47.69%。

核心技术路线：2025年上半年公司在数据中心PCB、22层及以上PCB、交换机及路由器PCB等细分领域均位列全球第一。公司的核心技术路线聚焦于高频高速PCB技术、高多层复杂结构技术以及高散热、高可靠性汽车电子技术。

技术突破：公司在数据中心与AI服务器领域、高速网络设备领域等实现了显著的技术突破。

代表产品：沪电股份在英伟达AI服务器电路板的全球供应份额超过50%，特别是在H100/B200这类顶级系统的主板上，具备独家供货能力。在汽车电子领域，它的产品覆盖了特斯拉等头部车企的智能驾驶域控制器和“三电”系统。

二是覆铜板，LPU/LPX机架代表了M9级CCL（覆铜板）材料的大规模商业部署。

南亚新材

简介：公司是国内领先的高频高速覆铜板制造商。公司直接客户包括奥士康、健鼎集团、深南电路、景旺电子、五株集团、广东骏亚等知名PCB厂商，其终端客户主要包括华为、中兴、联想、戴尔等通讯行业客户。业绩方面，公司2025年实现营业总收入52.28亿元，同比增长55.52%；归母净利润2.41亿元，同比增长378.65%。

核心技术路线：南亚新材自主研发了包括M6—M9等级覆铜板。其技术平台覆盖环氧树脂体系、碳氢树脂体系（PPO/SEBS）以及聚四氟乙烯（PTFE）体系等多种材料路线。

技术突破：公司成功开发出多个损耗等级的高频高速覆铜板产品，满足了主流服务器平台和5G基站对材料信号损耗的严苛要求，实现了对国外高端产品的部分替代。

代表产品：南亚新材高速材料产品迭代始终紧跟市场应用需求，应用于交换机材料,除56G材料NY-P2外,112G材料NY-P4N/NY-P4也已应用于大客户产品。

三是先进封装，全球先进封装厂商阵容庞大，包括中国台湾厂商台积电，海外英特尔和三星等国际巨头，以及中国大陆封测厂商长电科技、通富微电、华天科技等。据Wcctech，英伟达Feynman架构芯片预计将采用3D封装的方式将LPU堆叠在主芯片上，将专为推理任务优化的LPU芯片直接集成在GPU计算核心之上，从而实现通用计算与专用计算在物理层面的深度融合。

四是国产LPU，国产LPU的推出将强化国产算力生态的自主性，当前全球AI算力市场由英伟达主导，而LPU通过适配国产芯片(如燧原、壁仞)，有望在推理场景中逐步替代GPU，缓解美国技术封锁带来的供应链风险。

无问芯穹

基本情况：成立时间2023年5月，创始团队来自清华大学电子工程系。与LPU概念公司对标，主要通过算法压缩、编译优化和异构调度来实现高性能推理，是LPU生态的重要构建者。

核心技术路线：异构计算优化+软硬协同(MxN中间层)，不单纯依赖单一硬件架构，而是通过软件栈和编译优化技术，打通不同芯片之间的壁垒，实现算力资源的池化和高效调度。

技术突破：此前，无问芯穹宣布国产LPU芯片取得重大突破，只需一块即可承载Llama2-70B模型推理，速度高达每秒300token，且成本仅为英伟达GPU的1/10。内部测试数据显示，在大规模模型推理场景中，其算力成本下降高达90%

代表产品：无穹LPU，计划于2025年面世的端侧大模型推理处理器（可能以IP形式集成）。Infini-AI平台：支持多种异构芯片混合训练的云平台。

（3）应用场景

LPU（语言处理单元）作为面向AI推理优化的专用处理器，其下游应用聚焦于对实时交互与超低延迟具备刚性需求的场景。

云计算AI服务：在云端推理侧，LPU将AI服务的响应范式从“异步等待”推向“同步对话”，核心价值在于支撑实时翻译、智能编程、内容生成等对交互流畅性要求极高的应用。随着AI代理与实时消费端应用的兴起，超低延迟推理需求正快速增加。英伟达为应对长文本推理带来的KV缓存需求增长，计划将单机柜LPU数量从64颗提升至256颗，以扩大内存容量并维持超低延迟性能，新架构机柜预计于2026年Q4至2027年Q1量产。2025年第三季度，中国云基础设施服务市场规模达134亿美元,同比增24%。

边缘计算：边缘侧是LPU实现低功耗、低延迟推理的关键战场，涵盖自动驾驶、工业质检、协作机器人、实时安防等对时延高度敏感的本地化AI应用。随着实体AI与面向消费者的实时应用加速落地，LPU在边缘侧的渗透率有望快速提升。2024年中国边缘云计算服务市场规模攀升至132亿元。自2020年起，该市场便展现出强劲扩张势头，2020-2024年的复合年增长率高达48.6%。

科研与金融：在高频数据处理场景，时间直接量化为商业价值与科研产出。金融交易领域需要对新闻情绪、财报文本等非结构化数据进行纳秒级处理，为高频策略争取关键交易窗口；前沿科研方面，蛋白质折叠模拟、天文数据分析等任务对大规模并行计算能力提出极高要求。该领域对算力投入具备强付费意愿与高客户粘性，是LPU早期商业化验证的核心切入点。

（1）技术路线：SRAM、硅光子、CPO技术并进

LPU的核心技术特征是采用片上SRAM替代HBM，实现超低延迟推理，在处理长上下文推理时优势显著。未来技术演进的关键在于3D堆叠融合。英伟达Feynman架构已明确采用3D堆叠加硅光子互连，推理性能达Blackwell的5倍。此外，硅光子与CPO技术将成为LPU集群互连的关键，机柜内外的数据传输带宽需求激增。

（2）市场规模：爆发在即

根据天风最新供应链调查，2026至2027年LPU累计出货量预计达400万至500万颗，较历史年度出货量实现十倍以上增长。其中，2026年出货占比约30%-40%，2027年提升至60%-70%。在机柜层面，英伟达将单柜LPU数量提升至256颗以应对长文本推理带来的KV缓存需求。新架构机柜预计2026年第四季度量产，2026年出货300-500台，2027年跃升至1.5万至2万台。

（3）供应链变革：PCB产业链的新周期

LPU机柜的规模化量产将深刻改变上游供应链格局。高层数PCB及相关材料（CCL）成为最大受益环节——单机柜需配置的PCB及相关材料大幅度上升。覆铜板方面，从竞争格局看，日韩厂商将资源集中于ABF载板，沪电股份、深南电路等在52层板良率上已追平台系对手，有望在LPU浪潮中占据关键生态位。

LPU（语言处理单元）行业在迎来爆发式增长的同时，也面临多维度的风险与挑战。综合当前行业动态，主要风险集中在技术路线、市场竞争、商业落地等方面。

技术架构自身的局限性风险。LPU的核心优势在于其采用片上SRAM（静态随机存取存储器）来实现超低延迟推理，但这一设计存在天然短板。与DRAM（动态随机存取存储器）相比，SRAM的单元面积大5到10倍，导致相同容量下芯片面积剧增，限制了模型规模。

市场竞争格局的剧烈演变风险。AI产业重心正从训练转向推理，客户对"极致性价比"的追求日益强烈。英伟达虽然通过收购Groq强化了LPU布局，但其最大客户群（如谷歌、亚马逊、Meta）正加速自研芯片（TPU、Trainium等），试图将算力利润内部化并构建排他性优势。

商业落地与成本效益风险。尽管LPU在延迟指标上表现突出，但其商业价值需通过成本效益检验。SRAM方案与现有HBM生态的关系并非简单的替代，而是协同共存，这意味着下游客户需在技术选型、系统适配方面承担额外的整合成本和试错风险。

第一时间获取股权投资行业新鲜资讯和深度商业分析，请在微信中搜索“融中财经”公众号，或者用手机扫描左侧二维码，即可获得融中财经每日精华内容推送。

声明：
1 融中财经原创文章未经授权严禁转载。
2 本站转载的内容，均已获授权，其版权归原作者所有。
3 网站所刊登内容出于传递信息之目的，并不意味赞同其观点、立场或证实其内容真实性。
4 涉企问题举报入口见网页底部或邮件至thecapital@thecapital.com.cn。
5 内容合作、转载、勘误或其他任何问题，请微信联系irongzhong。

您可能也喜欢的文章