
核心观点:
小语言模型的巨额融资成为常态,头部公司的单轮融资额动辄达到数亿美金或欧元量级。例如,MistralAI在短短半年内从种子轮(1.05亿欧元)迅速跃升至B轮(3.85亿欧元),中国的01.AI在A轮融资后估值即超过10亿美元,迅速跻身独角兽行列。
与大型云端模型不同,小语言模型凭借其低延迟、高隐私、离线运行能力,在与用户日常生活紧密相关的智能终端领域率先取得突破性进展。
近年来,国家层面通过《关于深入实施“人工智能+”行动的意见》、《国家人工智能产业综合标准化体系建设指南(2024版)》等顶层设计,明确了智能终端的规模化普及目标,相关政策指出到2027年,新一代智能终端、智能体等应用普及率要超过70%,直接为小语言模型创造了广阔的市场需求。
全球小语言模型市场已初步形成"国际科技巨头生态垄断、中国AI独角兽技术突破、专注型初创快速落地、硬件终端巨头跨界整合"的多元化竞争格局。
中国作为全球最大的智能终端制造和消费市场,在小语言模型领域具有天然优势。预计中国市场占据全球市场约25-30%的份额,2024年市场规模约为96~115亿元人民币,到2031年或达到336~403亿元人民币。
(1)定义及优势
小型语言模型(Small Language Models,SLM)指的是相对于大型语言模型而言,规模较小、参数数量较少的模型,通常情况下,其参数量在数百万到数几十亿之间。而大型语言模型的参数量则高达千亿甚至万亿个,例如OpenAI的chatGPT3.0模型(1750亿)。
小语言模型通常在处理特定任务或领域时,能够以较低的计算成本实现相对不错的性能。此外,小语言模型在资源有限、需要快速部署或对实时性要求较高的应用场景中亦非常实用。
(2)主要特点及对比
鉴于参数量相对较少,小语言模型在训练和部署方面,具有成本低、快速响应、特定领域优化、易于集成、可解释性等优势。
图表1小语言模型特点

信息来源:融中咨询
总体来说,大模型与小模型在参数数量、训练数据量、计算资源需求及应用场景方面有区别。大模型(参数十亿级以上)依赖海量数据和高算力,适用于高精度复杂任务(如NLP);而小模型参数少,对数据和算力的需求低,成本更低。
图表2大语言模型与小语言模型的对比

信息来源:融中咨询
以Phi-3全系列、Gemma-7b、Mistral-7b等小语言模型的性能数据与Mixtral-8x7b、GPT-3.5-Turbo、Claude-3-Sonnet等大模型进行对比,语言理解、推理、数学、代码生成等方面,并没有出现明显的差异。具体如下图所示。
图表3Phi-3-Mini的性能对比

信息来源:融中咨询
(3)近期模型
2024-2025年新发布的小语言模型汇总了来自全球顶尖科技公司(如Google、Microsoft、Meta、Apple、NVIDIA、阿里巴巴、腾讯等)和学术机构(如北大),其竞争焦点已从单纯追求“参数规模”转向追求“性能与效率的极致平衡”。开发者们正致力于打造在特定场景下(如边缘计算、手机端、安全领域)能力卓越,且能耗更低、速度更快的“小而强”模型。
图表42024-2025年新发布的小语言模型统计

信息来源:融中咨询
小语言模型(SLM)行业自2023年起进入了快速发展期,呈现出从通用模型向专业化、多样化方向演进的特点。
早期发展(2023年之前):行业起步阶段以开源和通用型模型为主,例如Megatron-GPT2、GPT-Neo等。这些模型为后续发展奠定了技术基础。
爆发增长(2023年及之后):这一年模型发布数量显著增加,并出现了关键趋势。微软发布的Phi系列(从Phi-1.5到Phi-2)展示了通过高质量数据训练小模型的巨大潜力。同时,领域专用模型开始涌现,如AstroLLaMA(天文学),标志着SLMs开始向垂直领域深入。开发团队也愈发多元,涵盖了学术界、工业界和开源社区。
深化与专业化(2024年及以后):行业发展进一步聚焦于垂直领域和性能优化。微软持续迭代其Phi系列(Phi-3,Phi-3.5),其他机构也推出了如ChemLLM(化学)和Hippocrates(医疗)等大量专业模型。同时,技术路径更加多样,出现了如Rho-1等专注于代码训练的模型。这一趋势预计将持续到2025年及未来,SLMs正朝着更精细的领域定制、更高的效率以及更广泛的开发者参与方向演进。
图表5小语言模型的发展历史

信息来源:融中咨询
(1)产业链结构:端、边、芯协同生态
小语言模型产业链涵盖硬件基础设施、算法模型研发及行业终端应用的多层次生态体系。其最显著的特点是与"端、边、芯"(终端设备、边缘计算、芯片)的高度协同。与传统云端大模型依赖数据中心算力不同,SLM的价值实现必须深度嵌入终端设备的硬件能力和应用场景。
图表6小语言模型产业链结构图
信息来源:融中咨询
上游:数据与硬件支持
小语言模型产业的蓬勃发展,离不开其上游坚实的基础支撑层,该层级为模型的研发、训练与部署提供了不可或缺的核心资源。
1)在硬件与算力层面,训练环节主要由NVIDIA的GPU(如H100/H200)主导,AMD、Intel等厂商也在积极竞争。而在推理环节,尤其是边缘计算芯片,如高通手机芯片、苹果的M系列NPU以及Intel的CoreUltraNPU,成为了小模型生态落地的关键战场,它们为模型在终端设备上的高效运行提供了硬件基础,同时众多初创公司也致力于开发专用的低功耗AI加速器。
2)AWS、Azure、GoogleCloud等全球云计算平台则提供了强大的训练算力与便捷的模型托管服务,显著降低了研发门槛。其次,高质量的数据与服务是模型智能的源泉,专业的数据供应商提供预训练数据集与合成数据,而数据清洗与标注公司则为小模型在特定领域的专业化提供了关键的精标数据支持。
3)成熟的框架与工具构成了技术栈的基石。以PyTorch、TensorFlow、JAX为核心的开源框架,与HuggingFace的Transformers、Tokenizers等生态工具共同构成了模型开发的标准流程,而ONNX等开放格式则极大地推动了模型的跨平台部署与应用。
中游:技术研发与模型开发
中游是模型与生态层,作为产业链的核心,这里汇聚了多元的参与者,共同推动小语言模型的研发、优化与分发。
1)在模型开发者层面,科技巨头如Microsoft、Google、Meta和Apple凭借其前沿的Phi、Gemma、Llama及OpenELM等系列模型引领技术方向,并普遍采用开源策略以构建开发者生态,同时为其云业务引流。
2)01.AI、Moondream等顶尖AI实验室与初创公司则展现出更高的灵活性与专注度,在特定领域或技术点上实现关键突破;而充满活力的开源社区基于巨头发布的基座模型,进行精细微调、压缩与优化。
下游:应用场景的落地
在行业应用解决方案上,小模型凭借其能够本地化部署的优势,在各个领域发挥优势。
1)在金融领域,SLM实现智能客服、财报分析和风险审核,严格保障数据安全;
2)在医疗领域,SLM辅助临床决策、结构化病历,有力保护患者隐私;
3)在教育领域,SLM充当个性化学习助手;
4)在法律领域完成高效的合同审查与案例查询;
5)在手机与PC上,以端侧智能助手的形式实现照片增强、文案创作和实时翻译;
6)在汽车座舱内,作为车载语音助手提供快速响应、离线可用的交互体验;
7)在IoT设备中,则成为机器人、智能家居的中控大脑,实现低延迟、低功耗的智能控制。
(2)市场规模:从爆发期迈向成熟期
全球小语言模型市场正处于快速增长通道。2024年市场规模为53.8亿美元,到2031年将增长至188亿美元,年复合增长率(CAGR)为20.9%。这一增速显著高于传统企业软件市场,反映了端侧AI作为新兴技术的强劲需求。
中国市场占据全球小语言市场25-30%的份额。中国作为全球最大的智能终端制造和消费市场,在小语言模型领域具有天然优势。预计中国市场占据全球市场约25-30%的份额,2024年市场规模约为96-115亿元人民币,到2031年将达到336-403亿元人民币。
图表7全球及中国小语言模型行业规模情况

数据来源:融中咨询
SLM正逐渐成为推动行业智能化变革的关键力量。在金融领域,它用于自动化处理财报摘要生成与智能投研信息提取,提升风控与运营效率;娱乐行业利用它创作营销文案、驱动游戏NPC基础对话并赋能互动叙事;汽车系统通过集成SLM,打造能理解复杂指令的车载语音助手,提升交互体验与驾驶安全;教育工具借其提供个性化的学习辅导和交互式语言练习;电商零售则依靠SLM聊天机器人高效处理售前售后咨询,显著提升客户服务体验与满意度;在医疗领域,SLM被用于初步的健康问答分诊,并辅助完成病历结构化等行政工作,帮助优化紧张的医疗资源分配。
图表8小语言模型下游细分结构

数据来源:融中咨询
(1)核心应用场景:智能终端引领落地潮
小语言模型的应用落地正处在从"探索孵化期"向"规模应用期"过渡的关键阶段。与大型云端模型不同,SLM凭借其低延迟、高隐私、离线运行能力,在与用户日常生活紧密相关的智能终端领域率先取得突破性进展。其应用的核心逻辑在于将智能计算从云端前置到设备本地,为用户提供更即时、更个性化、更安全的AI体验,推动AI应用从"能用"向"好用"迈进。
图表9主要行业小语言模型应用成熟度评估(2024-2025年)

数据来源:融中咨询
(2)标杆案例深度剖析
案例一:小米"超级小爱同学"——生态融合的端侧AI大脑
小米公司在其澎湃OS(HyperOS)中集成的"超级小爱同学",是SLM在智能手机终端应用的标杆案例。它不再是一个简单的语音问答工具,而是深度融合了SLM能力的端侧AI大脑。
该助手具备强大的多模态交互、全局自然语言搜索、屏幕识别和跨设备执行能力。例如,用户可以直接用自然语言命令手机"帮我查找上周拍的带狗的照片,并发送给妈妈",系统能理解指令、识别图像内容、调用联系人并执行发送动作。其核心是结合了全生态感知的个人本地信息库。SLM在端侧直接处理和理解用户的个人数据(如日程、照片、偏好),无需上传云端,从而具备了高度个性化的记忆能力,极大地保护了用户隐私。该功能已于2024年11月开始在小米15、小米14等系列机型上推送内测。
案例二:长安马自达EZ-60——端侧模型赋能的智能座舱
面壁智能与长安马自达的合作,诞生了全球首批搭载纯端侧大模型并实现量产的车型——MAZDAEZ-60,标志着SLM在智能汽车领域的商业化落地取得了重大突破。
在智能座舱内,SLM作为长安马自达的车载AI助手,负责处理导航、娱乐、车辆控制等多种语音指令。用户可以通过自然语言与车辆交互,例如"帮我找一家附近评分高的川菜馆,并导航过去",系统能够理解意图、搜索信息、规划路线并启动导航。车载助手即使在隧道、山区等无网络环境下,依然能够提供毫秒级的快速响应和稳定流畅的交互。同时,所有语音交互数据和用户偏好数据都在车内本地处理,最大限度地保障了用户的隐私和数据安全。
案例三:GooglePixel的GeminiNano——操作系统级整合
在国际市场,Google的GeminiNano代表了另一种端侧AI的落地路径——通过操作系统级别的深度整合,将SLM能力开放给整个Android生态。GeminiNano推出了1.8B和3.25B两个参数版本,专为移动设备优化,支持4位量化部署,可在主流Android手机上流畅运行。其核心能力包括设备端文本生成、智能回复建议、实时语音转写等。
Google的策略是将GeminiNano作为Android操作系统的基础AI能力,开放给所有应用开发者调用。这意味着,未来数十亿台Android设备都将内置端侧AI能力,开发者无需自己训练模型,即可为用户提供智能化体验。这种"平台化"策略,与小米、面壁智能的"场景化"落地形成了有趣的对比,反映了不同企业在SLM商业化路径上的差异化选择。
图表10SLM在主流终端的应用功能对比

信息来源:融中咨询
(1)市场参与者图谱:多元化竞争生态
全球小语言模型市场已初步形成"国际科技巨头生态垄断、中国AI独角兽技术突破、专注型初创快速落地、硬件终端巨头跨界整合"的多元化竞争格局。
第一梯队:国际科技巨头
以Google、Apple为代表。这些企业通过操作系统和芯片的生态控制力,构建了难以撼动的竞争壁垒。Google的GeminiNano深度集成Android系统,覆盖全球数十亿设备;Apple的AppleIntelligence基于自研芯片,强调隐私优先和端云协同,截至2024年Q4,超过10亿台设备将获得该功能。
谷歌:谷歌的小语言模型(如Gemma)是基于谷歌最强大的大模型(如Gemini)的技术和研究构建的轻量级、开源模型。它们共享相同的技术基础架构和组件,但在参数规模上进行了精简,旨在让更多的开发者和组织能够轻松获取和使用先进的AI技术。
Gemma模型的核心特点是轻量级和高度优化,确保它们可以在从移动设备到云端系统等各种计算环境中灵活访问和运行。谷歌发布了两个主要版本的Gemma模型,分别为20亿参数和70亿参数的规模。每个版本都提供预训练模型和指令调优的变体,以满足不同开发者的需求和应用场景。
微软:微软在小语言模型领域也有着清晰的战略和出色的产品,微软开源了一个名为Phi-3-mini的小型语言模型,它拥有38亿参数,并在多种任务上展现出了出色的性能。Phi系列(开源模型)是微软SLM研究的主力军,已经迭代了多个版本。Phi-3系列(2024年4月发布),Phi-3使用了与Llama2类似的更现代架构,并在一个由高度筛选的网页数据和合成数据组成的超大数据集上进行了训练,进一步巩固了“数据质量至上”的理念。
英伟达:英伟达的SLM代表作是Nemotron和ChatQA系列,但其影响力更体现在它提供的整个开发生态上。与谷歌、微软等主要从模型研发角度切入不同,英伟达的SLM战略是其全栈AI帝国蓝图中的关键一环,核心思想是:“我们提供从芯片、软件到模型的一整套最佳实践,告诉全世界如何最高效地构建和使用SLM。
Meta:Meta的SLM战略核心非常清晰,Meta强力推进开源,与OpenAI和Anthropic的闭源策略相反,Meta选择将其最重要的模型(如Llama系列)开源,允许研究者和开发者免费商用、研究和修改。这极大地推动了AI技术的民主化。此外,Meta构建模型家族,Meta不满足于只发布一个模型,而是构建了从70亿到700亿参数的完整模型谱系,覆盖从手机到数据中心的各类场景。同时,Meta注重社区驱动创新,通过开源,Meta吸引了全球最聪明的头脑在其模型基础上进行微调、优化和创新,形成了一个强大的飞轮效应。社区贡献的无数微调版本反过来又增强了Llama生态的活力。
Apple:OpenELM是苹果在2024年4月发布的一个模型家族,它清晰地展示了苹果在SLM领域的技术路线。OpenELM是一个基础语言模型,而非对话模型。它的目的是作为一个强大的起点,供社区和研究者进行微调和进一步开发,同时也向业界展示了苹果在模型架构上的创新能力。
第二梯队:中国AI独角兽
以智谱AI、MiniMax为代表。这些企业在通用大模型领域已建立深厚的技术和资本壁垒,现阶段正利用其优势向下布局端侧市场。智谱AI推出GLM-Edge系列,与高通深度适配;MiniMax探索MoE等高效架构以降低推理成本。
此外,阿里巴巴的SLM战略是其宏大AI蓝图中的关键一环,旨在满足不同场景下的算力和效率需求。Qwen2.5系列是阿里巴巴最新一代的小语言模型,这是目前阿里最新、最强大的模型家族,其中包含了多个卓越的小模型,包括Qwen2.5-1.5B/3B/7B、Qwen2.5-72B-IN-9B等。
第三梯队:专注型初创企业
以面壁智能为代表。此类企业自创立之初就聚焦于端侧AI和轻量化模型赛道,技术迭代迅速,商业化落地目标明确。其核心优势在于技术专注度和灵活性,能够快速响应市场需求。
第四梯队:硬件及终端巨头
以小米、地平线为代表。小米通过自研"超级小爱同学",将SLM能力深度集成到手机和IoT产品生态中;地平线则作为上游芯片领导者,通过提供高性能车规级AI芯片,赋能下游智能汽车应用。
此外,vivo的“蓝心大模型”是一个覆盖不同规模的模型家族,其中端侧模型是其重中之重,也是一个典型的代表。其中蓝心大模型7B(70亿参数)及以下,这是vivo端侧能力的核心,主要包括蓝心大模型7B,这是能够在旗舰机型上流畅运行的、能力最全面的端侧模型。它负责处理手机端大部分复杂的AI任务。
(2)核心竞争力分析:技术、生态、场景三维博弈
不同类型的参与者围绕技术、生态和场景三个维度构建自身的核心竞争力,形成了差异化的竞争格局。
图表11全球小语言模型竞争格局分布

信息来源:融中咨询
(3)国内代表企业分析
面壁智能——专注端侧,快速迭代
面壁智能是当前中国SLM赛道中最具代表性的领跑者。公司成立于2022年8月,核心战略是专注于端侧AI和小语言模型的研发。其推出的MiniCPM系列轻量化模型,在轻量化与高性能方面表现突出。其最新模型可在端侧设备上实现GPT-3.5级别的性能,而参数量大幅减少。公司坚持开源战略,模型在HuggingFace等平台广受认可,截至2025年5月,全平台下载量累计已突破1000万。它通过创新的模型压缩、量化和蒸馏技术,在保持性能的前提下,将模型规模压缩到可以在手机、车机等终端设备上流畅运行的程度。
面壁智能的商业化路径清晰且迅速。2025年4月,其端侧模型成功搭载于长安马自达MAZDAEZ-60量产车型上,完成了车规级场景的重大突破。这是全球首批搭载纯端侧大模型并实现量产的车型,具有里程碑意义。车规级应用的难度远高于消费电子。它要求模型不仅性能优异,还要满足极端温度、振动、电磁干扰等严苛环境下的稳定运行,以及汽车行业对安全性的极高标准。面壁智能的成功,证明了其技术的成熟度和工程化能力。
凭借清晰的技术路线和商业化进展,面壁智能获得了资本市场的高度认可。在2024年12月至2025年5月的半年内,连续完成两轮由龙芯创投、北京市人工智能产业投资基金、洪泰基金等参与的数亿元融资。这种密集融资节奏反映了投资方对其长期价值的看好,也为公司后续的技术研发和市场拓展提供了充足的资金支持。
地平线——车规芯片,生态赋能
地平线是SLM产业链上游的核心企业,是边缘人工智能芯片的全球领导者,也是国内唯一实现车规级AI芯片大规模量产前装的企业。地平线是国内首家、也是目前规模最大实现车规级AI芯片前装量产的企业。征程系列芯片出货量已达数百万片,与超过30家国内外主流车企建立了合作关系。截至2024年底,其芯片已搭载于超过200万辆汽车上,覆盖比亚迪、长城、上汽、理想等主流车企。
图表12地平线征程系列芯片算力对比

信息来源:融中咨询
公司基于自研的BPU(BrainProcessingUnit)人工智能专用计算架构,打造了征程(Journey)系列芯片。其征程5单芯片算力可达96TOPS,最新的征程6系列性能更强,能够满足L2至L4级自动驾驶的算力需求。BPU架构的核心优势在于,针对AI推理任务进行专门优化,相比通用GPU,在能效比和成本上具有显著优势。这使得地平线的芯片能够在车载这种对功耗、散热、成本都有严格限制的场景下,提供强大的AI算力。
公司与上汽、小米等头部企业及超过20家机器人厂商建立了深度合作关系。通过提供强大的、开放的芯片平台,地平线为下游广大的SLM模型和应用厂商提供了坚实的硬件基础。这种开放生态策略的价值在于,通过成为产业链的"基础设施提供者",地平线不仅能够获得芯片销售收入,更重要的是在整个产业生态中占据了不可或缺的核心地位,建立了长期的竞争壁垒。
地平线的商业模式正在从单纯的芯片销售,向"芯片+算法+工具链"的整体解决方案演进。公司不仅提供硬件,还提供配套的算法开发工具、模型优化服务,帮助客户快速将AI能力落地到产品中。这种转型使得地平线能够获取更高的产品附加值,同时也加深了与客户的绑定关系。
阿里巴巴——算力支持,性能领先
阿里巴巴集团控股有限公司是中国领先的互联网科技企业,创立于1999年,是开源模型领域的积极推动者之一。其通义千问团队既研发千亿级别的超大模型以处理核心难题,也大力推广其1.8B、7B等“轻量化”模型,以满足端侧部署和低成本快速响应的需求,形成了完整的技术覆盖。其Qwen1.5系列提供了从0.5B到72B的完整模型矩阵,其中1.8B、4B、7B等轻量化模型在同等规模中性能表现相对领先。
通义千问团队背靠阿里云遍布全球的数据中心和强大的算力设施(如倚天710等自研芯片),在模型训练和推理上具备显著优势。在落地场景方面,阿里巴巴庞大的电商、支付、物流、文娱等业务生态,为通义千问模型提供了海量的真实世界测试数据和落地场景,这是绝大多数团队不具备的独特优势。
深度求索——技术驱动,垂直领域突出
深度求索(DeepSeek)成立于2023年,总部位于杭州,由幻方量化孵化,专注于人工智能底层模型与技术的研发。DeepSeek-V2及其Lite版本是其重要的模型产品。他们的DeepSeek-Coder系列在代码模型领域表现优异。
深度求索专注于“高效性能”的核心技术路线。DeepSeek-V2采用了创新的MoE(混合专家)架构,总参数量为236B,但通过路由机制每次推理仅激活约21B参数,实现了以较低的计算成本获得接近大模型的性能。深度求索公司通过技术驱动,在代码和数学等垂直领域能力突出,坚持开源策略,具有较高的成本效益比。
全志科技——“算力底座”,芯片赋能
全志科技的芯片产品作为底层算力平台,对小语言模型在端侧设备的普及和高效运行提供了关键支持。全志科技成立于2007年,2015年在创业板上市,主营业务涵盖智能应用处理器SoC、高性能模拟器件及无线互联芯片的研发与销售。全志科技2025年上半年营业收入为13.37亿元,同比增长25.82%;归属于上市公司股东的净利润1.61亿元,同比增长35.36%。
近年来,全志科技发布的多款新一代SoC(如MR系列、R系列和H系列的部分型号)都原生集成了专用NPU。这意味着芯片在设计阶段就为AI计算进行了优化,能够高效地执行小语言模型的推理任务。此外,全志科技正致力于深化“算力底座”的角色,通过推出算力更强的AIoT芯片,并与模型厂商深度合作,为客户提供“推荐芯片型号+适配的轻量级模型+优化部署工具”的一站式解决方案,极大降低终端产品实现AI智能化门槛。
(1)政策环境:从"通用鼓励"到"精准扶持”
2024至2025年,中国AI产业的政策环境呈现出清晰的结构性倾斜——从对通用大模型的全面鼓励,转向对应用落地和算力高效性的精准扶持,为小语言模型(SLM)和端侧AI的发展打开了关键的政策窗口期。
国家层面通过《关于深入实施“人工智能+”行动的意见》、《国家人工智能产业综合标准化体系建设指南(2024版)》、《“十四五”数字经济发展规划》等顶层设计,明确了智能终端的规模化普及目标,直接为SLM创造了广阔的市场需求。其政策信号明确,政策指出到2027年,新一代智能终端、智能体等应用普及率要超过70%,这意味着未来三年内,数以亿计的智能设备将需要配置高效的端侧AI能力。
同时,地方政府政策迅速跟进。北京作为AI产业的政策高地,出台《北京市推动"人工智能+"行动计划(2024-2025年)》,为面壁智能等本地端侧AI企业提供了从研发补贴到场景开放的全方位支持。深圳也发布了《深圳市加快推动人工智能高质量发展高水平应用行动方案(2023—2024年)》。
图表13中国小语言模型(SLM)扶持政策

信息来源:融中咨询
(2)融资动态:资本聚焦"轻量化"新赛道
近年来对小语言模型的投资呈现出巨额资本集中于头部项目、于近年全球性爆发、并由战略性和生态性投资驱动的鲜明趋势。
小语言模型的巨额融资成为常态,彰显资本对其的强烈信心。如下图所示,头部公司的单轮融资额动辄达到数亿美金或欧元量级。例如,MistralAI在短短半年内从种子轮(1.05亿欧元)迅速跃升至B轮(3.85亿欧元),彰显了资本对其的强烈信心。中国的01.AI在A轮融资后估值即超过10亿美元,迅速跻身独角兽行列。这表明市场愿意为平台的潜在价值支付高额溢价。
小语言模型融资近年来全球爆发。2023年是小语言模型融资的爆发年,下图中大部分核心融资事件(MistralAI两轮融资、Cohere的C轮、HuggingFace的D轮等)都密集发生在2023年。这表明在ChatGPT带来生成式AI热潮后,市场意识到小语言模型是具有商业化潜力的方向,资本在当年集中涌入。融资事件覆盖了美国(AdeptAI)、欧洲(MistralAI)和中国(01.AI,智谱AI),形成了北美、欧洲、亚洲三足鼎立的竞争格局。
融资阶段从早期到成长期并重,战略投资占据主导地位。小语言模型的融资市场不仅限于早期投资(种子/A轮),B轮、C轮乃至D轮的成熟期项目同样活跃。这说明一批领先的初创公司已经跑通了技术或初步商业模式,获得了持续的大额资金支持以加速扩张。此外,小语言模型的投资方名单中出现了阿里云、小米等产业资本,以及a16z、Lightspeed等顶级风投。产业资本的深度参与,意味着小语言模型的发展与各大科技公司的云服务、硬件生态等核心战略紧密绑定。
图表14全球重点小语言模型融资情况

信息来源:融中咨询
安全与滥用风险:AIBussiness研究指出,由于SLMs的代码是开源的,数据盗窃和隐私问题等安全风险会更加严重。浙江大学区块链与数据安全全国重点实验室发现,近50%的SLMs在遭受越狱攻击时显示出高脆弱性,开发人员需从开发早期阶段优先考虑安全设计原则。
模型泛化能力风险:SLMs虽然在特定任务中表现优秀,但在应对更广泛、多变的场景时,如复杂推理、跨领域知识整合上,往往难以维持高效表现。相较于LLMs,SLMs可能更容易受到数据偏见的影响,缺乏足够的适应能力。尽管SLMs在特定场景表现良好,但在复杂推理、代码生成等任务上仍难以匹敌大规模LLMs。
数据质量风险:如果训练数据中存在偏差或不平衡,小模型可能会在特定场景下表现出较低的泛化能力,甚至产生不准确的预测或生成内容。因此,要确保训练数据的质量。一方面,在数据清洗时要进行去噪处理,通过去除重复项、纠正标注错误等方式来提高数据质量。另一方面,要结合外部的知识库,弥补数据中存在的不足,增强模型的泛化能力。
小模型局限性风险:小语言模型通常设计为专门处理特定领域或任务,因此其知识库相对有限,难以应对跨领域的复杂问题。为了解决小模型使用局限性的问题,一是模块化设计,将小模型设计为可扩展的模块系统,可以通过引入专门的插件或外部知识库,扩充其对不同主题的处理能力。二是多模型集成,通过将多个小模型进行集成,形成一个组合型的系统,充分发挥每个模型在特定领域的优势。
第一时间获取股权投资行业新鲜资讯和深度商业分析,请在微信中搜索“融中财经”公众号,或者用手机扫描左侧二维码,即可获得融中财经每日精华内容推送。