英伟达发声:别再为 AI 盲目烧钱,小模型才是降本王者!
别再让AI烧钱了! 英伟达证实:小模型才是降本增效的真未来
近年来AI领域似乎陷入了一个怪圈:模型参数越多越好,规模越大越强。 但英伟达的最新研究却给出了一个截然相反的结论——在Agentic AI领域,小模型才是未来。
不仅更强、更适配,还便宜得多。
这不是空口无凭。 数据显示,Agentic AI领域在2024年末已获得超过20亿美元的初创公司融资,整体估值达52亿美元,并有望在2034年前逼近2000亿美元。
但与此同时,2024年却有570亿美元被投入云基础设施,仅仅为了支撑通用LLM API,而当年的市场规模只有56亿美元,整整10倍溢价。
问题出在哪? 绝大多数AI智能体调用所做的只是重复、狭窄、非对话任务,却硬要调用175B参数的“巨无霸”。
英伟达的研究清晰地指出:在大多数Agentic AI场景中,小型语言模型(SLM)已足够强大、更适配、更便宜,理应成为默认选择。
从大模型转向小模型不是“可选项”,而是“必然趋势”。
小模型到底有多强? 7B参数模型在代码生成、工具调用、指令遵循等关键指标上已经近似70B大模型的表现。
低延迟、可本地部署、单任务微调一夜完成,这些都是小模型的天然优势。
更重要的是成本优势。 小模型在推理、微调、运维成本上全线下降一个量级,让AI应用变得更加经济可行。
来看实际数据:微软的Phi-3-small只有7B参数,却能追平70B级别的代码生成能力,吞吐量提升了70倍。
NVIDIA的Nemotron-H-9B模型仅有9B参数,但追平了30B密集LLM的表现,FLOPs降低了10倍。
更令人惊讶的是,HuggingFace的SmolLM2-1.7B只有1.7B参数,却追平了14B模型的表现,而且可以直接在手机端运行。
Salesforce的xLAM-2-8B在工具调用上甚至达到了SOTA水平,超越了GPT-4o。
经济账上小模型更是展现出碾压优势。 SLMs在延迟、能耗和浮点运算次数上比LLMs便宜10到30倍。
LoRA、DoRA微调只需少量GPU小时,并能够在消费级GPU上本地执行,大大降低了使用门槛。
实际测试表明,当6.7B的Toolformer学会调用API后,其性能超越了175B的GPT-3。
7B参数的DeepSeek-R1-Distill在推理表现上也已胜过Claude3.5和GPT-4o。
小模型通过优化硬件资源和Agent任务设计两个方面来更高效地执行Agent任务。
由于小模型“体积”小巧,它们可以在GPU上高效共享资源,在并行运行多个工作负载的同时保持性能隔离。
小巧的体积还带来了更低的显存占用,使得超分配机制成为可能,进一步提升了并发能力。
GPU资源还能根据运行需求灵活划分,实现异构负载的弹性调度和整体资源优化。
在GPU调度中,通过优先调度小模型的低延迟请求,同时预留部分资源应对偶发的大模型调用,就能实现更优的整体吞吐与成本控制。
在传统的Agent任务场景中,Agent依赖大模型完成工具调用、任务拆解、流程控制和推理规划等操作。
但Agent任务往往是重复性的、可预测的、范围明确的。 比如“总结这份文档,提取这份信息,编写这份模板,调用这个工具”,这些最大公约数需求最常被使用。
因此,在大部分需求中,往往不需要一个单一的大模型来执行简单重复的任务,而是需要为每个子任务选择合适的工具。
与其让花费高企的通用大模型处理这些常见任务,不如让一个个经过专业微调的小模型执行每个子任务。
这样可以避免Agent任务中,大模型“高射炮打蚊子”带来的资源浪费,有效地降低推理成本。
运行一个70亿参数的小模型做推理,要比用700–1750亿参数的大模型便宜10–30倍。
小模型计算资源占用低,因而更适合在本地或边缘部署,而大模型则更多地依赖大量GPU的并行计算,依赖中心化的云计算供应商,需要花费更多地计算成本。
大模型还有“大船掉头难”的毛病,不仅预训练和微调成本远高于小模型,难以快速适配新需求或新规则,而且还无法充分利用海量参数。
与之相对,小模型则可以在较小数据量和资源条件下完成高效微调,迭代更快,同时还能凭借更合理的模型结构和定制设计,带来更高的参数利用率。
企业需求推动了小模型发展。 高德纳表示,大语言模型的“AI幻觉”等问题导致用户疲劳,企业更青睐在行业数据上微调的专业模型。
今年企业对小语言模型的需求增速预计是大语言模型的两倍。
成本考量也促使小模型受欢迎:重复、可标准化的任务可用小模型完成,而无需调用资源消耗巨大的大模型。
万国商业机器公司的Docling产品便是例子:仅用约2.5亿参数的小模型即可执行转化数据的任务,用大模型反而不划算。
小模型也可以在更便宜的芯片上运行,能降低硬件成本。
在AI代理中小模型也具有优势。 英伟达认为,小模型有潜力成为“代理型AI”的核心,能以更低成本完成任务,并支持“乐高式”组合——用多个专业小模型替代单一大模型。
从实际案例来看,在MetaGPT中有60%的LLM调用可以用SLM替代,主要是代码补全、模板文档等场景。
Open Operator中有40%的调用可以用SLM处理,如命令解析、固定格式报告生成等。
Cradle中高达70%的调用可以用SLM完成,特别是重复GUI点击序列等任务。
迁移从大模型到小模型有具体方法可循。 首先需要通过日志采集记录当前大模型的运行数据,使用加密管道和匿名化技术。
然后进行数据清洗,包括PII自动脱敏和敏感实体替换。
通过无监督聚类发现高频子任务,形成任务聚类。
按任务选择1-10B参数规模的模型家族,完成选型。
使用LoRA/QLoRA或蒸馏技术进行微调,时间小于1个GPU-day。
最后建立持续迭代机制,通过在线日志回流进行再训练。
也有一些研究者提出了反对声音。 有人认为大模型因其规模庞大而具有更好的通用理解能力,即使在专业的任务中也表现更佳。
针对这一疑问,英伟达表示,这种观点忽略了小模型的灵活性,小模型可以通过轻松的微调来达到所需的可靠性水平。
先进的Agent系统会将复杂问题分解为简单的子任务,这使得大模型的通用抽象理解能力变得不那么重要。
还有研究者对小模型相对大模型的经济性提出了质疑:小模型虽然单次推理成本低,但当考虑大规模部署时,规模经济可能比小模型的节省更重要。
对此,英伟达表示了部分地认同,但同时也指出随着推理调度优化和大型推理系统模块化的发展,单体计算集群的灵活性大幅提升,同时基础设施搭建成本因技术进步持续下降。
小模型面临的实际挑战也不容忽视。 当前大部分GPU架构是为大模型优化设计,尚不完全适配多模型并发的微服务架构。
市场认知度低也是问题,小模型缺乏像大模型那样的品牌和话题热度,推广和教育成本较高。
评估标准缺失同样制约发展,通用基准测试往往无法全面衡量小模型在任务中的实际表现。
从行业实践来看,阿里、腾讯等大厂近期发布小模型的动作频繁。 阿里开源了Qwen3(0.6B/1.7B/4B/8B),腾讯混元团队发布了四款尺寸从0.5B到7B不等的小模型。
这些模型同样适合边缘设备与本地推理,面向企业应用。
OpenAI也发布了GPT-OSS,可在本地运行的o4-mini级别开源模型,这是OpenAI在GPT-2后,时隔6年第一次开源动作。
产业界已经出现了成功案例。 2025年2月,深圳福田区部署了70名“AI数智员工”,承担了240个政务场景中的文书起草、政策解读、招商辅助等任务。
系统上线后,公文格式修正准确率超过95%,审核时间缩短90%,民情分拨效率从70%提升至95%。
某SaaS厂商负责人分享道:“2025年初,我们尝试接入云端大模型,性能虽然强,但调用延迟、成本与数据隐私问题都让人头疼。 后来改用某大模型厂商4B模型,只用了几小时就部署成功,响应秒级,隐私上也有保障。 ”
一家智能家居创业团队在开发可以脱网的语音设备时,曾苦恼于大模型既占空间又拖性能。 当他们把0.6B-4B参数规模的模型部署在家用路由器的8GB内存上时,发现不需要高端GPU,设备即可本地完成自然语言理解与指令执行,无需联网,既节省延迟,也保障隐私。
据MarketsandMarkets研究预测,2025年全球小语言模型市场规模将达9.3亿美元,2032年有望增至54.5亿,年复合增长率高达28.7%。
Gartner的报告指出,已有68%的企业部署过SLM,超过45%的企业在部署后实现了成本优化与准确率双提升。
过去三年,国内厂商“≤10B参数”小模型的发布占比一路从2023年的约23%提升到2025年56%以上,已成为大模型版图里增长最快的细分赛道。
小模型已经不再是“简配版大模型”,而是新范式的核心。
竞争的焦点也从比拼参数量,转向了卷成本、部署、专精化。
未来AI的竞争,可能不再是参数规模的竞争,而是如何高效组合不同规模模型的竞争。
就像英伟达所说,未来的AI Agent不会再是“一个大模型包打天下”,而是“一支精锐模型战队,分工协作,各司其职”。
