大小模型协同创新技术与应用

日期:2025-07-22 10:20

导读:2025年5月25日,2025国家新质生产力与智能产业发展会议暨2024年度中国自动化学会科学技术奖励颁奖仪式在北京隆重召开。本次大会“向新而行·以质致远”为主题,聚焦国家战略需求,紧扣科技前沿,立足发展实践,汇聚产学研用多方力量,打造了一场融合学术研讨、产业前瞻与成果表彰的科技盛会。本次大会邀请欧洲科学院院士、中国自动化学会副理事长、华南理工大学教授陈俊龙作题为“大小模型协同创新技术与应用”的报告。报告结合当前的大模型与小模型的研究现状,分析了未来人工智能的大小模型混合发展对于未来产业发展的趋势。

 

工智能自1956年作为一门独立学科提出以来,已在模型构建与实际应用方面取得了显著进展。其中,传统人工智能应用多基于决策型模型,强调通过对决策条件与干预变量分布的建模来实现有效的推理与控制。


一、AI技术的跨越式发展

近年来,生成式人工智能的发展尤为引人注目。特别2014年提出的生成对抗网络(Generative Adversarial Networks, GANs)和2017Transformer架构的引入,被广泛认为是该领域的两项里程碑式突破。GANs显著提升了图像等数据的生成能力,而Transformer则成为大规模语言建模与自然语言处理任务的核心基础,推动了以ChatGPT为代表的大语言模型(Large Language Models, LLMs)的快速发展。

在过去六至七年中,生成式模型不断演进,已从早期的图像、音频、视频生成拓展至多模态融合与语言生成,并逐步实现跨模态的理解与创作能力。当前,生成式人工智能正在成为推动智能系统走向通用人工智能的关键路径之一。

在人工智能的实际应用中,决策层模型大致可归纳为三类:决策型模型、分析型模型,以及结合决策与分析功能的复合型模型。这些模型在诸多应用场景中已取得广泛成果,特别是在机器人技术中的具身智能领域,展现出极高的实用价值。许多市面上流行的智能产品,正是基于此类模型的成功实现。

其中,分析型与决策型模型的深度融合,已在多个高影响力的案例中得到验证,例如AlphaGo系统在围棋对弈中的突破,便是此类模型协同工作的典范。这类智能系统的原理也被进一步延伸至自然科学领域,在多个与诺贝尔奖相关的科研成果中被成功应用。

2021年底生成式模型迅速崛起以来,学术界与产业界开始探索其与传统决策模型的融合潜力。当前的研究热点之一,正是所谓的“大模型与小模型融”问题,即如何将具备强表达与生成能力的大模型,与高效、精细、可控的小模型协同工作,从而实现更具实用性与通用性的人工智能系统。


二、DeepSeek出现的启发

2017Transformer架构提出以来,国内外已涌现出多个成功的大模型应用案例。2024年底和2025年初,我国DeepSeek模型的发布引起了全球广泛关注。DeepSeek的成功之处在于其开源特性、广泛应用以及在参数优化上的优势,尤其是在相较于国外模型的功能提升方面,表现出显著优势。

DeepSeek的出现对国内大模型发展具有重要启示,尤其在“开源+高性价比+强推理能力”模式的实践上,为国内外大模型技术格局提供了宝贵的经验。其创新之处在于无需依赖顶级GPU,通过多层次的算法、硬件和软件创新,突破了传统算力瓶颈,推动了大模型的推理性能提升。DeepSeek的创新工作包括多Token预测与MoE多专家系统结构的结合,展现了软件与硬件协同的潜力,进一步推动了国产大模型的崛起。

在应用层面,DeepSeek极大地激发了国内算力生态的整合与优化。其关键贡献之一在于打破了芯片算力的依赖,提出了适应中国特色的解决方案,并实现了传统算力、算法和硬件的深度融合。通过这一创新路径,DeepSeek突破了大模型计算的瓶颈,为全球范围内的大模型应用提供了新的参考与方向。

随着生成式模型的不断发展,生成对抗网络、图像生成模型、视频生成模型及大语言模型的融合已在各行业得到广泛应用。DeepSeek的出现,标志着国产大模型在开源、推理能力及参数优化方面的重要突破。目前,市面上已有许多可以下载并应用的生成式模型,涵盖图像生成、视频生成以及文件处理等多个领域,极大地促进了科研和工业应用的创新。

当前,主流的大语言模型参数已达到数千亿甚至数万亿级别,而DeepSeek则提出了缩减算力和参数需求的解决方案,将模型参数压缩至几千亿规模。特别是DeepSeek推出的一体机,能够容纳6000多亿参数,并结合前端推理工作,为科研人员提供了高效的计算支持。通过这种一体化方案,科研人员无需从头开始开发大模型,即可利用通用的大模型进行现场应用与研究。

DeepSeek一体机根据应用场景的不同,提供了两类主要解决方案:一是面向通用场景的通用模型方案,二是针对特定行业需求的专业模型通道。无论是科研机构还是工业企业,都能根据需求选择合适的产品,价格区间从几十万到一两百万不等。对于科研人员而言,DeepSeek一体机不仅减少了开发工作量,还为大模型的实际应用提供了便捷的技术支持,在工业研究与应用场景中具有重要意义。

在垂直领域的应用方面,尤其是自动化行业,大模型与小模型的结合已成为行业应用的重要趋势。从去年的学会年会讨论开始,AI for Science逐步演变为AI for IndustryAI for Engineering,推动了人工智能技术在工业领域的深度应用。大模型在工业中的应用,尤其在智能制造领域的落地,成为了当前的重要话题。具体而言,可以从以下三个方面探讨大模型的应用路径:第一,工业软件的智能化升级;第二,数控装备与自动化生产的优化;第三,安全生产的智能监测与预警。

在这些应用中,来自中国、美国和德国的智能制造成功案例为行业发展提供了宝贵经验。这些案例表明,通过将大模型与行业知识结合,能够有效提升制造业的自动化水平和智能化程度,为行业带来全新的技术变革。


三、大模型落地制造业的可能路径及应用

在工业软件应用方面,大模型的引入促进了多个领域的自动化和智能化转型。例如,借助大模型生成EAD(工程自动化设计)软件、ERP(企业资源规划)软件和CRM(客户关系管理)软件等,已经成为工业领域的一项重要发展。在自动化生产的代码生成方面,特别是在自动控制系统的自动化生成上,国内外厂商都推出了相应的产品。通过这种技术转变,工业系统逐步从传统的基于控制的模式转向数据驱动的决策型范式。

此外,在工业人工智能应用场景中,AI的作用愈加显著。例如,AI在生产运营中的应用主要体现在异常诊断和经济运行诊断方面。AI通过智能检测和运维,能够有效预测设备故障、进行设备性能评估,并在生产过程中识别智能违章行为,甚至进行能耗优化。此类技术应用的广泛展开,推动了工业领域的智能化和自动化升级。

在这一背景下,大模型的生成式功能也迎来了新的应用方向,在文生文、文生图等传统生成模式之外,工业界近年来正致力于开发文生动作的技术。AI Agent或智能体通过大模型支持,能够实现从文本描述生成动作。例如,用户通过输入任务或行动指令,AI Agent不仅能够进行问答式的交互,还能通过推理过程进行综合规划和执行任务,如将多项服务一键整合并自动执行。这样的功能大大简化了用户的操作需求,并推动了大模型在工业、商业及服务领域的深度应用。

在当前的人工智能系统构建中,多模型融合,特别是大模型与小模型的协同机制,逐渐成为推动复杂任务智能化处理的重要方向。这种融合不仅是模型能力的组合,更是功能层级分工的体现。大模型具备强大的语义理解、推理与任务生成能力,小模型则因其高效、轻量的特性,适合在边缘设备上承担感知、执行等具体任务。在实际应用中,这种融合模式主要体现为若干典型结构的组合演化。小模型通常用于前端感知任务,如视觉识别、声音检测与物理状态感知,其在速度与资源消耗方面具备天然优势,而复杂的语义理解与任务规划则由大模型承担。通过这种前感知、后理解的模式,系统能够实现感知—认知的有效衔接。

另一种常见的模式是以大模型作为任务的认知中枢,通过自然语言理解能力对用户提出的复杂问题进行分解与规划,再将子任务分发至多个小模型并行执行。这种“理解—分发”的结构在工业调度、政务系统以及流程管理等场景中展现出强大的任务组织能力。此外,大模型也可作为任务生成器使用,在语义驱动下输出具体操作指令或控制逻辑,再由小模型对生成内容进行本地化适配与执行,从而形成生成执行的闭环机制。

在此基础上,进一步发展出的AI Agent系统融合了上述多种功能路径。Agent前端以小模型为主实现对环境的实时感知,中间以大模型为核心完成复杂认知与策略生成,后端再由小模型或专用模块完成具体动作的落地执行。这种感知理解生成执行的全链路架构构成了具备端到端能力的智能体系统。在系统设计中,这类Agent被模块化为统一的智能中枢,能够从语言、图像、视频等多模态输入中自动识别意图并规划任务,进而调用或调度多个模型资源完成响应。多个智能体可以串联或并联部署,从而构建起多智能体协同系统,实现多任务处理、资源动态调配与并发控制。

工业应用中,多智能体协同系统已经展现出可观的实践效果。以Manus公司为例,其智能体系统能够完成如旅游规划、供应链管理等复杂任务;而大湾区的智用开物平台,则将多智能体应用于政务系统,通过调度大模型进行智能解析,继而由小模型模块完成合同审核、法务事务处理等任务。类似地,郎坤平台构建了面向智能制造的中台系统,通过集成模型分析、故障诊断与运维决策等多个智能体,构建起完整的工业智能生态链,实现了故障预测、任务优化与智能调度等关键能力的落地。

这种以多模型协同为基础的智能体系统,其架构理念与传统控制理论中的多智能体协同算法具有高度一致性。在控制理论中,智能体之间通过分布式协同策略实现对目标状态的同步到达,这一机制为AI Agent系统中的智能体任务协同与调度提供了理论基础。未来的研究可进一步探索如何将这些经典控制算法与大模型驱动的认知智能体相结合,实现更高效、更稳定的系统级智能协作。在面向智能制造、智慧政务与复杂系统决策等领域,这一方向有望成为推动下一代人工智能系统能力跃升的关键路径。


四、大模型蒸馏

当前,针对智能体的开发与应用兴趣日益高涨,尤其在大模型驱动的多智能体系统构建方面,已经涌现出一系列成熟的软件开发平台与工具链,极大地降低了系统构建的门槛。国内外众多大模型与软件厂商,纷纷提供了便捷的智能体构建环境。例如,字节跳动、腾讯元宝、百度、谷歌以及清华智谱的清言平台等,均推出了支持多智能体架构的软件开发包,开发者可以直接调用其内置的大模型与功能模块,构建满足具体需求的智能体系统。这类平台通常支持模块化开发和插件式部署,开发者无需从零开始,即可实现智能体的快速搭建与迭代验证。

与此同时,另一种重要的发展方向是基于大模型的知识蒸馏与模型压缩技术,将庞大的预训练模型转化为可部署于边缘设备的小模型,从而实现资源受限环境下的高效推理与响应。在这一过程中,预训练的大模型如GPT系列、DeepSeek模型等,作为知识源,通过蒸馏技术提取其语义、决策与推理能力,并迁移至结构更为紧凑的小模型中。这些小模型通常具备千万级参数规模,相较原始的大模型在计算资源、存储与延迟方面大幅缩减,适用于客户端、边缘端以及嵌入式设备中部署。

该蒸馏过程不仅能保留大模型的核心认知能力,还能结合目标应用场景的特定数据进行再训练,以增强在下游任务中的泛化与适应能力。这种边协同模式,即在云端保留大规模通用模型用于统一训练和知识沉淀,通过知识蒸馏下沉出多种边缘小模型,在本地实现低时延、低成本、强定制化的智能响应。结构的优点在于不依赖高算力设备,系统对资源、环境与数据的依赖显著降低,可支持智能体在工业现场、移动设备、智能制造、智慧城市等多种实际场景中部署,成为下一阶段智能系统大规模落地的关键技术路径。

在当前人工智能技术的实际应用中,大模型具备强大的通用认知与推理能力,但其高昂的计算资源需求与部署成本,使其难以直接在资源受限的场景中大规模应用。为此,知识蒸馏技术成为连接大模型与轻量级小模型之间的重要桥梁。其核心思想是将训练良好的大模型作为教师模型,通过引导训练另一个结构更小的学生模型,使其在保持关键性能指标的同时,大幅降低参数量与计算开销,从而适用于移动端、边缘端或专用设备的本地部署。

蒸馏过程不仅仅是简单的模型压缩,更包含了从大模型中提取通用知识、构建迁移机制、设计反馈结构等系统性工程。在技术路径上,知识蒸馏可分为三类主要形式:离线蒸馏、在线蒸馏与自蒸馏。离线蒸馏中,教师模型预先完成训练,然后将其输出作为训练数据提供给学生模型;在线蒸馏则在教师与学生模型并行训练过程中不断交换信息;而自蒸馏则不依赖单独的教师模型,而是由模型自身在不同阶段提取与传递知识。这些方法均可支持不同场景下对推理效率、模型轻量化与应用适应性的平衡优化。

从应用角度来看,蒸馏技术可以大幅提升模型在特定垂直领域的专用性。原始大模型具备广义推理能力,但对于特定专业场景如智能制造、无人系统、化工过程、物联网等,其推理精度与泛化能力往往不足。通过蒸馏过程,通用模型中的基础认知能力得以迁移与细化,使学生模型更贴合目标任务。例如在无人机控制系统中,可将通用大模型通过中间层特征提取与压缩,分别蒸馏出处理力学建模、图像识别与网络通信的小模型,部署至边缘端设备上,进而实现高效、低时延的任务执行。在智能制造领域,同样可通过大模型蒸馏提取面向工艺优化、产线控制与故障诊断的特化模型,满足工业现场对实时性与可靠性的高度要求。

进一步细化来看,蒸馏技术包括多个关键技术环节。其中,数据驱动蒸馏是通过策划高信息密度的数据样本集,经过清洗与增强处理,指导学生模型更有效地学习知识表达;特征层蒸馏则关注于大模型中间层的特征表示,将其迁移至学生模型以提升其抽象能力;而反馈驱动蒸馏则结合强化学习机制,引入奖励信号与反馈控制,从而提升模型训练的动态适应性。这三类技术分别针对模型效率、特征表达与误报控制等不同方向进行优化,具有明确的应用优势。

在理论层面,KL散度等信息熵度量方法常被用于衡量教师模型输出与学生模型预测之间的差异,作为优化目标函数指导学生模型收敛。此外,近年来也有研究引入时序对齐、多模态交叉蒸馏等机制,使知识蒸馏更加细粒度、结构化。例如在多模态大模型中,通过将图像、语言、动作等不同模态特征压缩进多学生模型,实现复杂场景下的跨模态迁移推理。

从全局角度看,知识蒸馏不仅是提升模型部署效率的工程技术,更是打通“通用智能”与“垂直应用”之间的关键桥梁。通过在云端构建通用大模型、在本地部署蒸馏小模型的“云-边协同”机制,可以实现在保持通用性优势的同时,大幅提升系统的专用性、实时性与可部署性。蒸馏所带来的轻量化模型已在多个行业展现出广泛前景,成为推动人工智能从实验室走向现实世界的关键技术路径。


五、大小模型协同技术产业化应用

近年来,情智一体化与情感计算机器人认知成为人工智能领域的重要研究方向。通用大模型在情感理解、营销和医疗等多个领域展现了显著的应用潜力,特别是在睡眠监测和心理评估等健康相关场景中,已逐步实现实际应用。

针对大模型计算资源需求高且难以直接部署于边缘端的难题,我们提出了分阶段的模型蒸馏策略。通过知识蒸馏,将大模型先压缩为中大型模型,再进一步蒸馏为小型模型,实现了在边缘端的高效运行。边缘端计算资源有限,但利用宽度学习方法,特别适合实时处理数据的增量学习及快速同化,自2018年以来,该技术经过多年优化,已被国内多家高校采纳,有效提升了模型对新增数据的快速响应能力。

相较于整体模型更新,宽度学习主要针对特征提取层进行局部快速调整,从而实现对少量新增数据的高效适应。此外,结合检索增强生成技术,实现了数据层面与模型层面的快速增量更新,进一步强化了边缘端模型的动态学习能力。

基于该框架,我们在多个应用领域取得了突破。在数据标注方面,利用半监督宽度学习技术实现了对百万乃至千万级数据的自动标注,极大地减轻了人工标注的负担。在机器人控制领域,增量学习使机械臂能够快速适应环境变化,实现精准的动作预测与调整。在飞行器应用中,边缘端算法支持快速轨迹预测与意图推理,能够在轻量级算力下实现实时推断,并在对抗行为分析等复杂场景中展现出良好的性能。

在增量学习算法创新方面,我们率先提出了边缘端无逆权重计算范式,支持数据和节点的双重增量优化,有效提升了分布式计算的效率。沈劲网络架构通过动态叠加单层宽度学习网络,实现了神经网络结构的灵活扩展,能够适应不同复杂度的建模需求。该宽度学习架构逐步融合进联邦学习框架,取代传统深度网络模型,实现了分布式训练的高效性与弹性,支持客户端节点的动态扩展和服务器的快速扩容。

在大健康领域,我们基于上述技术体系,构建了从大模型压缩至基础健康模型、再到边缘端模型的多级架构,成功应用于情绪识别和医疗诊断等场景。未来,计划推进健康感知智能与数字平行人技术的深度融合,构建真实人与数字人全生命周期交互的智能平台。通过脑机接口等前沿技术,实现数字人之间及数字人与真人的高效智能交互,突破传统数字人在认知与交互上的局限。此外,我们还积极开展人工智能科普工作,相关科普丛书已被翻译成四国语言,广泛应用于包括阿拉伯国家和美国在内的国际市场,推动人工智能技术的普及与应用。

*本文根据作者所作报告速记整理而成

 

嘉宾简介:

陈俊龙教授(C. L. Philip Chen),华南理工大学特聘讲席教授、博士生导师、计算机科学与工程学院院长,教育部健康智能与数字平行人工程中心主任,广东省人工智能产业协会联席会长。他是IEEE Life FellowAAAS FellowIAPR Fellow、欧洲科学院院士(Academia Europaea)、欧洲科学与艺术院院士、俄罗斯工程院外籍院士、中国自动化学会(CAA) 、中国人工智能学会(CAAI)及香港工程师学会 (HKIE) Fellow。目前陈教授任中国自动化学会常务理事,曾任两个IEEE 顶级期刊主编,获IEEE 诺伯特·维纳奖、IEEE约瑟夫·沃尔终身成就奖、吴文俊人工智能领域杰出贡献奖、美国普渡大学杰出电机计算机杰出校友奖等荣誉。连续6年被列为全球高被引科学家,斯坦福大学发布的全球前2%顶尖科学家榜单。在高排名学者(Highly Ranked Scholars™ ) 计算机类(Computer Science)近五年的影响力全国排名中名列第一,位列全球第8名。

陈教授主要从事计算智能系统,数据挖掘和知识发现,信息和视频索引、控制论和无人系统的研究。他围绕智能系统与控制、计算智能、数据科学等科研方向开展研究工作超过40年,在该领域取得一系列学术创新性成果。他曾获中国自动化学会自然科学奖及广东省科技进步奖一等奖。