导读:2025年5月25日,2025国家新质生产力与智能产业发展会议在北京隆重召开。本次会议以“向新而行·以质致远”为主题,聚焦国家战略需求,紧扣科技前沿,立足发展实践,汇聚产学研用多方力量,打造了一场融合学术研讨、产业前瞻与成果表彰的科技盛会。本次大会设置八场平行会议。在“人工智能前沿”平行会议中,特别邀请了中国科学院自动化研究所研究员李国齐作题为“类脑通用智能大模型”的报告。李国齐研究员以大脑的信息处理机制为灵感,聚焦于树突脉冲神经网络这一前沿领域。他结合自身团队的科研成果与最新进展,深入剖析了构建新一代通用类脑智能大模型基础架构的主要科学问题,并积极探索基于该新架构实现低功耗人工智能发展的创新路径。
关于人工智能是否需要类脑启发的问题,当前学术界仍存在较大争论。Hinton曾明确表示,克服人工智能局限的关键在于建立计算机、科学和生物学之间的桥梁。
一、研究背景与发展态势
2023年,提出“NeuroAI”概念的论文中也涉及这一问题,论文的作者中不乏诺贝尔奖和图灵奖获得者。LeCun本人也在其个人博客中提到该论文,称神经科学一直是AI强大驱动力的关键。然而,DeepMind的科学家对此观点提出了质疑,认为AI的重要成果并未受到神经科学机制的启发,甚至指出许多顶级AI论文的成果并没有借鉴神经科学的机制。从最近诺贝尔奖得主的学术背景来看,可以发现交叉学科的背景和思想碰撞为科研提供了重要的推动力。例如,诺贝尔奖获得者 Hopfield是物理学学士和博士,在20世纪60年代便开始涉足物理学与生物学的交叉领域;Hinton则拥有心理学学士学位之后长期在认知科学系工作,之后专注于人工智能的研究。2024年诺贝尔化学奖得主Hassabis拥有计算机科专业的学士学位,并于2005年转向计算神经科学领域攻读博士学位。由此可见,交叉学科的融合不仅推动了各学科的发展,也为解决复杂的科研问题提供了新的思路。尽管目前在AI是否受到脑科学启发的问题上存在争议,但脑科学与人工智能的结合已逐渐成为现实,并在一些领域取得了显著成果。
回顾大模型的发展历程,当前主流的大模型架构大多源自2017年谷歌提出的Transformer架构。尽管最早并非由谷歌自身意识到Transformer架构在规模扩大上具有巨大潜力,但OpenAI却在其基础上研发了GPT系列,从GPT-1到GPT-3,直到GPT-3参数规模扩展至迁移参数,引发学术界的广泛关注,而ChatGPT的发布更是让人工智能技术进入了全球聚焦的视野。Transformer架构的优势在于它能够充分发挥GPU集群的高效计算能力,促进了大规模语言模型的发展,例如DeepMind的AlphaFold系列,成功为生物学领域带来革新,并为其贡献了诺贝尔奖。
目前,人工智能已显著进入大模型时代,模型的规模和参数量也急剧增加。在Scaling Law理论的驱动下,随着模型规模、参数量及计算资源的不断增加,当前人工智能模型的性能得到了显著提升。从GPT-1的1.17亿参数到GPT-4的1.8万亿参数,规模的增长直接推动了模型性能的提升。然而,随着模型规模的不断扩大,也有必要思考,单纯追求规模的增长是否能持续推动AI系统向更高阶段发展,或者是否应该寻求其他突破性的研究方向来进一步优化现有系统。
在中国,大模型的研究和应用面临机遇和挑战。虽然国内如DeepSeek、字节跳动、百度、腾讯、阿里等公司也开始涉足大模型领域,并推动了国内大模型的热潮,但我认为目前的挑战主要集中在国内GPU算力平台的瓶颈问题上。目前国产AI芯片或国产GPU集群在高效稳定支持超大规模大模型训练(比如万卡集群乃至更大规模的集群)和推理上仍存在诸多挑战,尤其是在计算能力和功耗方面的限制使得大模型的高效运行变得日益困难。为此,亟需研究并开发低功耗的智能计算系统,以应对当前算力需求日益增长的问题。
尽管Transformer架构在大模型中取得了巨大的成功,但该架构也面临一些固有的缺点。例如,在训练过程中,随着序列长度的增加,开销呈现平方复杂度;而在推理阶段,时间和空间复杂度随着序列长度的增加而线性增长,导致处理超长序列的能力受限。以DeepSeek为例,目前其最大支持64K或128K长度的序列学习,但对于长序列文本,如《红楼梦》或《三国演义》等超长文本作品仍难以有效进行处理和分析。
与此不同的是,大脑在处理信息时具有远超GPU的能效。大脑的神经元数量已经达到千亿级别,而且神经元之间的连接数通过突触连接形成了极为复杂的网络结构。每个神经元与1,000到10,000个其他神经元进行连接,形成了一个规模庞大的网络,这种结构的能效远高于当前的GPU架构。由此,未来的AI研究或许应当通过关注模仿大脑的工作机制,借鉴神经科学的原理探索更加高效的计算模型和架构。
尽管当前的大模型被视为点神经元的模型,但大脑本身却是一个极为复杂的动态系统。每个神经元的胞体和树突可以通过数百到数千个微分方程来描述,这意味着,如果要全面刻画大脑的动态行为,其参数量可能高达100亿亿左右。然而,与此相对的是,大脑的功耗仅为20瓦左右。相比之下,当前的大模型参数量低于大脑的参数规模好几个数量级,但其功耗却高出了好几个数量级。我们估算大脑的能效远超现有的CPU,其能效比高出十个以上的数量级。因此,思考神经科学是否可以为新一代人工智能技术的理论与计算架构提供贡献,成为了一个至关重要的课题。
然而,神经科学与人工智能之间存在一个明显的鸿沟。从当前的研究来看,神经科学主要侧重于精细的结构和生理细节,强调神经元之间的复杂连接以及大脑尺度的动力学,而人工智能则更注重抽象的结构和计算的高效性,尤其是在大规模并行计算方面。例如,GPU在处理大规模并行计算时,能够实现高效的计算能力,但它却难以高效支持当前神经科学所关注的精细结构和神经元建模。这也就造成了神经科学和人工智能之间的鸿沟:当前人工智能模型往往难以将神经科学中的复杂结构融入进来,并且难以将其扩展到大规模的计算模型中。
我们提出的学术思路是,通过对比现有的大模型和大脑的差异,寻找未来研究的方向。现有的大模型可以用“点神经元模型+自注意力机制+Transformer架构”来表达,而人脑的基本计算单位是树突神经元模型。与点神经元模型相比,树突神经元模型要复杂得多,它具有树状结构,包含多个分支和房室,每个分支和房室都存在动力学过程,并且每个分支上有不同的动力学参数,这使得树突神经元模型具备多尺度的记忆能力。因此,我们的目标是探讨是否可以将这种人脑机制融入到现有的大模型中,从而构建一个通用的类脑智能大模型架构。
为了实现这一目标,我们提出了几个改进的观点。首先,当前的大模型在生物学的可信程度上较低,未能充分利用大脑复杂的多尺度动力学特征。以神经元模型为例,现有的大多数深度学习模型使用的是“点神经元模型”,其结构相对简单,而树突脉冲神经元模型则更为复杂,包含多分支和多房室的结构,每个分支都具有不同的动力学特征,可以带来更强的记忆能力。
其次,大模型的功耗过高,未能充分体现人脑低功耗计算的优势。人脑通过事件驱动、动态计算和稀疏计算来处理信息,而当前的大模型则主要依赖大规模、密集的矩阵乘法和向量运算,造成了其高能耗的特性。人脑在计算过程中,通过选择性地激活计算单元来节省能量,而这一点在大模型中尚未得到有效应用。
此外,现有的大模型也未能充分利用神经元种类的多样性。在目前的模型中,尽管参数量可以达到百亿甚至千亿级别,但每个神经元的工作方式基本相同,缺乏神经元种类之间的差异性。与此相比,大脑中的神经元种类丰富,并且即使是同一种类的神经元,其动力学参数也大不相同。这种多样性使得人脑能够在处理不同任务时表现出优异的通用性和泛化能力,而现有的大模型在这一方面仍显不足。
二、类脑通用智能大模型-关键科学问题
未来的人工智能系统应更多地考虑如何从神经科学中汲取灵感,尤其是如何将大脑的多尺度动力学、低功耗计算和神经元多样性融入到大模型的设计中,以提升其智能水平、能效和泛化能力。这一方向的研究,或许能够帮助我们突破当前大模型的局限,开启AI发展新的篇章。
当前,尽管大模型在各个领域取得了显著进展,但它们在功耗方面仍然过于高,与人脑的能效相比存在较大差距,且在计算架构上还有许多潜在的改进空间。我们希望借助大脑信息处理的机制,优化现有的基础模型计算架构,从而推动下一代模型的效率和性能。为了实现这一目标,需要构建一个从脑科学、神经科学到人工智能的桥梁。神经科学与人工智能之间的鸿沟可以通过树突计算和树突脉冲神经网络(DSNN)来弥合,因为树突神经网络具备内生的时空动态特征,并且神经元能够进行0和1的通信、事件驱动以及系数加法等计算特性。通过这一计算机制,我们希望能够构建一个通用的类脑智能大模型,既能在性能上与传统大模型相匹配,同时在代价上大幅降低。
脉冲神经网络(SNN)作为一种新兴的类脑计算范式,能够在计算高效性与生物合理性之间找到一个平衡点。这一平衡使得脉冲神经网络能够实现高效的计算,且功耗显著低于传统神经网络。神经形态芯片的出现为大规模脉冲神经网络的模拟与计算提供了支持。此外,人工神经网络(ANN)架构,如MLP、CNN和Transformer等,虽然在深度学习领域取得了重要进展,但其基于“点神经元”的计算单元限制了其计算效率的提升。相比之下,脉冲神经网络通过事件驱动的稀疏加法,在能效方面具备更大的优势。
然而,基于脉冲神经网络构建类脑大模型仍面临一系列科学挑战。其中最主要的问题之一是如何突破现有的“scaling law”驱动模型的限制。当前的大模型主要通过增加神经元数量、层数、宽度以及参数量来提升性能,这种外生复杂性驱动的增长方式存在一定的局限性。因此,我们提出要改变这一思路,转向基于内生复杂性的新型通用类脑大模型架构。内生复杂性指的是神经元的内部结构和动态特性所带来的复杂性,而非仅依赖于外部规模的扩展。
在这一过程中,需要解决三个层面的科学问题。首先,在神经元模型层面,现有的大多数神经网络模型采用的是“点神经元”模型,我们的目标是构建树突神经元模型,这种模型更接近大脑的神经元结构,具有多房室和多分支的复杂结构。尽管这种精细化的神经元结构能够带来更多的计算动态,但在GPU上进行大规模训练时,将面临极大的挑战,尤其是在如何提升并行训练速度、证明树突神经元模型在理论上的通用性与泛化性方面,需要深入研究。
其次,在神经网络层面,我们希望能够替代现有的Transformer架构。Transformer模型由于其计算复杂度的二次增长,导致推理时的时间和空间复杂度也呈线性增长。因此,需要寻求一种新型的神经网络架构,该架构能够实现线性复杂度,以解决Transformer架构在大规模应用中的局限性。
我们的目标是通过引入脉冲神经网络和基于内生复杂性的设计理念,构建一个更为高效、低功耗且具备更高智能水平的类脑大模型。尽管这一过程面临许多挑战,通过克服这些科学问题,能够为下一代人工智能的基础架构提供全新的解决方案。
在高效计算层面,不仅要优化现有的大模型技术,还要结合脉冲神经网络的独特优化方法,特别是在扩展层面和圈层结构的优化上。然而,尽管脉冲神经网络具备显著的低功耗优势,它在类脑大模型的研究中并没有成为主流。这是因为,长期以来,脉冲神经网络面临着一个关键问题——缺乏高效的大规模学习算法和计算理论。由于这一局限,脉冲神经网络在许多主流神经网络性能指标上与传统模型存在较大差距。因此,尽管脉冲神经网络在理论上具有许多优势,但由于性能的落后,许多研究者对其应用前景持怀疑态度,尤其是在AI领域,性能往往是衡量技术价值的最关键标准。
目前的挑战是如何突破这一困境,为脉冲神经网络的应用提供更加高效的大规模学习算法和计算框架,以便使其在与传统神经网络的竞争中取得更好的表现。这将是未来推进脉冲神经网络向主流发展并取得更广泛应用的关键所在。
三、重要进展与展望
首先,在理论层面,我们发表了一系列关于脉冲神经网络训练算法的研究论文,成功解决了脉冲神经网络在大规模训练中的主要问题。过去,脉冲神经网络通常只能处理5到10层的结构,而现在,已经能够实现50到500层的深层网络架构。这一进展使得脉冲神经网络在性能上大大提升。2023年,提出了SpikeGPT,并在AI顶会NeurIPS,ICLR和权威期刊IEEE TPAMI上发布了全异步驱动(Spike-driven Transformer)架构的V1/V2/V3版本。此外,在ICML上提出了可逆的脉冲神经网络训练算法,解决了训练过程中的复杂度问题。我们关于脉冲神经网络研究成果在ECCV、NeurIPS、AAAI等多个会议中获得了最佳论文奖提名和Oral报告,推动了脉冲神经网络在计算机视觉领域与主流模型的对比和竞争。
在神经元模型层面,在今年的ACL会议上,提出了多房室、多分支的并行脉冲神经元模型,该模型在解决长序列建模的问题取得进展。我们提出的Spike-driven Transformer系列工作,其中V1版本于2023年在NeurIPs上发布,采用了“Spike-driven self-attention (SDSA)”算子,能效相比Self-attention提升40至80倍,发表于IEEE TPAMI的V3版本则在图像处理任务中达到了86.7%的精度,接近当前主流神经网络模型的表现。脉冲神经网络在训练过程中能够保持低显存和低延迟,同时在能效上提供量级的提升。例如,MetaLA线性统一模型架构,能够在性能上超越当前主流的Mamba网络架构,这一成果在2024年NeurIPS的Oral论文中有所展示。我们还将线性Transformer模型与SSM和线性RNN统一成一个统一的框架,使得不同类型的线性模型可以相互转化。
在架构层面,2024年和其它团队合作在Nature Communication上提出了树突脉冲神经网络,同时在Nature Computational Science期刊(NCS)上发布了基于内生复杂性构建神经科学到人工智能桥梁的理论框架。这一思路被认为是构建类脑大模型的重要思想基础。 NCS期刊发表评论认为AI研究更多偏向于工程和应用,而神经科学则具有更强的探索性。如果能够将更详细且生物上更真实的神经元模型纳入深度学习的框架中,必定能够推动深度学习取得更大的进展。
通过这些进展,我们团队已成功解决了脉冲神经网络面临的一系列瓶颈,并在多个领域取得了显著的技术突破。未来,将继续推动这一方向的发展,尤其是在深层结构训练和计算效率优化方面,力求突破当前的技术瓶颈,为类脑智能大模型的实现奠定坚实的基础。
在训练平台方面,与北京大学田永鸿教授合作开源了SN的训练平台——SpikingJelly。这个平台可以在CPU和GPU层面加速脉冲神经网络的训练,速度相比之前的主流平台可提升一个数量级。
在应用层面,去年在ECCV上提出了SpikeYolo框架,专注于物体检测领域。我们在COCO数据集上测试时,脉冲神经网络的表现与Yolo-V8模型相当,且能效可提升5-20倍。这个工作弥补了SNN与当前人工智能主流模型之间的差距,展示了脉冲神经网络在低功耗计算中的巨大潜力。此外,还提出了基于脉冲神经元的大模型量化框架。这项研究成果使得我们仅用单卡80GB A100 GPU 16小时就可实现LLAMA框架下700亿参数的大模型量化。通过提出的OBS框架能够检测神经元的显著性,并对显著性高的神经元量化采用更长的步长,从而优化模型的性能。
今年在AAAI2026上投递了一篇文章,提出了一个基于脉冲神经网络的3D视觉语言训练框架。通过对3D稀疏数据集的研究,我们发现脉冲神经网络在该领域的性能能够超越现有的主流神经网络模型,取得了行业领先的成绩。
在芯片层面,将脉冲神经网络部署到感算一体的类脑芯片上进行实测,取得了低功耗计算的显著成果。例如,在识时科技的合作中,将注意力机制部署到脉冲神经网络中,经过测试,功耗仅为0.41毫瓦,典型任务的功耗也仅为毫瓦级别。脉冲神经网络能效优势主要来自三个方面:首先,替代了传统的加法计算;其次,能够控制脉冲的发放率,使得计算更加稀疏;最后,通过事件驱动的激活方式,结合异步芯片架构,极大地降低了信息处理的功耗。
最近我们提出了一个神经形态大模型框架,专门解决当前AI大模型中的两个核心问题:低功耗和可解释性。在这一框架中,成功将一个15亿参数的大模型部署到FPGA平台,动态功耗控制在13瓦左右,整个推理过程可以避免使用乘法运算。此外,通过构建等价的脉冲发放特性的神经形态大模型,可以观测模型的内部动态状态,可推动AI模型的可解释性研究。
为了进一步推动脉冲神经网络的发展,正在与国产GPU公司展开合作,致力于训练7B-70B量级的类脑大模型。我们希望打通从国产数据到国产基础模型、从国产算力平台再到类脑芯片的研究链条,同时中国科学院与自动化研究所与中国科学院脑智卓越中心共同成立了脑认知与类脑智能全国重点实验室。此外,自动化所申请了北京通用智能大模型的北京重点实验室以推动类脑大模型的技术突破。
我们希望能够构建出百亿到千亿参数规模的通用类脑大模型,在边缘端实现极低功耗的传统计算机视觉领域的应用计算,在端侧应用中支持3B至10B参数的垂直场景大模型,并在云端部署70B及以上的类脑大模型。这一目标的实现将促进类脑智能技术的广泛应用和生态系统的快速发展。
总之当前类脑计算方面的研究已经取得了显著的进展,未来将通过跨学科的合作,推动算法、训练平台、软件、芯片和平台的深度整合,为类脑大模型的广泛应用铺平道路。
*本文根据作者所作报告速记整理而成
嘉宾简介:
李国齐,中国科学院自动化研究所研究员,博士生导师,脑认知与类脑智能全国重点实验室副主任,通用类脑智能大模型北京市重点实验室主任,国家杰出青年基金获得者;在Nature、Nature子刊、Science 子刊等期刊和AI顶会上发表论文 200余篇,论文被引用1.6万余次;主持国家自然科学基金重点项目、联合重点项目、科技部重点研发项目等30余项;担任IEEE TNNLS,IEEE TCDS和清华大学学报-自然科学版编委;曾获得中国自动化学会自然科学一等奖,ECCV最佳论文奖提名,中国算力大会最佳论文奖,曾入选北京市杰青,中国科学院百人计划,DeepTech中国智能计算科技创新人物,中国算力青年先锋人物。