会听会看会说会画的人工智能

日期:2025-12-26 15:45

           导读:2025911日,“CAA科普百人团一科技教育乡村行·宁夏西吉县公益活动宁夏西吉县开展。本次活动由中国自动化学会(简称“CAA”)中国科协农村专业技术服务中心宁夏回族自治区科学技术协会、宁夏回族自治区教育厅主办,CAA普及工作委员会、CAA智慧教育专业委员会、西吉县科学技术协会、西吉县教育体育局共同承。活动当天,科普团走进了走进西吉县第五中学、西吉县第二中学、西吉县第一小学、西吉县第八小学、西吉县沙沟中学,为当地青少年带来了一场别开生面的人工智能启蒙课。

本次活动邀请浙江大学教育学院百人计划研究员、博士生导师陈静远作题为会听会看会说会画的人工智能科普报告。报告结合实例与互动,引导听众深入理解人工智能的原理与实际应用,并围绕人工智能的能力边界与人类不可替代的价值展开探讨,鼓励大家积极面对科技发展,善用人工智能工具共创智慧生活。

 

1961年,著名科学家阿瑟·克拉克曾经说过一句话:未来的科技发展就像魔法一样神奇。今天我们看到的人工智能,其实就是这种魔法最真实的体现。它不仅改变了我们现在的生活,更会在未来继续创造出难以想象的可能。换句话说,人工智能就是当下和未来的神奇魔法。

一、什么是人工智能

人类追求超越自身智慧的梦想,其实源远流长。早在古希腊时期,诗人荷马就在《伊利亚特》中描绘过这样一个场景:天后赫拉的庭院大门,可以在神的命令下自动开启。那时机器人偶这个概念,就已经出现在人类的想象中了。

在古希腊神话里,火神赫菲斯托斯甚至亲手打造了由黄金制成的机器人女仆,她们能行动、能服务,几乎和真人没有区别。这是人类最早的智能仆人的原型。

而在我们中国,古代同样有类似的传说。比如西周时期的偃师,他能够制造出木质的人偶,能歌舞、能行动,技艺巧妙得几乎和大自然的造化同等。这些跨越东西方的古老传说,都说明了一点:人类自古以来就渴望创造出超越自身的智能生命。而今天的人工智能,正是这种古老梦想在现代科技下的实现。

 

1 人工智能的三起两落

人工智能并不是一个遥远的概念,它其实已经深深进入了我们的日常生活。比如最常见的——语音助手。只要我们说一句话,例如打开音乐设一个闹钟,机器就能立刻理解并执行。这种人与机器的自然交互,正是人工智能最直观的体现。过去,我们需要用键盘输入复杂的指令,而今天只要开口说话,AI就能听懂、理解、反馈。这不仅让操作变得简单高效,也让人们第一次感受到科技真的开始像魔法一样,完成我们的愿望。

人工智能已经从实验室的研究,真正走入了社会的各个角落。无论是生活、工作,还是教育、医疗、交通中,AI的身影都随处可见。在日常生活里,它帮助我们做语音识别、人脸识别,让手机解锁、语音助手成为可能;在城市治理中,AI被应用在智能交通、车辆识别、智慧路灯上,让城市运行更加高效;在零售和服务领域,智能客服、智能推荐、精准营销,极大地改变了我们的消费方式。而在更高端的领域,人工智能也正在深刻影响医疗、教育和科学研究。从药品研发、基因检测,到智能诊断、辅助医疗,AI不仅提高了效率,还在直接拯救生命。

二、智能定义

智能通常被界定为系统在复杂环境中展现出感知、认知、推理、行动与决策等能力的综合体现。在此基础上,人工智能是指利用计算机科学及相关技术来模拟、扩展乃至超越人类或其他生命体所具备的智能行为。从学术角度看,人工智能的本质不仅在于使机器能够执行传统意义上只有人类才能完成的任务,更在于构建关于感知、认知、行动、控制与决策的可操作模型。通过算法、数据与算力的结合,人工智能得以在这些核心环节上展现出与人类相似甚至超越的功能表现。

因此,人工智能并不仅是对人类智能的表层模仿,而是对智能本质的深入探索。它已逐渐发展为一门交叉学科,涵盖计算机科学、控制论、神经科学以及认知科学等多个研究领域。同时,人工智能也是推动当代科学技术创新与社会变革的重要驱动力。

人类智能的内涵十分广泛,其核心功能可以归纳为 感知、学习、推理与行动 四个方面。感知是个体与外部环境进行信息交换的基础,涉及视觉、听觉及触觉等多模态输入;学习则是人类通过经验积累和抽象归纳,不断更新和优化认知模型的过程;推理代表了在不完整或有限信息条件下进行逻辑演绎与归纳判断的能力;行动则是将认知与推理的结果转化为外部行为的机制,是智能得以体现的最终表现形式。

除了上述核心功能,人类智能还体现在多个具体的智能维度之中。逻辑数学智能和语言交流能力体现了人类在符号操作与抽象推理上的优势;身体控制智能强调了人类在动作协调和运动技能上的独特性;社交情商与情绪感知则支撑了人类在复杂社会交互中进行合作与共情的能力;空间感知智能和音乐艺术智能展现了人类在创造性与感性领域的独特思维方式;而反省思考则代表了人类自我认知与元认知的能力,使个体能够反思自身行为并进行高层次的调整。

人工智能不仅能在工业、医疗、交通这些领域发挥作用,在艺术创作中同样展现出了无限可能。例如GoogleMagenta项目,它可以自动谱曲,甚至能够把文字、图画或者生活中的声音,转换成一段完整的音乐作品。这意味着,艺术创作不再局限于专业音乐人,任何人都可以通过AI参与其中。Magenta还开源了大量的数据和代码,形成了一个开放性的研究平台,推动了AI与艺术的深度融合。

另一个例子是Suno,如图2所示,它是一个专业的AI音乐创作平台,用户只需要输入简单的提示词,就可以自动生成一首带有人声的完整歌曲。无论是歌词、风格还是旋律,都能够被AI生成得相当自然和专业。它让音乐创作的门槛大大降低,使得每一个人都有可能成为音乐人

 

2 Suno

人工智能生成内容正在快速发展,百度也在这一领域推出了自己的特色应用。在视频创作方面,百度AIGC能够根据一段文章,自动生成相应的模板化视频。只需要输入文字内容,系统就能自动匹配背景、画面和配音,快速合成完整的视频作品。百度AIGC还可以生成数字人视频。用户输入一段文字,AI就会驱动一个数字人,将这段文字用自然的语音表达出来,并配合口型、表情和动作。这意味着,任何人都可以低成本、快速地制作一段带有人物讲解的视频。

人工智能在音乐生成与多媒体内容生产中的应用正在快速扩展。其中,余音自动编曲系统提供了一个典型案例,如图3所示。它不仅限于音乐生成,还将自动编曲与短视频剪辑结合,能够在无人干预的情况下生成完整的Vlog作品。这种模式降低了多媒体创作的门槛,为非专业用户提供了便捷的内容生产工具。余音展示了人工智能在文化创意产业中的潜力,其自动化与智能化特征为数字艺术的普及与传播提供了新的可能性,同时也对传统音乐创作模式提出了新的挑战与机遇。

 

3 余音自动编曲人工智能系统

点石智能篆刻系统是一个整合人工智能技术与交互设计方法的平台,其核心创新在于实现了篆刻字体与样式的参数化建模。通过将字体笔画特征与篆刻风格进行算法化处理,系统能够为用户提供个性化且标准化的篆刻设计方案。

关于人工智能与机器人的关系,长期以来存在一种普遍的误解,即将人工智能简单等同于机器人,如图4所示。人工智能本质上是对人类思维过程的建模与模拟,其存在形式未必依赖于具体硬件,更不必具备类人外形。AlphaGo在围棋领域表现出卓越智能的系统,本质上仅是一个运行在计算平台上的程序,却能够展现出超越人类顶尖棋手的认知与决策能力。

另一方面,机器人并不必然具备智能属性。许多机器人仅执行预设的重复性操作,缺乏自主学习与推理的能力,其智能水平较低。然而,智能度低的机器人并不意味着其价值有限。在工业生产中,诸如焊接机械手等功能相对单一的机器人,凭借其高效率与高稳定性,发挥着不可替代的重要作用。

 

4 人工智能的误解

在关于人工智能的认知中,存在另一类常见误解,即将人工智能简单等同于编程。事实上,编程仅是一种人机交互的手段,它通过计算机语言将人的意图转化为机器可执行的指令,从而完成特定任务。常见的编程语言包括 C/C++PythonJava 等,它们为算法实现与系统开发提供了工具层面的支撑。

然而,人工智能的内涵远超编程本身。编程是人工智能系统开发的必要条件,但并不足以构成人工智能。人工智能更强调对感知、认知、推理与决策等智能活动的模拟与实现,这涉及算法设计、数据驱动建模、计算架构优化以及跨学科知识的融合。因此,将编程与人工智能等同,不仅忽视了人工智能的复杂性,也会导致对该领域的误解。

工智能不应被狭隘地理解为编程或机器人。尽管二者在某些方面与人工智能存在联系,但人工智能的内涵远远超出其范畴。编程作为人工智能实现的基础手段,是人与机器沟通的语言工具。当前,人工智能系统的开发仍依赖编程,但人工智能发展的方向之一正是逐渐减少编程的复杂性,使机器能够通过自主学习和示例驱动来获取知识与能力。从这一角度看,编程与人工智能的目的在某种意义上甚至相反:前者强调人通过明确指令告诉机器如何做,而后者则强调机器能够自主学习并推演如何做。因此,编程虽是人工智能研究的必备技能,但不能将其等同于人工智能本身,正如识字并不等同于文学创作,计算能力也不等同于数学思维。

同样,将人工智能等同于机器人也是一种误解。人工智能本质上是智慧,强调的是认知与思维,而非具体的物理形态。大多数人工智能系统并不需要依附于物理硬件,更不需要类人的形态。事实上,目前市面上许多人形机器人所具备的智能水平相对有限,甚至并未真正包含人工智能的核心要素。相较而言,人工智能的真正价值在于其在认知建模、知识获取和自主决策等方面的能力,而非外在形式的呈现。

三、人工智能新纪元:大模型

人工智能正在进入以大模型为核心的新纪元。大模型(Large Language Model, LLM),是指具备庞大参数规模和高度复杂结构的深度学习模型。这类模型通常通过大规模数据的训练,形成强大的表征与生成能力,从而在自然语言处理、跨模态理解与任务迁移等方面展现出前所未有的性能优势。

与传统的人工智能模型相比,大模型的特征在于参数规模呈指数级增长,模型结构更为复杂,并且具备更强的泛化与自适应能力。其发展推动了人工智能由任务驱动通用智能方向的转变,使人工智能从单一任务的求解者演变为具备跨任务学习与推理能力的系统。这标志着人工智能进入了新的发展阶段,对科研、产业及社会应用均具有深远影响。

人脑是目前已知最为复杂的神经网络系统,包含约860亿个神经元(neurons),并通过约1000亿个突触连接(synapses)实现高度并行的信号传递与信息处理。神经元是神经系统的基本功能单元,其主要结构包括胞体(cell body)、树突(dendrites)、轴突(axon)及突触(synapse)。树突负责接收外部刺激与其他神经元传递的信号,轴突则将电信号传导至突触终端,并通过释放神经递质的方式与下一个神经元进行信息交互。这一过程形成了庞大而复杂的神经网络,为人类的感知、记忆、学习与决策提供了生物学基础。

在神经科学与人工智能的交叉研究中,人脑神经网络常被视为深度学习算法的灵感来源。人工神经网络(Artificial Neural Networks,ANN)正是基于对神经元和突触机制的抽象建模而提出的。虽然人工神经网络的结构和功能远未达到生物神经网络的复杂程度,但其核心思想——即通过多层连接单元的加权与非线性映射实现模式识别与知识学习——与生物神经元的工作方式具有一定的相似性,如图5所示。

 

5 人脑神经网络

大语言模型在多个方面展现出典型能力。首先,其在连续对话中的表现尤为突出,能够在多轮交互中保持上下文一致性,从而生成个性化和深入的回答。这种上下文理解与语境建模,使得模型不仅能够维持语义连贯性,还能提升人机交互体验。其次,在逻辑推理方面,大语言模型能够模拟人类解决复杂任务时的思维过程。当问题被分解为若干步骤时,模型可以逐步推演并得出答案,这一能力已广泛应用于数学问题求解与常识推理等任务,展现出其在知识整合和逻辑演绎上的潜力。最后,大语言模型具备角色扮演的能力,能够通过构造指令与微调学习,模拟特定角色的交互模式,如图6所示。这种能力实质上是对人类交互行为分布的建模,使模型能够在对话式学习、教育场景以及沉浸式人机交互中实现更自然的表现。综上所述,大语言模型的核心能力不仅体现在语言生成与理解上,更体现在跨任务的适应性与灵活性上,为其在教育、科研、内容生成与智能交互等领域的广泛应用奠定了基础。

 

6 角色扮演

大语言模型的核心特征在于其能够以对话的形式生成回答。与传统问答系统依赖预先存在的数据库或知识库不同,LLM的答案并非直接检索,而是基于概率建模进行实时生成。其基本原理类似于文字接龙游戏:模型会根据输入的上下文信息,预测并生成下一个最有可能出现的词汇,随后将其纳入已有的语境,再继续预测下一个词,直至满足语义与语境的完整性,或达到设定的终止条件为止。

例如,当用户提出苹果是一种水果吗?这一问题时,模型并不会直接从数据库中检索定义,而是通过对已有语料中的语言模式进行概率建模,逐步生成是的,苹果确实被归类为一种水果这一回答。这种生成方式不仅保证了语言的流畅性与多样性,也使得模型能够在开放领域中灵活应对各类提问。

这一工作原理凸显了LLM的生成式特征与传统检索式系统的本质区别。前者侧重于概率建模与语言生成,后者则依赖知识库的完整性与更新速度。这种差异为LLM在自然语言理解与生成方面带来了独特优势,但同时也带来一定的不确定性与潜在幻觉问题,成为当前学术界和产业界共同关注的研究重点。

人工智能的发展依赖于三大核心要素,即算力、算法与数据,类比为三国鼎立,如图7所示。算力是人工智能的基础支撑,可类比为人类大脑的思考速度与容量,决定了系统在信息处理与任务执行中的效率与规模。数据则是人工智能学习与建模的素材,涵盖文本、图像、语音及行为等多模态信息,其规模与质量直接影响模型的泛化能力与应用表现。算法则相当于学习与推理的方法论,它规定了如何利用算力处理数据,从而实现模式识别、知识抽取与智能决策。

 

7 算力、算法、数据

四、大语言模型的演变与资源挑战

大语言模型以超大参数规模为重要特征,参数量的提升使模型具备更强的表示能力与更高的拟合上限,从而在多样化任务中展现出更好的泛化与迁移能力。其基本范式源于对人脑神经网络的启发式建模:通过由类神经元单元与加权连接构成的深层网络,配合非线性变换与端到端的梯度学习,使机器能够在大规模数据上形成从感知到认知的层级表征,进而具备分析与学习能力。需要指出的是,这种类脑仅为功能层面的抽象与近似,并非生物机制的一一对应;模型性能除受参数规模影响外,还依赖于优化算法、训练语料质量与计算资源的协同支撑。

在大规模语言模型的发展中,参数量的增长成为推动性能提升的重要因素。GPT系列模型的参数量从最初的1.25亿(GPT-1)逐步扩展到15亿(GPT-2)和1750亿(GPT-3),同时网络层数和训练数据规模也呈指数级增长,如图8所示。这种规模化带来了语言理解与生成能力的提升,使模型能够在开放领域中展现出更强的知识迁移与推理能力。然而,参数量的激增也对算力资源、训练效率以及能耗提出了更高要求,成为当前人工智能研究与应用需要重点平衡的问题。全球数据量呈现出爆发式增长趋势。根据预测,2018年全球数据总量约为33EB,而到2025年这一规模预计将达到175EB,增幅约为5.3倍。

 

8 数据智能分析需求

大语言模型在训练过程中依赖于远超人类经验的数据规模。研究表明,普通人一生中所能接触到的语言输入大约为10亿词左右;相比之下,GPT-3在训练中已经学习了约5000亿词的自然语言数据,其规模是人类语言经验的数百倍。此外,已知最大规模的自然语言模型所使用的数据量已达到200亿词级别,而当前高质量语言数据的理论存量约为9万亿词。

五、总结

ChatGPT是一种基于GPTGenerative Pre-trained Transformer)模型开发的对话生成系统,如图9所示,其核心特征在于利用大规模预训练语言模型来实现自然语言的理解与生成。不同于传统的规则驱动型对话系统,ChatGPT通过对海量语料数据的学习,能够捕捉语言中的统计规律与语义关联,从而在与用户交互时生成自然、流畅且具有一定语境连贯性的回答。其对话生成不仅局限于事实性问答,还能够通过上下文建模实现更个性化和多样化的交互,增强了对话的趣味性与沉浸感。

 

9 ChatGPT

在大语言模型应用中,提示词设计是影响模型性能的关键变量。高质量的提示应当 明确、简洁且具体,尽量消除歧义,清晰界定待完成的任务与输出要求。多模态生成技术是近年来人工智能领域的重要发展方向,通过不同类型的输入数据生成多样化的输出内容,涵盖了文本、图像、视频和语音等多个模态。

在这个创新与发展的时代,合作与共享精神是推动技术进步和创意突破的关键。无论是学术研究、技术创新,还是创意设计,每一位参与者的贡献都将成为这一过程的重要组成部分。让我们一起探索新领域、解决难题,推动社会和科技的发展。

 *本文根据作者所作报告速记整理而成


嘉宾简介

陈静远,浙江大学教育学院百人计划研究员、博士生导师。主要研究方向为教育大模型、学习者建模、教育资源理解与生成。在NeurIPSICMLACL等相关领域顶级期刊及会议上发表论文30余篇。主持国家自然科学基金青年项目和上海市科技计划项目,担任国家自然科学基金重大项目、科技部科技创新2030-新一代人工智能重大项目及青年科学家项目子课题负责人。曾获浙江省科技进步奖一等奖、IET Smart Cities最佳论文奖和英特尔中国学术成就奖,入选上海市青年科技启明星计划。