导读:2023年10月20-21日,以“智能涌现 生成未来”为主题的第二十五届中国科协年会通用人工智能产业创新发展论坛在安徽省合肥市成功召开。科大讯飞股份有限公司副总裁、研究院院长刘聪受邀出席并作题为“拥抱通用人工智能新时代”的主题报告。报告阐释了认知智能大模型技术阶跃对行业的变革式影响,剖析认知智能大模型技术原理,提炼其智能涌现的技术启示以及未来仍需继续攻克的难题。分享了科大讯飞通过星火认知大模型在各千行各百业落地应用的创新产品及价值体现,总结经验与方法论,为进一步加快通用人工智能产业发展建言献策。
以下为报告全文。
以ChatGPT为代表的大模型的出现给人工智能带来了重大变革,然而,需要明确的是,大语言型模型本身并不等同于通用人工智能。在这个过程中,中国始终以OpenAI等国际领先公司为标杆,不断寻求技术的进步。然而,随着技术的不断发展,将大型模型应用于实际产业中也带来了一些新的挑战。
一、通用认知大模型的技术解读与分析
认知大模型的出现推动了通用人工智能的技术发展迈出了重要一步,促使我们朝着通用人工智能的目标迈进,为未来科技的发展带来了新的希望。此外,从国家层面来看,国家高度关注通用人工智能领域,众多省市区相继出台了相关政策,由此表明通用人工智能受到了广泛的关注和支持。
在大模型产业竞争中,企业除了技术发展之外,也十分更注重产业实际应用,国际大模型产业竞争目前呈现“激烈迅猛”之势,如图1所示。OpenAI从GPT-3.5到GPT-4的不断改进,并在多个领域的应用表现令人瞩目。
图1 国际大模型激烈竞争
ChatGPT建立在深度神经网络的大型模型之上,实现了认知智能的重大技术突破。该系统能够通过交互式对话统一处理文本生成、语言理解、逻辑推理等各种任务,因此我们将其称为对话式人工智能系统。语言一直是人类认知发展的重要阶段,从发明语言开始,人类就通过学习文本、课本和多媒体材料来获取各种领域的知识。大语言模型的终极目标是让机器也能够通过学习语言的方式掌握各种知识,通过训练庞大的参数模型,将机器的语言理解能力与人类的语言概念空间更加契合,实现更加类人的机器智能。
从GPT-3.5到GPT-4,其语言理解能力得到了显著提升。GPT-4进一步解决了GPT-3.5面临的长文本输入、多模态输入、外部实时知识运用等诸多挑战,在复杂认知任务(跨学科语言理解、跨行业知识运用)、复杂推理任务、多模态任务等方面继续进步,进一步抬高了智能涌现的上限,如图2所示。在此基础上,需要明确多模态和语言音处理之间的关系。语言仍然是通用人工智能的核心,它代表了人工智能在感知和理解方面的高级阶段。无论涉及图像、视频、语音,无论是理解、感知还是生成,都可以通过空间映射的方式与这一核心语言模型相结合,从而推动通用人工智能的综合发展。
图2 GPT-4的高阶能力
OpenAI从早期就开始涉足多模态领域,如图3所示。早期DALL-E的尝试在质量和效果上可能不够理想,但随后在2022年9月推出的DALL-E 2取得了显著进展。此外,GPT-4 4V已逐步开放。这些通用大型模型已经迈向了全能型,不再局限于特定领域,而是能够执行各种任务。它们能够生成艺术字体,解析论文框图,理解文中的各个步骤和架构,甚至能够解读各种符号,这种多模态任务在过去是难以想象的。
图3 OpenAI多模态技术演进路线
通用大模型是当前迈向通用人工智能最有希望的路径,但仍需攻克三大难题:一是大模型的知识幻想问题;二是大模型自进化和个性化问题;三是多模态及具身智能训练问题。总的来说,大型深度神经网络模型如GPT系列已经实现了技术上的重大突破,为通用人工智能的实现铺设了可能的平了道路。这些模型的巨大成功表明,通过更多高质量的数据和更大的模型,我们可以让机器执行人类智能可以完成的任务。此外,文字作为信息载体在数据量和传递信息方面具有巨大优势,但同时也展示了多模态图像数据可以推动感知智能发展,从而拓展了人工智能的应用潜力。这些发展为未来通用人工智能的实现提供了巨大的潜力和想象空间。
二、通用认知大模型的技术解读与分析
认知大模型的“智能涌现”将带来解决人类刚需的全新机遇。它将改变信息分发获取方式,使传统搜索和视频流等领域变得更加高效;它将进一步改变内容的生产模式,包括文本、图像和视频的生成;它将进一步推动全自然交互任务的完成,实现专家级的虚拟助手,颠覆传统手工的编程方式,成为科研工作的加速器。从技术和产业分析的角度来看,大型模型在当今人工智能领域具有历史性的重要意义性。
在过去的十多年中,科大讯飞在人工智能技术和各行业产业应用方面积累了丰富的经验。2022年12月15日,科大讯飞启动了大型模型攻关计划,确定了1+N的攻关策略。自2023年5月6日讯飞星火认知大模型正式发布以来,我们为大型模型制定了明确的年内升级里程碑。2023年6月9日按计划,我们实现了开放式对话突破,以及多轮对话能力与数学能力提升,并推出了星火APP,获得了广泛关注。2023年8月15日是星火大版本的更新,包括代码能力的提升、多模态能力的更新和通用能力的不断提升,发展历程如图4所示。(注:10月24日,科大讯飞再次发布讯飞星火V3.0,宣布整体超越ChatGPT)。
图4 讯飞星火认知大模型升级的关键里程碑
8月15日,讯飞星火V2.0中代码能力提升并发布了应用产品iFlyCode1.0,但其功能将在许多实际场景中显著提高工作效率,特别是对于程序员。
同时,多模态能力也进行了展示,包含图像描述、图像问答、识图创作、文图生成、虚拟人合成等方面。
图5展示了星火认知大模型在教育不同领域的应用。从虚拟人、学习机、教育办公到医疗、汽车、工业,大模型在各种场景中都发挥了重要作用,例如帮助学生批改中英文作文、提高教师备课效率、个性化制定病人康复计划、提供高效办公工具、支持汽车座舱产品的开发,并在工业领域利用大模型的扩展能力和企业内部数据知识来实现构建企业知识大脑。
图5 星火认知大模型助力教育
10月24日即将发布的星火认知大模型V3.0版本将从七个维度全面提升代码能力,实现中文超越、英文全面对标ChatGPT。重磅发布医疗大模型,通过-讯飞晓医APP,为每个家庭提供健康助手;首次发布科技文献大模型,为每个科研工作者提供星火助力;全新发布AI答疑辅学和AI心理咨询,为每个孩子提供成长伙伴;进一步升级智能编程助手iFlyCode2.0,与行业龙头共同发布12个行业大模型,提供生产力工具。
三、通用认知大模型的技术解读与分析
未来通用人工智能的发展将遵循三大趋势。首先,通用人工智能将朝着多模态和多语言的方向发展,实现更广泛的应用和更全面的理解。其次,可解释性和可信性将成为发展的重要关键,确保人工智能系统的决策和行为可以被理解和信任。最后,算法的可控性将变得至关重要,通用人工智能技术和产业必须建立在软硬件的全面自主可控基础之上,以确保数据和模型的安全性。这些方向将推动通用人工智能向更高层次的感知和语义理解迈进,实现更广泛和深入的应用。
文本生成的能力不断演进,现在不仅可以输入文本生成请求,还可以通过输入Prompt来增强模型的性能,甚至采用类似于大型模型中的人类反馈强化学习技术,如图6所示。星火大模型结合图像理解能力,并通过其他调节器的输入,也可以生成详细的内容描述。这种底层认知大模型的支持使得能够实现更深入的理解和更精确的描述。
图6星火文图生成能力
在大型模型的应用中,应对虚假信息传播问题至关重要,特别是随着模型尺寸的增加,这一挑战变得尤为紧迫。我们需要采用有针对性的策略,考虑多语言和信息数据的复杂性,以确保安全和可控性。此外,大型模型只是整个复杂系统的一部分,因此需要明确何时调用插件或其他组件来生成指令,同时重新整理信息以生成目标答案,如图7所示。
图7 大模型与插件的交互使用
随着大模型的不断发展,算力成为不断增长的需求。除了硬件,还需要在并行优化、算子库等方面进行复杂的工作。在此领域,讯飞在过去与国内的合作伙伴,如华为、寒武纪、曙光合作,在提供更高效的硬件解决方案方面积累了丰富的经验。最近,讯飞和华为联手在8月15日发布了星火一体机,如图8所示。(注:10月24日,讯飞联合昇腾生态共同发布“飞星一号”大模型算力平台,并启动对标GPT4的更大参数规模的星火大模型训练。)
图8 私有化场景的星火一体机
OpenAI一直处于领先地位,而自3月15日推出GPT-4以来,其语言能力已经达到了新的高度。长期来看,我们需要建立产业生态圈和科研生态圈,同时还要持续进行原始创新,并将这一理念与应用结合,研究2B(面向企业)和2C(面向消费者)市场,不仅要推出新产品,还要考虑是否能够改进传统解决方案,是否能够带来真正的价值。最终,强调实际效果至关重要,而不只是依赖宣传。
在人工智能时代,即使在某一领域处于领先地位,与其他公司相比,技术的细微差距也可能对某些场景的性能产生巨大影响。因此,需要进行系统性创新,这种创新包括语音、图像、自然语言理解等各种技术领域,以将每个技术推向巅峰,并将其整合创新。在大型模型时代,那些深入场景的企业可能会取得更长远的发展。讯飞星火认知大模型采取了1+N+X的策略,如图9所示,其中1代表了通用底座能力的不断提升,N代表了相关的重点应用行业领域,而X则代表了与生态相关的细分行业和产品。相信未来的人工智能生态将涵盖多个领域,将围绕大模型形成全新的生态体系。
图9 “1+N+X”大模型产业发展生态体系
未来,相信在国内众多科研人员的不懈努力下,中国通用人工智能的火种将继续燎原。
(本文根据作者论坛报告速记整理而成,经作者授权发布)