人工智能行业专题报告:模型即服务
大模型,又称为预训练模型、基础模型等,是“大算力+强算法”结合的产物。大模型 通常是在大规模无标注数据上进行训练,学习出一种特征和规则。基于大模型进行 应用开发时,将大模型进行微调,如在下游特定任务上的小规模有标注数据进行二 次训练,或者不进行微调,就可以完成多个应用场景的任务。 迁移学习是预训练技术的主要思想。当目标场景的数据不足时,首先在数据量庞大 的公开数据集上训练基于深度神经网络的 AI 模型,然后将其迁移到目标场景中,通 过目标场景中的小数据集进行微调,使模型达到需要的性能。在这一过程中,这种 在公开数据集训练过的深层网络模型,即为“预训练模型”。使用预训练模型很大程度 上降低了下游任务模型对标注数据数量的要求,从而可以很好地处理一些难以获得 大量标注数据的新场景。大模型正是人工智能发展的趋势和未来。
从参数规模上看,AI 大模型先后经历了预训练模型、大规模预训练模型、超大规模 预训练模型三个阶段,参数量实现了从亿级到百万亿级的突破。从模态支持上看, AI 大模型从支持图片、图像、文本、语音单一模态下的单一任务,逐渐发展为支持 多种模态下的多种任务。 国外的超大规模预训练模型起步于 2018 年,并在 2021 年进入“军备竞赛”阶段。 2017 年,Vaswani 等提出 Transformer 架构,奠定了当前大模型领域主流的算法架构 基础;Transformer 结构的提出,使深度学习模型参数达到了上亿的规模。2018 年, 谷歌提出了大规模预训练语言模型 BERT,该模型是基于 Transformer 的双向深层预 训练模型,其参数首次超过 3 亿规模;同年,OpenAI 提出了生成式预训练 Transformer 模型——GPT,大大地推动了自然语言处理领域的发展。此后,基于 BERT 的改进模型、ELNet、RoBERTa、T5 等大量新式预训练语言模型不断涌现,预训 练技术在自然语言处理领域蓬勃发展。
2019 年,OpenAI 继续推出 15 亿参数的 GPT-2,能够生成连贯的文本段落,做到初 步的阅读理解、机器翻译等。紧接着,英伟达推出了 83 亿参数的 Megatron-LM,谷 歌推出了 110 亿参数的 T5,微软推出了 170 亿参数的图灵 Turing-NLG。2020 年, OpenAI 推出了超大规模语言训练模型 GPT-3,其参数达到了 1750 亿,在两年左右的 时间实现了模型规模从亿级到上千亿级的突破,并能够实现作诗、聊天、生成代码 等功能。此后,微软和英伟达在 2020 年 10 月联手发布了 5300 亿参数的 MegatronTuring 自然语言生成模型(MT-NLG)。2021 年 1 月,谷歌推出的 Switch Transformer 模型以高达 1.6 万亿的参数量成为史上首个万亿级语言模型;同年 12 月,谷歌还提 出了 1.2 万亿参数的通用稀疏语言模型 GLaM,在 7 项小样本学习领域的性能超过 GPT-3。可以看到,大型语言模型的参数数量保持着指数增长势头。这样高速的发展 并没有结束,2022 年,又有一些常规业态大模型涌现,比如 Stability AI 发布的文字 到图像的创新模型 Diffusion,以及 OpenAI 推出的 ChatGPT,ChatGPT 是由效果比 GPT3 更强大的 GPT-3.5 系列模型提供支持,并且这些模型使用微软 Azure AI 超级计 算基础设施上的文本和代码数据进行训练。
而在国内,超大模型研发展异常迅速,2021 年成为中国 AI 大模型的爆发年。2021 年,商汤发布了书生(INTERN)大模型,拥有 100 亿的参数量,这是一个相当庞大 的训练工作。在训练过程中,大概有 10 个以上的监督信号帮助模型,适配各种不同 的视觉或者 NLP 任务,截至 2021 年中,商汤已建成世界上最大的计算器视觉模型, 该模型拥有超过 300 亿个参数;同年 4 月,华为云联合循环智能发布盘古 NLP 超大 规模预训练语言模型,参数规模达 1000 亿;联合北京大学发布盘古 α 超大规模预训 练模型,参数规模达 2000 亿。阿里达摩院发布 270 亿参数的中文预训练语言模型 PLUG,联合清华大学发布参数规模达到 1000 亿的中文多模态预训练模型 M6;7 月,百度推出 ERNIE 3.0 知识增强大模型,参数规模达到百亿;10 月,浪潮信息发布 约 2500 亿的超大规模预训练模型“源 1.0”;12 月,百度推出 ERNIE 3.0 Titan 模型, 参数规模达 2600 亿。而达摩院的 M6 模型参数达到 10 万亿,将大模型参数直接提 升了一个量级。2022 年,基于清华大学、阿里达摩院等研究成果以及超算基础实现 的“脑级人工智能模型”八卦炉(BAGUALU)完成建立,其模型参数模型突破了 174 万亿个,完全可以与人脑中的突触数量相媲美。
部分公司中国公司虽然目前还没有正式推出自身大模型产品,但是也在积极进行研 发,例如云从科技,公司的研究团队高度认同“预训练大模型+下游任务迁移”的技 术趋势,从 2020 年开始,已经陆续在 NLP、OCR、机器视觉、语音等多个领域开展 预训练大模型的实践,不仅进一步提升了公司各项核心算法的性能效果,同时也大 幅提升了公司的算法生产效率,已经在城市治理、金融、智能制造等行业应用中体 现价值。 而且,中国的超大模型并不落后于国外同类产品,在某些领域还能实现反超。以商 汤科技的书生(INTERN)为例,书生(INTERN)在分类、目标检测、语义分割、深 度估计四大任务 26 个数据集上,基于同样下游场景数据(10%),相较于同期 OpenAI 发布的最强开源模型 CLIP-R50x16,平均错误率降低了 40.2%,47.3%, 34.8%,9.4%。同时,书生只需要 10%的下游数据,平均错误率就能全面低于完整 (100%)下游数据训练的 CLIP。
可以看到,国内外众多公司和研究机构积极开展对大模型的研发。目前,大模型参 数规模最高可达百万亿级别,数据集达到 TB 量级,且面向多模态场景(同时支持文 字、图像、声音、视频、触觉等两种及以上形态)的大模型已成为趋势。大模型生 态已初具规模。
人工智能正处于从“可以用”逐渐走向“好用”的落地应用阶段,但目前仍处于商业落 地早期,主要面临着场景需求碎片化、人力研发和应用计算成本高、长尾场景数据 较少导致模型训练精度不够、模型算法从实验室场景到真实场景效果差距大等行业 痛点。而大模型的出现能够在在提高模型的通用性、降低训练研发成本方面等方面 降低 AI 落地应用的门槛。
过去十年中,通过“深度学习+大算力”从而获得训练模型是实现人工智能的主流技术 途径。由于深度学习、数据和算力这三个要素都已具备,全世界掀起了“大炼模型” 的热潮,也催生了大批人工智能企业。但是,在深度学习技术兴起的近 10 年间,AI 模型基本上是针对特定应用场景需求进行训练的,即小模型,属于传统的定制化、 作坊式的模型开发方式。传统的 AI 模型从研发到投入应用需要完成包括确定需求、 数据收集、模型算法设计、训练调优、应用部署和运营维护等阶段组成的整套流 程。这意味着除了需要优秀的产品经理准确确定需求之外,还需要 AI 研发人员扎实 的专业知识和协同合作能力完成大量复杂的工作。
传统模式中,研发阶段,为了应对各式各样的场景需求,AI 研发人员需要设计专网 专用的个性定制化神经网络模型。模型设计过程要求研究人员具有充分的网络结构 和场景任务专业知识,且需承受人力设计网络结构的试错成本和时间成本。一种降 低专业人员设计门槛的思路是通过网络结构自动搜索的技术路线,但是这种方案对 算力要求很高,并且不同场景任务都要调用大量机器进行自动搜索以获取最优模 型,算力成本和时间成本仍然很高。一个项目往往需要专家团队实地驻场数月才能 完成,其中数据收集和模型训练评估是否能够达到指标要求往往需要多次循环迭 代,人力成本很高。 落地阶段,经“一个场景一个模型”式的作坊式模型开发得到的模型在许多垂直行业 场景任务不通用。譬如无人自动驾驶全景感知领域,常常需要多行人跟踪、场景语 义分割、视野内目标检测等多个模型协同作战才行;而同样是目标检测和分割应 用,在医学图像领域训练的皮肤癌检测和分割 AI 模型也无法直接应用到监控场景的 行人车辆检测和场景分割。模型无法复用和积累,同样导致了 AI 落地的高门槛、高 成本与低效率。
而大模型通过从海量的、多类型的场景数据中学习,并总结不同场景、不同业务下 的通用能力,学习出一种特征和规则,成为具有泛化能力的模型底座。基于大模型 进行应用开发或面对新的业务场景时,将大模型进行微调,例如在下游特定任务上 的小规模有标注数据进行二次训练,或不进行微调,就可以完成多个应用场景的任 务,实现通用的智能能力。由此利用大模型的通用能力可以有效的应对多样化、碎 片化的 AI 应用需求,为实现规模推广 AI 落地应用提供可能。
传统的小模型训练过程中,涉及众多调参、调优的手动工作,需要大量的 AI 专业研 发人员来完成;同时,模型训练对数据要求高,需要大规模的标注数据。然而许多 行业数据获取困难、标注成本高,同时项目研发人员需要花费大量的时间收集原始 数据。譬如,人工智能在医疗行业病理学、皮肤病学和放射学等医学图像密集领域 的影响扩展增长,但是医学图像通常涉及到用户数据隐私,很难大规模获取到用于 训练 AI 模型。而在工业视觉瑕疵检测领域,以布匹瑕疵为例,市场上需要检测的布 匹种类包括白坯布、色坯布、成品布、有色布、纯棉、混纺等等,瑕疵种类繁多, 颜色、厚薄难以识别,需要在工厂里长时间地收集数据并不断优化算法才能做好瑕 疵检测。工业视觉应用场景千变万化,每个场景都具有专业知识的个性化的需求, 而不同行业的数据在另一个场景或任务可能并不适用,还需重新收集、标注数据和 训练模型,造成重复造车轮子现象,研发流程虽然相通,但研发的模型却难以复 用。此外,AI 模型也需要完整的、实时的支持机器自学习的数据闭环,从而能够不 断迭代优化。这一方面整体也导致了当前 AI 研发整体门槛、成本较高。 而大模型通过自监督学习功能将输入的原始数据直接进行自动学习区分,合理构造 适合模型学习的任务,不需要或很少需要通过人工标注的数据进行训练,很大程度 上解决了人工标注数据标签的高成本、长周期和精确度的问题,并降低了训练所需 要的数据规模。这在很大程度上减少了大模型训练数据获取、标注的成本,也更适 合于小样本学习,从而有利于将传统的、有限的 AI 扩展到更多的应用场景。
我们认为,大模型相对于传统 AI 模型开发模式在研发时拥有更标准化的流程,在落 地时拥有更强的通用性,可以泛化到多种应用场景;并且大模型的自监督学习能力 相较于传统的需要人工标注的模型训练能够显著降低研发成本,共同使得大模型对 于 AI 产业具有重要意义,为解决 AI 落地难、促进 AI 产业化进程这一问题提供方 向。
除通用能力强、研发过程标准化程度高外,大模型最大的优势还是在于“效果好”, 其通过给模型“填喂”大数据提高其自学习能力,进而具有更强的智能程度。比如在 自然语言处理领域,百度、谷歌等巨头的探索表明,基于预训练大模型的 NLP 技术 的效果,已超过过去最好的机器学习能力。OpenAI 的研究表明,2012 至 2018 年 6 年间,在最大规模的人工智能模型训练中所使用的计算量呈指数级增长,其中有 3.5 个月的时间计算量翻了一倍,比摩尔定律每 18 个月翻一倍的速度快得多。下一代 AI 大模型,参数数量级将堪比人类大脑突触的水平,并且或将不仅能处理语言模型, 将更是一个能处理语言、视觉、声音等多任务的多模态 AI 模型。大模型为通往强人 工智能提供了一条可能的通道。
从大模型发展历程中能够看出,多模态大模型是发展趋势之一。由于具有在无监督 情况下自动学习不同任务、并快速迁移到不同领域数据的强大能力,多模态大模型 被广泛认为是从限定领域的弱人工智能迈向强人工智能的路径探索。OpenAI 联合创 始人、首席科学家 Ilya Sutskever 也曾表示,“人工智能的长期目标是构建多模态神经 网络,即 AI 能够学习不同模态之间的概念,从而更好地理解世界”。将文本、语 音、图像、视频等多模态内容联合起来进行学习,大模型由单模态向多模态方向发 展,能够对更广泛、更多样的下游任务提供模型基础支撑,从而实现更加通用的人 工智能模型。 更具体来看,大模型带来的更强大的智能能力,能够推动人工智能向更高级智能应 用领域迈进,例如 AIGC、更智能的对线 等大模型在新闻文本生 成、商业文本分析、法律文本分析等领域具有较高的产业应用价值。2022 年 OpenAI 发布的基于 GPT-3.5 的 ChatGPT 则能够以对话方式进行交互;除问答以外,ChatGPT 能够完成编程、写稿等众多超出人们想象的任务。甚至有研究人员表示未来 ChatGPT 这样的新兴人工智能技术很可能会影响白领的工作。在一项由医疗初创公 司 Ansible Health 领导的研究中,ChatGPT 参加美国医生执照的三项考试,考试成绩 可以达到或接近达到及格;ChatGPT 在法律领域的表现甚至更加优秀,研究人员发 现,ChatGPT 可以取得美国多州律师考试的及格分数;ChatGPT 的能力也已经获得了 大型科技企业的认可,谷歌公司指出,如果 ChatGPT 参加谷歌的面试,理论上会得 到入门级程序员的聘任。
2022 年,大模型正在成为 AIGC 领域发展的算法引擎。在大模型的能力加持下,包 括以文生图以及虚拟数字人等 AIGC 类应用将快速进入到商业化阶段,并为元宇宙内 容生产带来巨大的变革。大模型正在让人工智能技术从五年前的“能听会看”,走到 今天的“能思考、会创作”,未来有望实现“会推理、能决策”的重大进步。 我们认为,随着大模型不断地进步、迭代、向多模态方向发展,大模型能够达到更 强的通用性以及智能程度,从而使得 AI 能够更广泛地赋能各行业应用,尤其是更高 级智能应用领域,这是大模型能够给 AI 产业带来的突破之一,也是大模型构工 智能发展趋势和未来的原因之一。
大模型的“大规模”和“预训练”属性,决定了其具有能力泛化、技术融合、应用支撑 三大核心作用。 能力泛化方面,AI 大模型预先在海量通用数据上训练并具备多种基础能力,可结合 多种垂直行业和业务场景需求进行模型微调和应用适配,能够摆脱传统 AI 能力碎片 化、作坊式开发的束缚。AI 大模型得益于其“大规模预训练﹢微调”的范式,可以很 好地适应不同下游任务,展现出它强大的通用性。 技术融合方面,单个 AI 大模型通过端到端联合训练调优,能有效集成自然语言处 理、计算机视觉、智能语音、知识图谱等多个 AI 核心研究领域的多项技术,性能上 可实现“1+1>
2”的效果,可显著提升 AI 大模型的功能丰富性和性能优越性。 应用支撑方面,AI 大模型已成为上层应用的技术底座,能够有效支撑智能终端、系 统、平台等产品应用落地,可解决传统 AI 应用过程中存在的壁垒多、部署难问题。
从人工智能到各行业的商业应用,可以看作是上下游的关系。而 AI 大模型因为其自 身而也正是大模型在能力泛化与技术融合方面的优势,使其在应用支撑方面具有先 进性;同时大模型做到了相对标准化,下游可以降低对算法的使用成本,以及商业 应用的适配成本。因此,大模型在 AI 产业链中将承担“基础设施”式的功能,作为底 座将 AI 技术赋能千行百业。也就是说,在基于数据的互联网时代、基于算力的云计 算时代之后,将进入基于大模型的 AI 时代。在未来,基于大模型,人工智能将如供 水供电一般流向终端,流向用户和企业。
如果将 AI 比作电力,那么大模型则相当于“发电机”,能将智能在更大的规模和范围 普及。大模型的智能能力在未来将成为一种公共基础资源,像电力或自来水一样随 取随用。每个智能终端、每个 APP,每个智能服务平台,都可以像接入电网一样, 接入由 IT 基础设施组成的“智力”网络,让 AI 算法与技术能够更广泛地应用于各行各 业。
基于大模型形成的大规模智能网络和云计算完全不同。云计算尽管也将算力比作随 取随用的资源,但目前仍然做不到像电力一样的方便。这是因为云计算本质上需要 云和用户进行双向的资源交换,用户需要经过繁琐的数据准备、计算过程定义等过 程,将数据和算法转移到云端,再由云端完成任务后传回本地。而基于大模型的大 规模智能网络则不需要用户定义计算过程,只需要准备好数据,大模型强大的能力 能够在少量微调甚至不微调的情况下直接完成用户所需的工作。这一智能能力生产 和消费的网络,未来或将成为人类社会产业发展的主流模式。 我们认为,大模型在能力泛化、技术融合、研发标准化程度高等方面的优势让其有 能力支撑各式应用,使其正在成为人工智能技术及应用的新基座。正如发电厂和高 速公路一样,大模型将成为各行各业应用 AI 技术的底座和创新的源头。
从当前阶段来看,国际上大模型研究开展的时间较早,在研发过程中积累了一些经 验。目前有商业化应用案例的大模型主要包括 BERT、GPT-2、T-NLG、GPT-3 等。 BERT 主要适用于搜索、营销、金融等依赖深层语义理解的领域,例如,在检索领 域,谷歌目前已将 BERT 整合到搜索引擎中,为知识卡片和内容索引提供更为准确的 结果。在营销领域,一些企业采用了开源的 BERT 模型,BERT 能够将大量的用户反 馈内容进行整合,为下游的营销动作提供支持;GPT-2 更适合文本生成领域的任 务,在营销、文案、对话、媒体等领域的应用较多;T-NLG 模型是自然语言生成模 型,在文本生成、摘要等方面具有更强的性能;GPT-3 是目前商业化进展最快,应 用案例最多的大模型。基于 GPT-3 的下游应用主要集中在内容创意生成、语言/风格 互译、对话、搜索、游戏辅助开发等场景。
国内,商汤的业务模式能够大致体现 AI 大模型、AI 大装置承担基础设施功能,搭载 各式平台从而赋能百业。商汤拥有强大的人工智能基础设施 SenseCore,它以低成 本、高效率大规模生产高性能的人工智能模型。SenseCore 生产的人工智能模型具备 感知智能、决策智能、智能内容生成及智能内容增强等功能,被集成到公司的产品 及软件平台中以支持智慧城市、智慧商业、智慧生活以及智能汽车等垂直行业。业 务模式上,公司使用 SenseCore 在模型库中组装现有模型,并针对增量需求训练新 模型,从而以经济高效的方式配置产品方案。这类产品方案可通过软件平台向其他 客户提供。
SenseCore 提供强大的人工智能模型,可扩展及适应广泛的应用场景。SenseCore 可 以按需提供人工智能模型生产、训练、部署及迭代,以更大的灵活性服务于客户, 并缩短商业化时间。每一次 SenseCore 随着技术突破而升级,公司针对不同领域垂 直行业的软件平台都会同步升级,功能和性能方面得到明显改善。另一方面,众多 垂直行业也为 SenseCore 提供了丰富的场景及反馈,以促进 SenseCore 的演进。这种 飞轮效应使公司在与从事单一垂直行业人工智能公司竞争当中处于更有利的地位。
又比如云从科技,公司的研究团队高度认同“预训练大模型+下游任务迁移”的技术趋 势,从 2020 年开始,已经陆续在 NLP、OCR、机器视觉、语音等多个领域开展预训 练大模型的实践,不仅进一步提升了公司各项核心算法的性能效果,同时也大幅提 升了公司的算法生产效率,已经在城市治理、金融、智能制造等行业应用中体现价 值;其次,公司一直以来都在人机协同领域布局,打造了像人一样思考和工作的人 机协同操作系统(CWOS),致力于整合打通视觉、语音、NLP 等多个领域的大模 型,要彻底打通数字世界和物理世界,为“像人一样思考和工作”打下坚实的技术基 础;公司也通过开放的人机协同操作系统实现了技术平台化,加上多年的行业深 耕,能够通过“平台化的通用模型+带行业 knowhow 的专用模型”来帮助各行各业快 速实现智能化升级。
我们认为,模型公司能够发挥大模型作为 AI 基础设施与底座的能力,基于大模型 “大规模预训练﹢微调”的范式形成产品方案,并满足 AI 产业链下游各行业客户的应 用需求,模型公司将成为 AI 世界中的基础类公司。
OpenAI 成立于 2015 年 12 月,是所处于美国旧金山的一个人工智能研究实验室,由 非营利性的 OpenAI Inc.及其营利性的子公司 OpenAI LP 组成。OpenAI 开展人工通用 智能(AGI)研究,为了确保 AI 能够造福全人类,OpenAI 提供了一个基于 AI 的开发 和研究框架,这也是其名字的来源(开放 AI 能力)。利用 OpenAI 的平台,客户可 以快速提升开发技能并获取 AI 领域的专业知识,这有助于安全有效的通用人工智能 (AGI)技术的发展。OpenAI 开发、维护和训练了一批可用于通用活动的 AI 模型, 包括写作、阅读、编程和图像处理等,OpenAI 始终相信 AGI 对我们日常生活的影响 将远远超过早期的 AI 技术。 马斯克、奥特曼和其他投资者于 2015 年 12 月宣布创建 OpenAI,并承诺向该项目投 入超过 10 亿美元。通过公布其专利和研究成果,OpenAI 将与其他组织和研究人员 “自由互动”。“OpenAI Gym”的公测版本于 2016 年 4 月 27 日发布,这是一个加强 OpenAI 研究领域的平台。2016 年 12 月 5 日,OpenAI 发布了“Universe”,这是一个 用于开发和测试 AI 的平台,智能能力可以覆盖全球的网站、游戏和其他应用程序。
2019 年 3 月 11 日,OpenAI 宣布从“非盈利(non-profit)”性质过度到“有限盈利 (capped for profit)”,利润上限为任何投资的 100 倍(创立了 OpenAI LP 公司)。 也是在 2019 年,微软向 OpenAI 投资了 10 亿美金,并获得了 OpenAI 技术的商业化 授权。从此,OpenAI 的一些技术开始出现在微软的产品和业务上。不过,OpenAI 与 微软的合作其实从 2016 年就开始,2016 年,微软的云服务 Azure 为 OpenAI 提供了 大规模实验的平台。Azure 彼时已经为他们提供了带有 InfiniBand 互连的 K80 GPU 的 算力资源,以优化深度学习的训练。2020 年 9 月 22 日,OpenAI 开始授权微软使用 他们的 GPT-3 模型,也是全球首个可以享受 GPT-3 能力的公司。 2020 年 6 月 11 日,OpenAI 发布了 OpenAI API,这也是 OpenAI 第一个商业化产品。 官方解释了,他们认为开发商业产品是确保 OpenAI 有足够资金继续投入 AI 研究的 有效手段。自此,OpenAI 也正是开始商业化运作。官方也解释了,使用 API 的方式 提供模型而不是开源模型也将降低模型的使用门槛,毕竟对于中小企业来说,部署 强大的 AI 模型所需要的成本可能更高。
2018 年 6 月 11 日,OpenAI 公布了一个在诸多语言处理任务上都取得了很好结果的 算法,即著名的 GPT,这也是该算法的第一个版本。GPT 是第一个将 transformer 与 无监督的预训练技术相结合,其取得的效果要好于当前的已知算法。这个算法算是 OpenAI 大语言模型的探索性的先驱,也使得后面出现了更强大的 GPT 系列。 同样是在 2018 年 6 月份,OpenAI 的 OpenAI Five 已经开始在 Dota2 游戏中击败业余 人类团队,并表示在未来2个月将与世界玩家进行对战。OpenAI Five使用了256 个 P100 GPUs 和 128000 个 CPU 核,每天玩 180 年时长的游戏来训练模型。在随后的 几个月里 OpenAI Five 详情继续公布。在 8 月份的专业比赛中,OpenAI Five 输掉了 2 场与选手的比赛,但是比赛的前 25-30 分钟内,OpenAI Five 的模型的有着十分 良好的表现。OpenAI Five 继续发展并在 2019 年 4 月 15 日宣布打败了当时的 Dota2 世界冠军。
2019 年 2 月 14 日,OpenA 官宣 GPT-2 模型。GPT-2 模型有 15 亿参数,基于 800 万 网页数据训练。2019 年 11 月 5 日,15 亿参数的完整版本的 GPT-2 预训练结果发 布。 2019 年 3 月 4 日,OpenAI 发布了一个用于强化学习代理的大规模多代理游戏环境: Neural MMO。该平台支持在一个持久的、开放的任务中的存在大量的、可变的代 理。 2019 年 4 月 25 日,OpenAI 公布了最新的研究成果:MuseNet,这是一个深度神经 网络,可以用 10 种不同的乐器生成 4 分钟的音乐作品,并且可以结合从乡村到莫扎 特到披头士的风格。这是 OpenAI 将生成模型从自然语言处理领域拓展到领域开 始。
2020 年 4 月 14 日,OpenAI 发布了 Microscope,这是一个用于分析神经网络内部特 征形成过程的可视化工具,也是 OpenAI 为了理解神经网络模型所作出的努力。 2020 年 5 月 28 日,OpenAI 正式公布了 GPT-3 相关的研究结果,其参数高达 1750 亿,这也是当时全球最大的预训练模型,同年 9 月,GPT-3 的商业化授权给了微软。2020 年 6 月 17 日,OpenAI 发布了 Image GPT 模型,将 GPT 的成功引入计算机视觉 领域。
2022 年 1 月 27 日,OpenAI 发布了 InstructGPT。这是比 GPT 3 更好的遵循用户意图 的语言模型,同时也让它们更真实,且 less toxic。 2022 年 3 月 15 日,OpenAI 新版本的 GPT-3 和 Codex 发布,新增了编辑和插入新内 容的能力。 2022 年 4 月 6 日,DALL·E2 发布,其效果比第一个版本更加逼真,细节更加丰富且 解析度更高。 2022 年 6 月 23 日,OpenAI 通过视频预训练(Video PreTraining,VPT)在人类玩 Minecraft 的大量无标签视频数据集上训练了一个神经网络来玩 Minecraft,同时只使 用了少量的标签数据。通过微调,该模型可以学习制作钻石工具,这项任务通常需 要熟练的人类花费超过 20 分钟(24,000 个动作)。它使用了人类原生的按键和鼠标 运动界面,使其具有相当的通用性,并代表着向通用计算机使用代理迈出了一步。 2022 年 9 月 21 日,OpenAI 发布了 Whisper,这是一个语音识别预训练模型,结果 逼近人类水平,支持多种语言。
2022 年 11 月 30 日,OpenAI 发布 ChatGPT,这是一个 AI 对话系统,一款人工智能技 术驱动的自然语言处理工具。它能够通过学习和理解人类的语言来进行对话,还能 根据聊天的上下文进行互动,真正像人类一样来聊天交流,甚至能完成撰写邮件、 视频脚本、文案、翻译、代码等任务。 ChatGPT 经历了 OpenAI 开发的四代 GPT 模型的进化。此前的三代模型数据质量和数 据规模不断提升,使得其生成能力不断精进,已经能够执行阅读理解、机器翻译、 自动问答等任务,但本质上只是语言模型,不具备回答问题的能力。针对 GPT-3, OpenAI引入了1750亿的训练参数,开启了超大模型时代,专家普遍认为,在封闭、 静态和确定性环境中,该模型已经可以达到人类的决策水平。而 ChatGPT 模型基于 GPT-4优化,引入了新的算法——从人类反馈中强化学习(RLHF),在训练中,训练 师会对答案进行排序、打分或者给出高质量答案,令 ChatGPT 具备一定逻辑和常 识,成为现阶段全球所发布的功能最全面的 AI 模型,远超同类产品的智能化水平。
正由于“通过文本与人对话”这一特点,ChatGPT 获得了得天独厚更为灵活的使用功 能。以前也曾有其他 AI 聊天机器人,但没有一款能与 ChatGPT 相提并论。ChatGPT 能进行天马行空的长对话,可以回答问题,还能根据人们的要求撰写各种书面材 料,例如商业计划书、广告宣传材料、诗歌、笑话、计算机代码和电影剧本等。
正是由于 ChatGPT 优秀的使用体验,使得其用户量获得了快速增长,发布短短 5 天,其用户数就超过 100 万,而 Facebook 获得 100 万用户,则用了整整 10 个月。 2023 年 1 月,ChatGPT 的月活跃用户数预计已达 1 亿,成为历史上用户增长最快的 消费应用。相比之下,达到 1 亿月活跃用户数,TikTok 花了约 9 个月的时间, Instagram 则花了两年半。在高技术力、优质体验、巨大客户群的背景下,ChatGPT 背后的模型公司 OpenAI 开始对科技公司产生巨大的冲击,而首当其冲的就是搜索领 域的各大巨头。 在 ChatGPT 发布的第一天,就有生成式 AI 将取代搜索引擎的声音出现。ChatGPT 虽 然常常被用于信息查找,但它本质上属于 AIGC(人工智能生产内容),是一种文本 创造方式;而搜索引擎的思路是信息查找与整合,无法创造文本。也正由于这一特 点,ChatGPT 能够给出更加“人性化”的交互问答服务。
ChatGPT 相对于传统搜索引擎具有难以替代的优势。输入端,ChatGPT 能够通过文本 对话的方式与用户进行深入交流,从而更加明确用户需求,给出恰当的回复;相较 之下,用户使用传统搜索引擎只能通过反复修改搜索关键词进行深入查找,过程繁 复,且常常很难得到满意的回复。输出端,ChatGPT 更贴近“人性化”的输出,通过 生成文本的方式模拟对话给出确定的答案;传统搜索引擎更贴近“搜索”,只能给出 大量网站链接,需要用户自行甄别信息。 这就使得,ChatGPT 可能对搜索带来一个重大变化:用户将会转向聊天机器人寻求 帮助,而不是通过谷歌提供的网站进行过滤。ChatGPT 有可能改变用户的搜索方 式。与用户在搜索引擎(谷歌)中尝试许多不同的搜索词并查看结果列表(和广 告)不同,大型语言模型可以做不同的事情。用户可以用正常的句子问语言模型一 个问题,它可以用一段漂亮的文字进行总结,并提供使用过的源网页链接。这种方 法的优点是用户不再需要阅读长长的结果列表,可预计在搜索领域,ChatGPT 带来 了一个破坏性创新,有望颠覆整个搜索领域的商业模式。
根据 Statcounter,截止 2023.01,谷歌在搜索引擎市场的市占率达到了 92.09%,但 是,一旦 ChatGPT 对“搜索”这一行为所带来的破坏性创新不断被用户接受,未来可 能用户都不会再去使用“搜索引擎”去进行“搜索”这一行为了,就类似马车被汽车替 换一样,虽然初期汽车不如马车,但是随着不断完善,汽车将最终替代马车,即使 某家公司在马车领域市占率再高,但是马车市场的空间将不断缩减直至最终消失。 对于谷歌来说,即使在搜索引擎领域,谷歌的市占率再高,但是如果 ChatGPT 使得 整个搜索引擎市场的流量将不断下降,这对于 2022Q4 广告营收(主要来源于巨大 流量)占比高达 78%的 Alphabet 来说,将会带来巨大的冲击。
同时,从技术上来讲,ChatGPT 也可能会降低搜索引擎的门槛。谷歌搜索分很多 层,从最开始的用户关键词输入到最后的信息提取,中间有一步叫做用户的关键词 改写,因为用户的关键词可能是比较模糊,改写就能够把这个关键词变得更清楚, 然后变成一个更加方便去提取信息的方式。如果中间的这一层让各个搜索公司自己 管理,但是这些中间层最后都指向 ChatGPT,那么搜索引擎这一个业务的门槛就会 降低,任何一个想做搜索的公司都可以基于 ChatGPT 开发自己的搜索引擎。 从 Alphabet 目前的反应来看,也能看出 ChatGPT 对于谷歌造成的冲击。在围绕谷歌 AI 战略的会议中,谷歌 CEO 桑达尔·皮查伊要求公司重新集中精力解决 ChatGPT 对其 搜索引擎业务构成的威胁。近日,有消息称,谷歌正在测试一款类似 ChatGPT 的聊 天机器人 Apprentice Bard,该产品基于谷歌对话模型 LaMDA,员工可以向其提问并 获得类似 ChatGPT 的详细答案。据悉,即便近期刚发生的事,Apprentice Bard 也能 回答出来。
2 月 2 日,桑达尔·皮查更是表示,该公司很快将在其搜索引擎中添加高级人工智能 功能。他预计,谷歌将在“未来几周或几个月”推出类似 ChatGPT 的基于人工智能的 大型语言模型。皮查伊在财报电话会议上透露,用户很快就能以“搜索伴侣”的形式 使用语言模型。他说,“很快,人们将能够直接与我们最新、最强大的语言模型互 动,作为搜索的伴侣,以实验和创新的方式。”“人工智能是我们目前正在研究的最 深刻的技术。我们的人工智能之旅才刚刚开始,最好的还在后面。”他补充说。 谷歌更是早在 2022 年 12 月就发布了“红色代码”,以紧急应对 ChatGPT 的崛起所带 来的威胁。谷歌也正在要求员工测试 ChatGPT 的竞争对手,作为“红色代码”计划的 一部分。 而中国的百度,同样也意识到了 ChatGPT 所带来的巨大挑战。
从 MaaS 整个的产业结构来看,核心应该是“模型→单点工具→应用场景”这样一个路 径。 以 ChatGPT 为例,其所用的底层模型就是 GPT-4,而产生出的单点工具就是 ChatGPT,最终 ChatGPT 又能落地在对话、撰写书面材料、修改代码等多个细分的应 用场景。
通过这三大模型系统,其他公司可以通过调用 API 实现自身 AI 产品的创造。以 DALL·E 为例,开发人员可以通过 OpenAI 的 API 将 DALL·E 直接集成到他们的应用程序 和产品中。超过 300 万人已经在使用 DALL·E 来扩展他们的创造力并加快他们的工作 流程,每天生成超过 400 万张图像。开发人员可以在几分钟内开始使用相同的技术 进行构建自己的产品。 又例如商汤科技,旗下的 AIDC 就是商汤的大模型。在 WAIC 2022 上,商汤在 AI 大 装置基础上衍生出四大平台体系:大装置 AI 云、车路协同、游戏、未来医院。 SenseCore 商汤大装置 AI 云是基于 AI 大装置的一套开箱即用的工业级 AI 工具链,而 另外三大平台可以理解为商汤“裁剪”出的行业大模型。大装置 AI 云无需前期投入, 从工业 AI 流水线到大模型训练、验证、推理,它都能成倍提高研发效率,基础设施 费用就大大降低。
单点工具往往是基于大模型产生的能实际应用的产品,例如 ChatGPT,它就是在 GPT-3.5 模型的基础上,产生出的能“对话”的 AI 系统。 除了 ChatGPT 以外,也有许多类似的单点工具存在,例如 Jasper,其是一个内容写 作工具,它使用人工智能为用户编写内容。它基于开源的 GPT-3 模型(同样为 OpenAI 出品),Jasper 声称可以创造 100%的原创内容,还整合了著名的原创检测的 工具 Copyscape。它也可以帮助重写用户不满意的段落,或纠正用户的语法。
又例如商汤科技基于自身“大装置+大模型”推出的 OpenXRLab 扩展现实平台,也是 一个单点工具。 该平台拥有领先算法,结合大量真人动作数据,商汤打造了一套基于深度学习的动 作捕捉及生成解决方案。该方案适配性强、自由度高、易于部署、无需绿幕和专业 动捕设备,即可高效率、低成本地实现 AIGC 内容生成。即便在日常直播等低算力设 备应用场景,也可进行流畅、高精度的视频创作和实时互动。该方案还可配套提供 用于虚拟 IP 生成的大规模、高质量、语义化的 3D 动作库,供企业进行数字人相关 的自主高效创作,从而满足企业在虚拟 IP 内容定制、直播运营等活动中的广泛需 求。结合企业品牌符号、标签等元素,商汤“虚拟 IP 解决方案”可智能生成符合品牌 性格和调性的专属形象,让品牌形象更年轻、更鲜活、更具辨识度和记忆点,打破 刻板印象,拉近与用户的距离。
虽说目前仍没有出现适合所有应用场景的“全能共通性”模型,但是单个大模型覆盖 的应用场景仍在持续扩展。 以商汤科技的“书生”大模型为例,一个“书生”基模型即可全面覆盖分类、目标检 测、语义分割、深度估计四大视觉核心任务。在 ImageNet 等 26 个最具代表性的下 游场景中,书生模型广泛展现了很强的通用性,显著提升了这些视觉场景中长尾小 样本设定下的性能。
又例如 GPT 模型系列,该模型本身是一种基于互联网可用数据训练的文本生成深度 学习模型,但是该模型的产品,如 ChatGPT、Jasper 等,目前应用场景却持续扩展。 例如,Jasper 虽然是文本书写工具,但是内置了 50 多个模板,适用于广告,博客, 电商,邮件,SEO,视频,网站等多种使用场景。而 ChatGPT 作为对话式 AI 程序, 其使用范围目前更是得到了很大的扩展,修改代码、撰写文字、搜索资源等等,已 经成为了重要生产力工具之一。 可以预见,随着未来大模型的发展持续进行,大模型以及其产生的产品的应用场景 将会持续扩展。
此前推出的 ChatGPT 版本被 OpenAI 称为 Research Preview Launch(研究预览版)。 ChatGPT 推出一周,即收获 100 万注册用户,2023 年 1 月,ChatGPT 的活跃用户数 或已达 1 亿,它可能是史上增长最快的消费者应用,但这也导致了许多问题,上线 首周 ChatGPT 就多次因用户访问量过大导致服务器崩溃。此后为了应对访问量过大 而导致的服务器压力,OpenAI 对 ChatGPT 进行了大规模限流,包括禁止来自云服务 器的访问,限制每小时的提问数量,以及高峰时段排队等举措。可以看出, ChatGPT Plus 有效的改善了目前免费版面临的诸多痛点。 OpenAI 在声明中表示,ChatGPT Plus 将在未来几周率先在美国推出,之后尽快推行 至其他国家。公司表示,有兴趣的用户可以注册 ChatGPT Plus 的等待名单,未来几 周会发出邀请。
目前 ChatGPT 已经成为一款重要的生产力工具,被广大用户证明,可以写文案、写 小说,写代码、改 bug、查资料,还能帮忙对资料进行归纳总结。所以,收费版的 ChatGPT Plus 的确拥有广泛的市场空间。我们可以做一个简单的计算,假设在目前 的 1 亿用户中,有 30%愿意付费,按照年付费 240 美元计算,年收费就能达到 72 亿 美元,如果未来 ChatGPT 作为能够对标 office 的生产工具,付费用户数突破 10 亿 人,市场将达到 2000 亿美元以上,而且这还仅仅是按照目前 20 美元一个月的收费 来计算的,并没有考虑未来公司可能推出更高价格的订阅计划等,而如果加上未来 可能存在的广告等盈利方法,整个市场空间将会更加广阔。 其实,就在之前,有网友就发现 OpenAI 似乎在内测另一付费版 ChatGPT—— “ChatGPT Pro”,而这一计划的收费更是高达每月 42 美元。虽然这一计划最终未能正 式发布,但是也不排除未来 OpenAI 针对 ChatGPT 推出更多价位的不同计划。
而除了 ChatGPT,其他 MaaS 公司同样推出了许多商业订阅计划。以类似的 AI 聊天 公司 Jasper 为例,该公司产品 Jasper 以 GPT-3(同样为 OpenAI 产品,但已经开源) 为基座,通过在底层调用 GPT-3 模型研发出属于自己的文本生成 AI 模型,并推出了 多项订阅服务。 其中,订阅服务的收费主要分为三档:Starter 档的收费标准 29 美元月起,更为常用 的 Boss Mode 会员则是 59 美元/月起,另外还有更高昂的企业级收费。
即使是 59 美元/月的 Boss Mode 最基础档,其也只提供 5 万字/月的服务,对比 ChatGPT 不限量的生成字数,我们认为,ChatGPT 这类产品的订阅收费未来的天花板 远不止 20 美元,这背后自然是更为广阔的蓝海市场。
而除了模型本身进行订阅收费以外,MaaS 目前也在积极尝试其他各类收费模式。 例如,2 月 1 日,微软也宣布推出其视频会议及远程协作平台的高级付费版 Microsoft Teams Premium,这项高级服务将在 6 月份每月收费 7 美元,然后在 7 月 份恢复到正常的 10 美元。 订阅者可享用由 OpenAI GPT-3.5(支撑 ChatGPT 的底层模型)提供支持的大型语言 模型技术,即“智能回顾(Intelligent Recap)”这一重要功能,该功能将提供自动生 成的会议记录、推荐任务和个性化标亮。
基于 OpenAI 的 GPT-3.5 模型,即使用户没有参加会议,「智能回顾」也能生成会议 记录和要点。当会议在尴尬的时间举行时,或者当员工在不同的时区以及不在办公 室时,这项功能使紧张的工作变得更容易了。笔记、提到的内容和完整的文字记录 都是可用的,每个发言者的贡献都会在一个整齐的主题和章节的时间轴上突出显 示。 如果有同事在会议中提到用户,用户还会得到个性化的时间线标记,以快速查看分 享和讨论的内容。虽然大多数智能回顾功能目前已经可以使用,但微软表示有些功 能要到 2023 年第二季度才会出现。 此外,2 月 2 日,微软旗下 Dynamics 365 产品线(ERP+CRM 程序)发布视频,宣布 旗下客户关系管理软件 Viva Sales 也将集成 OpenAI 的技术,通过人工智能帮助销售 人员完成许多繁杂且重复的文字工作。
利用 OpenAI 的 GPT-3.5 模型,Viva Sales 可以为电子邮件里客户的问题生成回复建 议。该产品在 Outlook 电子邮件客户端中提供了创建特定回复的选项。例如,销售 人员可以从“提供折扣”(Offer a discount)、“回复询问”(Reply to an inquiry)或“自 行创建”(Suggest your own)等选项中进行选择,然后人工智能将创建可使用的内 容。AI 程序从客户记录和 Office 电子邮件软件中提取数据,将它们用于生成个性化 文本、定价细节和促销信息的电子邮件。
仍以 OpenAI 为例,在推出 ChatGPT 以前,其主要收入来源于对外部客户开源自身大 模型,通过提供 API 接口调用来收费。 例如用于创建和编辑原始图像的 DALL·E 模型,就有大量对 AI 生成图像这一功能存在 需求的公司选择调用该模型制造自身的产品,如 Mixtiles,其是一家发展迅速的照片 创业公司,其利用 DALL·E API 来创建和构建能引起情感共鸣的艺术品(图片),通 过引导用户完成捕捉童年记忆、梦想目的地等的创作过程。
而 CALA 同样调用了 DALL.E 模型,但是 CALA 作为数字平台,将整个设计流程——从 产品构思一直到电子商务支持和订单履行统一到了一起,DALL.E 仅在这一流程中起 到了支持作用,使得 CALA 的智能工具允许用户从自然文本描述或上传的参考图像中 生成新的设计理念图。
可以看出,相较于 Mixtiles,CALA 对于 DALL.E 模型的应用更偏商业,对于细节的要 求也更高,那在这种情况下,CALA 和 Mixtiles 两者调用 DALL.E 模型的收费肯定是有 所不同的。
而这都是针对图像生成模型DALL.E,而文本生成模型的GPT-3,其收费肯定跟 DALL.E 又有许多的不同。又比如,前文提及的 Jasper 对于 GPT-3 的调用是需要收取费用 的,如果未来的 GPT-4 恢复对外商用,那么作为比 GPT-3 更强大的模型,相信其的 收费也会高于调用 GPT-3。 总结来说,不同的 Model 应对不同的客户需求和客户定价肯定也会有所不同,客户 的要求越高,使用的模型越好,那么大模型的收费也将会更高。
商汤科技拥有深厚的学术积累,并长期投入于原创技术研究,不断增强行业领先的 全栈式人工智能能力,涵盖感知智能、决策智能、智能内容生成和智能内容增强等 关键技术领域,同时包含 AI 芯片、AI 传感器及 AI 算力基础设施在内的关键能力。 此外,商汤前瞻性打造新型人工智能基础设施——SenseCore 商汤 AI 大装置,打通算 力、算法和平台,大幅降低人工智能生产要素价格,实现高效率、低成本、规模化 的 AI 创新和落地,进而打通商业价值闭环,解决长尾应用问题,推动人工智能进入 工业化发展阶段。商汤科技业务涵盖智慧商业、智慧城市、智慧生活、智能汽车四 大板块,相关产品与解决方案深受客户与合作伙伴好评。 近年来人工智能已经迈入到一个新的阶段,即现在正在进入一个超大模型的时代, 超大模型的训练 pipeline,需要相当大的算力支撑,而这恰恰是商汤的优势所在。 2022 年 1 月 24 日,商汤人工智能计算中心 AIDC 正式启动运营。AIDC 是 SenseCore 商汤 AI 大装置的重要算力基座,其设计峰值算力超过 3740 Petaflops,是亚洲最大的 人工智能计算中心之一。商汤人工智能计算中心 AIDC 配合商汤自研的资源管理和调 度框架,能够实现资源支持按需调用、动态伸缩,从而在模型训练中,支持不同优 先级训练任务的资源调度和资源抢占。
区别于“AI 模型”小作坊式的打造,AI 大装置更像流水线工厂,可以实现不同场景的 算法模型的底层抽象,以模块化平台套件打造通用型服务平台。特别是针对 AI 落地 中更长尾的客户和场景,能够在组合不同算法套件的基础上完成新场景的定制,以 低边际成本实现对新场景的规模化覆盖。并且商汤基于 AI 平台基础设施的系统协同 性,可以以半自动化、自适应的方式,就能实现批量的算法模型生产和迭代升级。 对于商汤来讲,一方面商汤的超算中心有大量的算力支撑,能够更有效做数据挖 掘。另一方面是有超大模型,能够快速生成高精度的伪标签,以及赋能业务端的模 型。这样在超大模型跟超算中心的加持下,可以更好地解决这些数据闭环里特定场 景的问题。截至 2021 年中,商汤已建成世界上最大的计算模型,该模型拥有超过 300 亿个参数。这能够帮助公司实现快速模型迭代,从而为公司大模型在各行各业 的持续落地奠定坚实的基础。
云从科技成立于 2015 年,是一家提供高效人机协同操作系统和行业解决方案的人工 智能企业。公司一方面凭借着自主研发的人工智能核心技术打造了人机协同操作系 统,通过对业务数据、硬件设备和软件应用的全面连接,把握人工智能生态的核心 入口,为客户提供信息化、数字化和智能化的人工智能服务;另一方面,公司基于 人机协同操作系统,赋能智慧金融、智慧治理、智慧出行、智慧商业等应用场景, 为更广泛的客户群体提供以人工智能技术为核心的行业解决方案。公司秉持开放的 人机协同发展理念,与上下游独立硬件供应商、独立软件供应商、平台及行业应用 提供方共建共享。公司的人机协同操作系统一方面包括根据不同应用场景客户需求 提供的多种人机协同应用产品和整体操作系统,服务于客户单点业务效能提升和整 体业务场景智能化升级;另一方面也包括轻量化且功能全面的“轻舟平台”(即通用 服务平台),通过开放式地引入生态伙伴共同开发 AI 应用及配套 SaaS 服务,使人 工智能服务惠及更广泛的各行业客户。根据财经网,全世界 AI 头部公司基本都在 10 亿以上收入水平,中国 AI 领域平台型企业只有 2-3 家。公司同时满足了“10 亿收入” 与“平台型企业”,作为业内稀缺的 AI 平台型龙头企业,未来发展前景广阔。
公司的研究团队高度认同“预训练大模型+下游任务迁移”的技术趋势,从 2020 年开 始,已经陆续在 NLP、OCR、机器视觉、语音等多个领域开展预训练大模型的实 践,不仅进一步提升了公司各项核心算法的性能效果,同时也大幅提升了公司的算 法生产效率,已经在城市治理、金融、智能制造等行业应用中体现价值;其次,公 司一直以来都在人机协同领域布局,打造了像人一样思考和工作的人机协同操作系 统(CWOS),致力于整合打通视觉、语音、NLP 等多个领域的大模型,不止于像 ChatGPT 那样在文本世界实现超级智能,还要彻底打通数字世界和物理世界,为“像 人一样思考和工作”打下坚实的技术基础;公司也通过开放的人机协同操作系统实现 了技术平台化,加上多年的行业深耕,能够通过“平台化的通用模型+带行业 knowhow 的专用模型”来帮助各行各业快速实现智能化升级。公司认为,大模型给 AI 行业带来了巨大的想象空间和市场机会,也是公司的巨大想象空间和市场机会。
此外,根据公司招股说明书,公司的股权结构全由内资组成,而纯内资的背景和技 术实力的领先,也使得公司承担了多项国家级项目。2022 年 10 月,科技部正式批 复了最新一批国家人工智能开放创新平台名单,支持云从科技建设视听交互国家新 一代人工智能开放创新平台,这是人工智能行业第一个融合多种技术的智能交互平 台。此次云从科技承建该平台也是继国家发改委“人工智能基础资源公共服务平台” 和“高准确度人脸识别系统产业化及应用项目”之后的又一国家级重大项目建设任 务。这是云从科技全力打造的人机协同操作系统重要组成部分,根据规划,平台总 体建设目标是要打造国际领先的视听交互支撑平台,形成视听交互技术创新领域的 策源地、成果转化的助推器和开放服务体制机制的试验田。在自主可控受重视度不 断提升的当下,公司这类纯内资的 AI 领军企业有望成为重要的 AI 基础设施提供商。
科大讯飞股份有限公司成立于 1999 年,是亚太地区知名的智能语音和人工智能上市 企业。自成立以来,一直从事智能语音、自然语言理解、计算机视觉等核心技术研 究并保持了国际前沿技术水平;积极推动人工智能产品和行业应用落地,致力让机 器“能听会说,能理解会思考”,用人工智能建设美好世界。作为技术创新型企业, 科大讯飞坚持源头核心技术创新,多次在语音识别、语音合成、机器翻译、图文识 别、图像理解、阅读理解、机器推理等各项国际评测中取得佳绩。两次荣获“国家科 技进步奖”及中国信息产业自主创新荣誉“信息产业重大技术发明奖”,被任命为中文 语音交互技术标准工作组组长单位,牵头制定中文语音技术标准。
科大讯飞坚持“平台+赛道”的发展战略。基于拥有自主知识产权的核心技术,2010 年,科大讯飞在业界发布以智能语音和人机交互为核心的人工智能开放平台——讯 飞开放平台,为开发者提供一站式人工智能解决方案。截至 2022 年 5 月 31 日,讯 飞开放平台已开放 493 项 AI 产品及能力,聚集超过 337.3 万开发者团队,总应用数 超过 150.1 万,累计覆盖终端设备数 35.1 亿+,AI 大学堂学员总量达到 69.9 万,链 接超过 420 万生态伙伴,以科大讯飞为中心的人工智能产业生态持续构建。科大讯 飞在智能语音和人工智能核心研究和产业化方面的突出成绩得到了社会各界和国内 外的广泛认可,作为“中国人工智能国家队”一员已形成共识。 2018 年起,预训练模型范式就逐步开始在自然语言处理领域应用,科大讯飞也正是 在那一时期推出了预训练模型。科大讯飞人工智能高级阶段——认知智能领域的首 个国家级重点实验室。2022 年在国家重点实验室重组后的首批 20 个国家标杆实验 室中,讯飞是唯一一家承建认知智能全国重点实验室。同时,讯飞面向认知智能领 域陆续开源了 6 大类、超过 40 个通用领域的系列中文预训练语言模型,开源 3 年模 型库月均调用量超 1000 万,成为业界最广泛流行的中文预训练模型之一,在 Github 平台的中文预训练模型的星标数达 13346 位列第一(第二名为 6351)。2022 年,讯 飞进一步发布了面向多模态领域的两个轻量级预训练模型,实现多尺度层级预训 练、有监督强化聚类表征、多预训练任务联合优化框架等创新点,在参数量远小于 业界公开模型(参数量小 20 倍以上)的情况下识别效果提升了 20~30%,效果上实 现了业界领先,同时也获得全球多模态阅读理解评测冠军等优异成绩。
公司有信心在预训练认知智能大模型上代表中国实现突破。首先,科大讯飞承建了 中国唯一的认知智能国家重点实验室,具备算法实现和持续创新的能力,已经在众 多国际比赛中夺得冠军;其次,公司的训练服务器、推理服务器在国产自主平台运 行至关重要+;第三,预训练模型在专业领域,诸如在教育领域,医疗领域,如果 能够和行业场景深度结合,潜在商业价值的机会空间巨大。
2021 年 12 月,百度发布了全球首个知识增强千亿级大模型——鹏城-百度·文心大模 型,产业级知识增强“文心大模型”系列大模型也正式对外。百度文心大模型正从技 术自主创新和加速产业应用两方面,推动中国 AI 发展更进一步。 2022 年 11 月,百度发布了文心大模型的最新升级,包括新增 11 个大模型,大模型 总量增至 36 个,构建起业界规模最大的产业大模型体系,并通过大模型工具与平台 的升级和文心一格、文心百中等基于大模型技术的产品应用,进一步降低大模型产 业化门槛,让更多企业和开发者步入 AI 应用的新阶段。
目前,文心大模型已经拥有了: 文心·NLP 大模型:面向语言理解、语言生成等 NLP 场景,具备超强语言理解能力以 及对话生成、文学创作等能力。 文心·CV 大模型:基于领先的视觉技术,利用海量的图像、视频等数据,为企业和 开发者提供强大的视觉基础模型,以及一整套视觉任务定制与应用能力。 文心·跨模态大模型:基于知识增强的跨模态语义理解关键技术,可实现跨模态检 索、图文生成、图片文档的信息抽取等应用的快速搭建,落实产业智能化转型的 AI 助力。 文心·生物计算大模型:融合自监督和多任务学习,并将生物领域研究对象的特性融 入模型。构建面向化合物分子、蛋白分子的生物计算领域预训练模型,赋能生物医 药行业。 行业大模型:文心大模型与各行业企业联手,在通用大模型的基础上学习行业特色 数据与知识,建设行业 AI 基础设施。
为了让开发者更加方便、快速地使用大模型的最新能力,文心大模型工具与平台进 行了全面更新。在工具方面,文心大模型开发套件全面升级,发布行业大模型定制 工具,同时提供更加完备的场景化建模工具、更为丰富的模型精调工具,以及大模 型可信学习工具,让大模型开发训练更加灵活高效;文心 API 服务支持多种模型尺 寸的精调,体验专区提供更多可体验能力,同时基于大规模集群算力分布式推理加 速能力,可满足大规模高性能产业级调用。 飞桨(百度深度学习平台)企业版 AI 开发平台 EasyDL 和 BML 也围绕大模型的技术 应用进行了全新升级,发布了提供全流程开箱即用的大模型平台能力,加速大模型 的产业化落地。EasyDL 零门槛 AI 开发平台预置了各种通用任务场景大模型,可以让 AI 应用开发者获得更好的模型训练效果。在 BML 全功能 AI 开发平台上,端到端的 并行训练优化方案大幅提升了大模型训练性能;预置的基于大模型的场景模型生产 线,让开发者在主流的场景开箱即用,快速构建大模型场景应用;新增的自动化推 理服务监控能力,及时感知变化和问题,驱动反馈和迭代,让 AI 应用的高效迭代闭 环。
华为的大模型之路与其腾 AI 芯片有着密不可分的关系,腾 AI 芯片总共有两款,一个 是 2018 年发布的腾 310,它主要针对的是推理应用;另一个是 2019 年发布的针对 训练应用的腾 910,其也被称为算力最强的 AI 处理器。 而正是在昇腾 AI 芯片的支持下,华为与合作伙伴共同开启了大模型之路,华为通过 前期与业界伙伴的共同探索,开创了一条大模型产业化落地的新模式,即围绕某个 领域的大模型成立产学研用的产业联合体,打通科研创新到产业落地整个流程。这 样一来,大模型的创新既可以更准确地契合行业场景需求,又能够促进产业合作伙 伴直接基于大模型创新孵化行业应用。
ChatGPT 发布短短 5 天,其用户数就超过 100 万,而 Facebook 获得 100 万用户,则 用了整整 10 个月。 2023 年 1 月,ChatGPT 的月活跃用户数预计已达 1 亿,成为历 史上用户增长最快的消费应用。相比之下,达到 1 亿月活跃用户数,TikTok 花了约 9 个月的时间,Instagram 则花了两年半。OpenAI 在很短的时间内,就获得了广泛的 C 端用户群,而随着 ChatGPT Plus 这一收费项目的推出,可以说,OpenAI 已经成为 了 AIGC 在 C 端商业化落地的领军者。
1 月 23 日,OpenAI 正式在官方博客宣布,将扩展与微软的合作关系,微软将会对 OpenAI 进行一项为期多年、价值数十亿美元的投资,以加速其在人工智能(AI)领 域的技术突破。 根据声明:“过去,OpenAI 与微软合作构建了多个由 Azure 提供支持的超级计算系 统,用来训练 OpenAI 所有的模型。Azure 独特的架构设计对于为 OpenAI 的 AI 训练 和推理工作负载提供一流的性能和规模至关重要。微软将增加对这些系统的投资, 以加速 OpenAI 的独立研究,而 Azure 仍将是 OpenAI 研究、API 和产品中所有工作负 载的独家云提供商。”
除了上文介绍的 Microsoft Teams Premium、Viva Sales 以外,微软也在加速将大模型 融入其其他产品线 月,瑞士达沃斯论坛期间,微软 CEO 纳德拉就曾表示,AIGC 堪比工业,微软也将全线接入 ChatGPT。微软正在迅速推进 OpenAI 的工具商业 化,计划将包括 ChatGPT、DALL-E 等人工智能工具整合进微软旗下的所有产品中, 并将其作为平台供其他企业使用。这些产品包括且不限于 Bing 搜索引擎、包含 Word、PPT、Excel 的 Office 全家桶、Azure 云服务、Teams 聊天程序等等。 “我们将把它(ChatGPT)整合到我们自己的应用程序中,所以你完全可以期待。”纳 德拉在采访中提到,“微软的每个产品都将具有一些相同的 AI 功能,以彻底改变产 品。” 纳德拉表示,在微软产品中使用人工智能是该公司计划将其对 OpenAI 的早期 投资商业化的第三部分。第一部分是通过其 Azure 云计算平台访问 OpenAI 的工具, 这家科技巨头正在全面推出 Azure OpenAI 服务,此前在 2021 年 11 月首次亮相后, 首次允许有限数量的企业客户访问该服务;第二部分是将 OpenAI 的基础模型作为平 台提供,以便任何行业的任何实体都可以在其上构建组织。纳德拉强调,ChatGPT 和 GPT 模型是多年来和 OpenAI 深入合作下的产物。
谷歌是大模型领域的领军人之一,谷歌早在就 2018 年 10 月发布了 BERT 大模型,它 利用 BooksCorpus 和英文维基百科里纯文字的部分,无须标注数据,用设计的两个 自监督任务来做训练,训练好的模型通过微调在 11 个下游任务上实现最佳性能。 2021 年,在一篇学术论文中,Google AI 介绍了 Pathways 语言模型 (PaLM),这是一 个使用 Pathways 系统训练的 5400 亿参数、密集的 Transformer 模型,它使 我们能够有效地训练一个模型并跨越多个 TPU。Google AI 在数百个语言理解和生成 任务上对 PaLM 进行了评估,发现它在大多数任务中实现了最先进的小样本性能, 在许多情况下都有显着的优势。Pathways 系统通过 PaLM 训练的 5400 亿参数语言模 型进行了首次大规模使用演示,训练任务成功扩展到 6144 个芯片上,这是迄今为止 用于训练的最大基于 TPU 的系统配置。
在 PaLM 大模型的基础上,谷歌于 2022 年 12 月发布了 Med-PaLM 这一产品,首先, 谷歌研究院和 DeepMind 团队以医疗问答为研究对象,提出了一个医学问答基准 MultiMedQA,包括医学考试、医学研究和消费者医学问题;在 MultiMedQA 上评估 了 PaLM 及微调变体 Flan-PaLM;提出了指令提示 x 调整,让 Flan-PaLM 进一步与医 学接轨,最终产生了 Med-PaLM。 在经历一系列考核后,该模型被证实“几乎达到”了人类医生的水平。Med-PaLM 在科 学常识方面的正确率在 92%以上,在理解、检索和推理能力方面,也几乎达到了人 类医生的水平,并在克服隐性偏见方面略胜一筹。不过,该研究负责人也表示, Med-PaLM 给出的答案在整体上仍然不如临床医生,该模型在实际应用前有待进一 步完善。2022 年 8 月份,谷歌就将大型语言模型首次集成到机器人中,有了 AI 模型 的加持,机器人能像人类一样响应完整的命令。谷歌研究人员就此做了演示。当对 机器人说:“我饿了,你能给我点零食吗?”机器人在自助餐厅中搜索一番后,打开 了一个抽屉,找到一袋薯片并将它拿给研究人员。
面对 ChatGPT 的崛起,谷歌内部也在积极开发与 ChatGPT 类似的「Apprentice Bard」 AI 聊天系统。它便是基于 LaMDA 大模型,用户可在文本框中输入问题或提示,之后 就能得到文字答复。 据称谷歌已要求 LaMDA 团队把「Apprentice Bard」作为首要任务,并告诉他们不要 去参加无关的会议。在目前的示范样本中,「Apprentice Bard」给出的回答内容包 含了最近发生事件的信息,而这是认知基本停留在 2021 年之前的 ChatGPT 暂时还无 法做到的。 可以看出,虽然 ChatGPT 的发布的确领先了谷歌的步伐,但是谷歌过去在大模型领 域拥有深厚的积累,这些能力将帮助谷歌在未来较短的时间迎头赶上。
- 标签:科学探索的经典句子
- 编辑:刘卓
- 相关文章
-
人工智能行业专题报告:模型即服务
大模型,又称为预训练模型、基础模型等,是“大算力+强算法”结合的产物
-
【百个瞬间说百年】1965十年艰辛探索成就辉煌
从1956年到1966年全面建设社会主义的十年,是党对中国社会主义建设道路艰辛探索的十年,虽然经历曲折,仍然取得了无可否认的巨大成…
- 施一公述科学精神内涵:求真、独立和合作、质疑
- 《肉与灵》「异床同梦」的奇幻概念肉体说不要灵魂却很诚实
- 深刻理解新时代十年伟大变革的里程碑意义
- 39年前的邪典片徐锦江的成名作尺度大胆生猛被删减6分钟
- 新时代十年伟大变革的里程碑意义