ChatGPT火爆的背后 算法革新+算力支持+数据共振
ChatGPT火爆全球,成为现象级互联网产品
ChatGPT是一个由OpenAI开发的大型语言模型,它使用自然语言处理和深度学习技术,可以理解语言内容和语境,能够承认错 误、挑战不正确的前提、拒绝不适当的请求,通过生成自然语言文本的形式与用户交互,从而能够应用于各种语言任务和应用。
从AlphaGo到ChatGPT,AI技术发展叩响AGI之门
AlphaGo唤起AGI畅想。AlphaGo的成功使市场对AI 技术产生空前期待,预想AI将由专用人工智能(ANI)走 向通用人工智能(AGI),实现人类同等能力的任务执行。 AGI遇技术难关,发展相对停滞。随后几年间面向AGI 的应用和底层技术的发展不尽如人意,遇数据、能耗、 语义理解、可解释性等瓶颈,技术未出现明显突破。
ChatGPT文本交互能力更上一个台阶。ChatGPT在文字 创作与语言交互等方面的能力令人惊喜,一定程度上实 现了人类同等能力,提升读写效率,逐渐向AIGC靠近。 或为AGI实现带来曙光。虽然在大量用户体验下 ChatGPT仍暴露出部分反馈偏差问题,但验证了基于大 型语言模型(LLM)实现AGI具有可能性,重塑AI发展前景。
OpenAI商业化探索,B端流量收费与C端订阅收费并行
B端:提供API接口实施流量收费。 OpenAI向用户提供语言、图像、音频等不同类型模型的API 接口,通过用户使用模型的流量收费。其中ChatGPT对应API 由其背后的AI模型gpt-3.5-turbo提供支持。 此外,OpenAI还向用户提供嵌入模型和微调模型,支持用户 根据自定义需求进行模型定制。
C端:提供产品订阅服务收取费用。 OpenAI于2023年2月新推出ChatGPT Plus版本,对该版本的 使用者收取20美元/月的订阅费用。ChatGPT Plus版本较免费 公开使用的ChatGPT模型具有更快的响应速度,在应用高峰期 能更顺畅的使用模型,且订阅者能够优先使用新功能,以向 ChatGPT模型的深度用户提供更快捷的服务。
数字内容生产新方式 AIGC
AIGC:产业链逐步形成,玩家百花齐放,商业模式持续探索
以ChatGPT为代表的AIGC行业,上游主要包括数据供给方、算法/模型机构、创作者生态以及底层配合工具等, 中游主要包括文字、图像、音频、视频等数字内容的处理加工方,下游主要是各类数字内容分发平台、消费方及相关服务机构等。
文本生成:NLP重要任务标之一,神经网络生成法为主流趋势
文本生成(Text Generation)是自然语言处理(NLP)的重要任务之一,从非语言的表示生成人类可以理解的文本,文本→文本、 数据→文本都是文本生成任务关注的。
文本生成:Transformer架构实现并行处理,提升模型训练效率
RNN架构局限在于无法并行运算。RNN计算是有时序依赖的,需要用到前一个时间步或者后一个时间步的信息,这导致它难 以并行计算,只能串行计算。GPU的并行化能够大大加速计算过程,如果模型不能够并行计算,会导致运算速度很低。
Transformer架构引入Self-attention自注意力机制可取代RNN。2017年,Google发布《Attention is All You Need》Transformer模型通过采用Self-Attention 自注意力机制,完全抛弃了传统RNN在水平方向的传播,只在垂直方向上传播,只需要不断 叠加Self-Attention层即可。这样,每一层的计算都可以并行进行,可以使用GPU进行加速。
音频生成:TTS应用发展成熟,AI乐曲创作未来可期
音频生成主要应用于流行歌曲、乐曲、有声书的内容创作,以及视频、游戏、影视等领域的配乐创作,目前在众多场景已获 初步发展,在部分场景已广泛应用、趋于成熟。常见音频生成中,TTS文字转语音是最普遍使用的落地应用,而创意性音频 生成有助于激发创作者灵感,促进乐曲二创、辅助编曲。
图像生成:从GAN到Diffusion,技术持续迭代,能力更进一竿
生成式对抗网络(GAN)的提出标志着AIGC图像生成可实现,进入快速发展阶段。GAN由生成器和判别器两部分组成,生成器 将抓取数据、产生新的生成数据,并将其混入原始数据中送交判别器区分。这一过程将反复进行,直到判别器无法以超50%的 准确度分辨出真实样本。
扩散模型(Diffusion Model)成为图像生成领域的重要发现,有望超越GAN,成为新一代图像生成主流模型。Diffusion Model在 2015年被提出,于2020年在Denoising Diffusion Probabilistic Models研究中名声大噪,目前Google的Imagine与OpenAI的 DALL·E 2等热门图像生成软件都基于此模型。
Diffusion Model简化模型训练过程中数据处理的难度,解决了GAN稳定性问题,提高生成图片的质量。Diffusion模型的工作 原理是通过逐渐添加高斯噪声来破坏训练数据。通过一张神经网络“生成器”来进行逆转破坏过程(去噪),从纯噪声中合成数据, 直到产生干净的样本。GAN模型在训练过程中需要两张神经网络“生成器”与“判别器”,稳定性很难平衡,而Diffusion Model只有 一张神经网络,解决了稳定性问题,同时简化了数据处理过程,且更加灵活。
图像生成:图像属性编辑普遍应用,创意图像生成应用落地较少
图像生成可简要划分为图像属性编辑、图像局部生成及更改、以及端到端的图像生成。其中,前两者的落地场景为图像编辑工 具,而端到端的图像生成则对应创意图像及功能性图像生成两大落地场景。图像属性编辑大量应用落地,图像局部生成及更高 目前有部分应用落地,端到端图像生成底层原理明确,未来有望规模化应用。
由于图像的生成复杂度远高于文字,在整体生成上,目前仍然难以达到稳定可靠的生成高质量图像。但随着GAN、Diffusion Model等模型的不断迭代,图像生成发展将非常快速。
视频生成:分帧生成图像连接成视频,视频属性编辑已普遍应用
视频生成强调将视频切割成帧,再对每一帧的图像进行处理,与图像生成原理类似。视频生成难度远高于图像生成,生成视频 的质量与流畅度取决于很多因素,包括数据集规模、训练模型复杂度、特征提取准确性以及合成视频算法有效性;由于模型训 练量要求过大,目前模型只能实现几秒钟的短视频生成,未来有望随着模型的迭代实现中视频和长视频的生成。 视频生成应用场景主要包括视频属性编辑、视频自动剪辑、视频部分编辑,前者已大量应用,后两者还处于技术尝试阶段。
跨模态生成:目前未大规模落地,文字生成图像取得突破
跨模态生成是指将一种模态转换成另一种模态,同时保持模态间语义一致性。主要集中在文字生成图片、文字生成视频及图片 /视频生成文字。 文字生成图片:2022年被称为“AI绘画“之年,多款模型软件证明基于文字提示得到效果良好的图画的可行性,Diffusion Model受到广泛关注。 文字生成视频:普遍以Token为中介,关联文本和图像生成,逐帧生成所需图片,最后逐帧生成完整视频。但由于视频生成会面临不同帧之间连 续性的问题,对生成图像间的长序列建模问题要求更高,以确保视频整体连贯流程。按技术生成难度和生成内容,可区分为拼凑式生成和完全从 头生成。 图片/视频生成文字:具体应用包括视觉问答系统、配字幕、标题生成等,这一技术还将有助于文本—图像之间的跨模态搜索。代表模型包括 METER、ALIGN等。
策略生成:主要应用展望在游戏行业,其余场景发展较缓
策略生成是指生成一个可以在给定环境下执行任务的算法。普遍采用深度强化学习技术(早期曾采用决策树及监督学习),其本 质原理是让AI感知环境、自身状态并基于特定目标决定当下需要执行的动作,然后基于下一个状态给到系统的反馈进行奖励或 惩罚,最终使系统在不断的“强化”过程中优化“策略”。 策略生成可应用于游戏智能(Game AI)、虚拟人交互、机器人控制、智慧交通等领域。 游戏智能是决策生成目前应用最为广泛和明确的场景。由于游戏本身存在于计算机虚拟环境,并产生大量数据,因此游戏本身 为AI提供了极佳的研发场景;而在其他业务场景中,还需先搭建能够充分还原现实因素的虚拟环境,并合理设置Reward等关 键因素,目前距离现实应用较远。国内多家AI企业已在尝试这一方向,但如何精准完成环境学习仍然具有关键意义。
新时代生产力工具, AIGC赋能内容生产
AIGC+游戏:高效辅助游戏测试,保证质量并降低成本
游戏测试通常是游戏开发周期中的一大关键 环节,其目的是保证游戏质量,减少发布后 的风险,并为玩家提供更好的游戏体验。在 游戏测试中,测试人员将会对不同的测试目 标使用不同的测试技术,就游戏玩法、游戏 流程内容、游戏系统、机型适配等进行测试, 记录游戏中发现的问题,并通过管理工具报 告Bug,向开发人员反馈问题。
伴随游戏生产量的增长以及游戏复杂度的提 高,游戏测试的需求爆发,而AI可以在游戏 测试中执行一些自动化任务,如执行基本的 功能测试、性能测试、兼容性测试等,以实 现更高效地测试。但AI目前还无法像人类测 试人员那样进行用户体验、情感反馈等测试。
AIGC+广告营销:加快案头工作效率,提供广告营销思路
AI技术支持能快速缩短耗时,较大提升前期准备效率。前期准备过程中时间占比70%的资料收集整理等案头工作可通过ChatGPT等模型抓取大数据缩短耗时;占比20%的调研访谈、头 脑风暴产生灵感等创意工作可以通过AI运算快速实现。
AIGC+互联网:AIGC激活内容平台,互为供给加速发展
互联网内容平台将作为重要数据来源。图文 内容社区的内容库可以作为大语言模型的语 料库,提高模型自主学习和深度挖掘能力。 这样,无论是知乎用户10年前的回答,还是 小红书用户的冷门笔记,抑或是豆瓣上的海 量书评、影评,都可以被AI有效地检索、利 用和生成,展现出新的价值。
AIGC将成为平台重要的内容形式。AI技术 将显著降低内容制作门槛,提高内容制作效 率,增加内容供给,如今已有不少内容创作 者利用AI辅助生成图文,视频及音频内容, 同时也有AI直接生成的内容,未来AIGC有望 成为内容平台供给的重要形式。
AIGC+娱乐:开启元宇宙之匙,基础设施拔地而起
AIGC在元宇宙内容生产方面发挥了重要作用:元宇宙旨在构建用户的第二空间,为了让用户获得沉 浸式的体验,内容生产者需要提供各种类型的虚拟内容。与第一空间不同的是,元宇宙内的内容是 原生的,能够刺激用户的全感官。在这样的背景下,仅靠PGC和UGC产生的内容数量远远不足以支 撑一个完整的第二空间。因此,AI协助内容生产成为必然趋势。大量个性化、多元化的数字内容将 显著提升用户体验。
数字人是元宇宙的关键要素:数字人是元宇宙中最早落地的应用场景之一,也是连接用户情感与VR、 AR等硬件设备的交互中介。如果AR/VR看作是元宇宙的入口,在元宇宙中占据核心位置,那么数字 人可被看作是元宇宙的关键要素。
AIGC是元宇宙中用户交互界面的重要组成部分:在元宇宙中,智能NPC可以由AIGC生成并驱动,而 ChatGPT则可以作为语言模型集成到智能体中,使它们成为元宇宙中逼真的虚拟助手或伙伴,能够执 行“智能”动作和复杂任务。
报告节选:
(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)
精选报告来源:【未来智库】。