不可否认的是,当前GPT-4在诸多能力上得到了很大提高。和GPT-3.5相比,GPT-4在复杂专业领域的性能表现大幅提升,逻辑推理能力也更强,其在美国律师资格考试测试中,GPT-4的成绩可以达到前10%,但GPT-3.5只能达到后10%的水平。
图源:Open AI
能力的大幅度提高,也让Chat GPT正开拓更多的使用场景。目前Open AI官方也给出了几大应用场景,如在Duolingo里加入AI与用户进行日常聊天,加速用户对语言的学习;摩根士丹利采用GPT-4来对其知识库进行管理,帮助员工快速访问想要的内容。
但针对GPT目前的能力,也有不少大佬存在质疑。斯图尔特·罗素在演讲中指出,Chat GPT和GPT-4他们并不理解世界,也没有在“回答”问题,目前的大语言模型仅仅只是一块拼图,这个拼图目前缺少哪些以及最终会拼成什么样,这些均不确定。诸多能力上的欠缺,也决定了发展通用人工智能还有很长的路要走。基于对GPT-4能力的种种质疑,也让斯图尔特·罗素在Sam Altman在演讲期间全程在修改PPT。
图源:智源大会
和斯图尔特·罗素持有相同观点的也有来自图灵奖”得主、“深度学习三巨头”之一、Meta首席人工智能科学家杨立昆。他认为,当前GPT的自回归模型因缺乏规划,导致其推理能力目前整体不行。若单纯根据概率生成自回归的大语言模型从本质上根本无法解决幻觉,错误的问题。在输入文本增大的时候,错误的概率也会呈指数增加。
事实上,两位大佬对GPT的指责并非不是没有道理。因Chat GPT所使用的RLHF算法,本身就是借助人类的感知,让模型判断自己的答案质量,训练自己逐步给出更高质量的回答。若想要让模型的推理能力得以提高的话,则需要在补充数据库大量参数的同时,对算法也要进行不断迭代。
图源:西南证券
但各种风险的存在,也让众多生成式AI公司并不敢轻易尝试。若生成式AI能到达和小说作家一样的具备故事推理能力,以及人物情感创造能力,这是否会让生成式AI完全脱离人类的控制呢?这在引发全球恐慌的同时,又是否会遭遇来自当地政府的强监管,进而让生成式AI此前的投入付诸东流呢?
针对未来生成式AI的发展方向,杨立昆给出的答案是世界模型。这个世界模型不单单是神经水平上模仿人脑的模型,而是在认知模块上也完全贴合人脑分区的世界模型,它与大语言模型最大的差别在于可以有规划和预测能力(世界模型)以及成本核算能力(成本模块)。
借助世界模型能够更好地理解这个世界并预测和规划未来,通过成本核算模块,结合一个简单的需求(一定按照最节约行动成本的逻辑去规划未来),它就可以杜绝一切潜在的毒害和不可靠性。
图源:智源大会
但问题是世界模型在训练期间的参数、算法、成本等等问题,杨立昆也只是简单地给出了一些战略级想法。比如采用自监督模型去训练以及建立多层级的思维模式等等,但对于具体如何落地,杨立昆也无法给出一个完整的方案。
而其他参会嘉宾对于未来生成式AI的发展方向,也并没有分享自己的看法。因此,后续生成式AI仍将维持各家“各自为政”的局面,全球统一的生成式AI或许也只能停留在实验室阶段。
03.
国内生成式AI预测
智源研究院院长黄铁军教授在会后接受媒体采访时说,当前国内生成式AI大模型存在的问题是行业过热,但训练数据过小,现在百亿模型也只是刚刚涌现能力。虽然中间也都有一些技术能力,但因重复性发力,这在让行业资源愈发分散的同时,其智能水平和国外生成式AI大模型相比,仍有一定差距。
如黄铁军教授所言,以阿里旗下的“通义千问”大模型为例,因该大模型训练时的数据是从阿里旗下的淘宝、支付宝、天猫等产业中抽取的大量中文对话和文本数据,以及一些其他来源的文本数据,其前期训练数据量是约2000亿个词,相当于14TB的文本数据。
而Chat GPT的训练数据量是约45亿个词,相当于300GB的文本数据。训练数据的相对较小,让阿里的“通义千问”也欠缺多模态能力,在文字方面上来看二者均和GPT-4有较大差距。
另据InfoQ 研究中心发布的《大语言模型综合能力测评报告2023》数据显示,目前Chat GPT以77.13%的综合得分领先于国内其他的大模型厂商。
图源:《大语言模型综合能力测评报告2023》
同时,黄铁军教授也指出,今天的大模型都是技术迭代的一个中间产品,随着后续国内大模型行业的发展,未来能够存活的大模型生态合理数量为3个左右。
正如黄铁军教授所说,此前马化腾在腾讯内部的高层会议上曾指出,未来十年C端市场红利将消失殆尽,整个希望在ToB端市场,互联网的下半场则属于产业互联网。阿里商业研究院此前也指出,未来十年是传统企业转型的黄金风口。
但从ToB端市场来看,以发展多年的SaaS市场作为参考,大模型若想要真正打开ToB端市场,其核心一定是要客户带来“降本增效”的价值,尤其是在当前不少行业对大模型仍保持观望的情况下更是如此。以传统制造业为主,目前中小型传统制造业普遍遇到的问题是订单减少,行业一直在价格战中厮杀,下游回款周期变长,许多中小制造业目前均是在苦苦支撑。为避免出现较高的试错成本,不少中小制造企业自然不敢轻易尝试大模型的使用。
并且从SaaS产业的发展历程来看,自2004年初期开始国内SaaS产业在经历了波澜不惊的10年之后,于2015年迎来了一波生长高峰。从2020年疫情暴发至今,疫情加速企业数字化转型,国内SaaS市场进入了关键的生长期。但即使如此,当前国内SaaS产业生态尚未完整,市场并未成熟。
图源:Flash Cloud
显然,大模型打开TOB端市场也并非一朝一夕,而是一个极其缓慢的过程。而且模型迭代其间因算法、算力、数据产生的成本,包括后续推出各种功能,均要求大模型公司不断投入高额资金。
商业化落地时间长,资金投入高,短期内难以盈利等问题的存在,后续也会让缺乏现金流的企业,在资金压力面前只能将企业自身的大模型进行关停,行业资源也会更加向头部大模型厂商身上集中。
而从网约车、外卖等多个行业的经验来看,一个新兴行业在历经多年的大浪淘沙过程中,后续能够真正发展起来的企业也只在3家左右,其他不少企业则被淹没在历史的长河中。