AI大模型开源困难：都是因为垄断、围墙与算力之殇

AIGC行业资讯1年前 (2023)更新 zuola

4,023 0 1

一、目前大模型开源的现状如何？

二、国内大厂为何不愿意开源大模型？原因主要有几点：

1. 算力限制。

目前的算力水平不足以支撑大规模模型的训练，也不支持大模型的部署和迁移。在一些厂商看来，大模型开源后，这些算法不能再被重用，这样自然就失去了开源的意义。所以他们更愿意专注于训练工具链的建设，或者更直接一点，他们认为大模型的技术门槛并没有那么高。
2. 难以评估大模型的价值。

由于大模型开源之后，很多企业会把它直接用于自己现有产品的升级、改进和完善。在这个过程中，企业很难评估自己投入和产出之间的比例是多少。
3. 缺乏开源社区。

由于大模型开源目前还处在早期阶段，大型企业与开源社区之间还没有形成良好的协作机制，这使得许多人不愿将自己多年的研究成果贡献出来，很难真正推动技术快速落地。

三、国内大模型开源开放需要注意哪些问题？

针对以上三点，我们可以看出目前国内大厂不愿开源大模型的主要原因在于缺乏相关生态系统和行业共识。目前来看，国内大厂们在大模型开源方面还是处于观望状态，他们并没有真正地去做这件事情。
所以对于我们来说，应该从三个方面去思考如何让大模型能够更加顺利地实现落地。
首先是构建生态体系，也就是我们所说的「开源+合作」模式。这种模式既有自上而下的官方推动、也有自下而上的企业推动。这种模式能够为大厂提供更为广阔、真实的应用场景和市场反馈，让他们更容易地了解到开源开放对自身技术创新带来的价值和意义。比如腾讯开源了 TencentAI、百度开源了 BERT、微软开源了 BERT等一系列大模型后带来的技术创新、企业竞争力以及商业价值，都是显著的。
其次是从行业共识出发，让更多人参与到大模型这个「伟大”尝试中来，以更快地推动大模型在产业中落地。这其中包括但不限于行业联盟、行业组织形式。比如微软最近发起了一个名为「 Build with Babylon」的项目，其目标就是让人们可以在更广泛的领域和应用中使用大模型技术。此外还有阿里牵头发起的”阿里巴巴 AI算法开放平台「 AliMAGA」也正在积极推进中，致力于提供能够被广泛使用、可规模化输出并且易于理解和使用的模型开发工具链以及行业解决方案。最后是从产品形态出发，为开发者打造更友好、便捷、高效、通用的大模型开发环境。比如 Google所开源出来的 Meltdown语言特性分析器（MLF）和 Transformer解码器（DQN）等工具模块都是较为优秀、易用且通用化程度很高的工具包。

AI大模型开源困难：都是因为垄断、围墙与算力之殇

图注：Pathways架构

本质上，大、通用且高效的大模型路线无疑具有很强的吸引力。随着稀疏动态结构的加持，计算代价将不会那么大，但是模型参数一定会越来越大，这可能会为大模型打开一个新的天地，使其规模达到十万亿甚至百万亿。
张家兴认为，稀疏动态结构将是解决大模型尺寸与算力代价之间矛盾的最终途径。他也补充说，在当前这种模型结构还未普及的情况下，再盲目将模型继续做大确实意义不大。目前国内在这个方向上的尝试还比较少，还没有比谷歌做得更彻底。
在当前大模型技术尚不普及的情况下，盲目将模型继续做大可能并不可行。OpenAI已经因此招致了很多批评，但也是一些机构拒绝慷慨的理由。Meta AI负责人 Joelle Pineau曾表示：“单靠自家团队解决不了全部问题，比如文本生成过程中可能产生的伦理偏见和恶意词句。如果做足功课就可以在负责任的情况下让大模型变得可以公开访问。”他认为，只有做足功课才能在防范滥用风险的同时保持开放获取和足够的透明度。
但是，把一个万亿规模的大模型开源出来，会引发很多问题。比如如何在防止滥用风险和提高稳健性、减少偏见和毒性之间取得平衡？Stability AI虽然享受了开源带来的好处，但最近也遭遇了一些开源带来的反噬，在版权归属等方面引起了争议。你觉得大模型开源会给人类带来怎样机会和挑战？