千亿参数的盘古大模型是如何炼成的？

文章正文

发布时间：2024-05-30 23:04

‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

天地混沌如鸡子，盘古生在其中，万八千岁，天地开辟，阳清为天，阴浊为地，盘古在其中。

——三国·吴·徐整《三五历纪》

“每个人都生活在特定的时代，每个人在特定时代中的人生道路各不相同。在同一个时代，有人慨叹生不逢时，有人只愿安分……”这是2021年北京高考命题作文“论生逢其时”的开头。

答题的是一位既没上过小学，也没读过初中、高中的特殊考生。他只是在短时间内学习了大量人民日报的文章，然后凭借自己的阅读理解、文本联想以及语言生成能力，写出这篇看似“像模像样”的高考作文。（延展阅读：今天参加高考的有1078万考生和一个AI）

是的，它是一个AI——华为云盘古大模型，就在昨天2021世界人工智能大会（WAIC2021）上刚被评选为大会的“镇馆之宝”！在现场，观众可与大模型互动，直接给对方出题。比如，一句“明明明明明白白白白喜欢他，但他就是不说，他很高冷。”

这句话里，“明明”显示一个人名，而后又作为形容词，且整句需要断句。但当记者向大模型提问 “白白喜欢谁？”时，大模型很快回答“明明”。回答正确！虽然盘古没有寒窗苦读十几年，但它也经历了上亿参数的“学习”。

比如理解下面这两句话：

1、小明在读一本书，通过不断坚持，克服各种困难，最后读完了。

2、小红在画画，期间遇到了很多困难，最后也完成了这副画作。

虽然上面两句话的人物和事件都不相同，但盘古也能和我们人类一样，从中提取一个相同的含义：锲而不舍。这个能力其实已经在华为开发者大会（Cloud）2021现场有所展示。我们不禁想问道盘古大模型是如何做到如此“聪慧”的呢？

为了更深入理解千亿参数的盘古大模型，我们采访到了盘古大模型研发员谢凌曦，考虑到大模型涉及到的一些技术比较晦涩，所以谢博士以非常通俗的方式为我们娓娓道来了盘古大模型研发的“前世今生”，以及它背后的艰难往事。

▲华为云盘古大模型研发员谢凌曦

何为大模型：

AI落地千行百业的必由之路

神话传说里，盘古开天辟地，宇宙从一片混沌变得有序，谈盘古大模型，谢凌曦从人工智能的诞生开始说起。

上世纪50年代，AI概念被提出，人们使用人工设计规则的方式去定义AI。到了80年代，在大数据的浪潮下，人们通过训练数据模型的方式来实现AI。后期随着数据规模扩大以及算力的发展，深度学习掀起新浪潮，各种AI模型不断涌现。

直到近两年，我们开始将跨领域的知识整合到AI模型中，基于Transformer结构的各种大模型出现，包括OpenAI的GPT-3，以及盘古大模型，“它们打开了深度学习模型的规模与性能共同发展的局面，达到了深度学习领域新的高度。” 谢凌曦推了推眼镜说道。

过去十年，AI 算法对算力的需求增长了40万倍，神经网络从小模型到大模型已经成为了必然的发展趋势。大模型能够解决 AI 模型定制化和应用开发碎片化，它可以吸收海量的知识，提高模型的泛化能力，减少对领域数据标注的依赖。

大模型一方面激活了深度神经网络对大规模无标注数据的自监督学习能力，同时对于 AI 框架的深度优化和并行能力都有很高的要求，是深度学习框架下将AI做到极致的集大成者。“从传统方法到深度学习，这是一次大的跳跃，而在深度学习这个台阶上，大模型已经站在了最前面，等待着下一个台阶的出现。”

当前盘古系列超大规模预训练模型，包括NLP大模型、CV大模型、多模态大模型、和科学计算大模型。模型大意味着它吸收了海量数据知识，以盘古NLP大模型为例，它学习了40TB的中文文本数据；盘古CV大模型则包含了30亿+参数。这些数据提高了大模型的泛化能力，提升算法对新鲜样本的适应能力，从而学到隐含在数据背后的规律，减少对领域数据标注的依赖。

当大模型可以从小数据样本中学习更多，也能帮助我们打开走向通用AI的大门，它可以解决AI模型定制化和应用开发碎片化的难题。

谢凌曦给我们算了一笔账，他认为AI算法落地难不是因为它无法解决实际问题，而是应用场景太狭窄，每个痛点都需要定制化开发，从而导致投入的成本和人力过高。一旦场景变化，整个模型可能都需要重新开发。而大模型是一种工业化AI开发的新模式，可以解决小模型的定制化难题，让一个模型可以应用到多个场景中，让AI真正落地到千行百业中。

盘古NLP大模型

在最近的CLUE榜单上，盘古的NLP模型在总榜、阅读理解排行榜和分类任务排行榜上都位列第一，总榜得分比第二名高出一个百分点。为了说明盘古的NLP模型是如何在理解能力上接近人类的，回到文章的开头，谢凌曦举了我们开篇提到的那个“锲而不舍”的例子解释：

1、小明在读一本书，通过不断坚持，克服各种困难，最后读完了。

2、小红在画画，期间遇到了很多困难，最后也完成了这副画作。

人类可以很容易的通过逻辑判断能力知道两件事表达的是同一个意思：锲而不舍，但大模型需要大量的数据投喂和学习，去捕捉元素与元素之间的关系，比如两段文本之间的关系，几段文本之间，哪两段之间关系更近一些，才能得出逻辑性的判断结论。

还是上面的例子，如果把2改成为“小明在读一本书，期间遇到很多困难，可最后也没能读完”，这样1和2的文字非常相似，但其实两者表达的是完全不同的含义。

大模型需要学会判断这种关系，谢凌曦解释道，

“

表征（从文本和图像中直接抽取的简单特征）和语义之间的关联性是极其复杂的，人能够理解，但让计算机去理解并建立计算模型就非常困难，大模型以大数据的方式以及堆砌大量可训练参数去完成这件事。

”

盘古CV大模型

针对盘古CV大模型，谢凌曦同样先举了一个例子：如何区分白色猫和白色狗的图片？人类看到这两张图片能一眼识别出来哪只是猫，哪只是狗，那么大模型面对这些是如何处理的呢？

谢凌曦强调图像中非常重要的一个东西就是层次化的信息，

“

我们需要让模型在训练的过程中，了解这些样例之间真正强关联性的东西。在判断图像的过程中，首先要把握好图片中层次化的信息，能够快速的定位到图片中哪部分信息是起决定作用的，让算法以自适应的方式去关注比较重要的地方或内容，这样就容易捕捉样本之间的关系。在这两张图片中，很明显白色不是最重要的信息，动物才是图片中起决定性的信息。

”

盘古CV大模型首次兼顾了图像判别与生成能力，能同时满足底层图像处理与高层语义的理解需求，同时能够融合行业知识的微调，快速适配各种下游任务。

另外，为了解决模型大，数据多带来的学习效率低，表征性能弱的问题，盘古CV大模型在预训练阶段主要集中在数据处理、架构设计和模型优化三个阶段进行优化。目前盘古CV大模型在Image Net 1%、10%数据集上的小样本分类精度上均达到目前业界最高水平。

为“应用”而生

盘古赋能更多用户

大模型训练在各方面突破，也为缺乏大量数据的行业铺上接入智能时代的轨道。正如华为云人工智能领域首席科学家、IEEE Fellow田奇教授在发布盘古大模型所提到的，盘古大模型是为各行业的应用而生，盘古具备前所未有的泛用性，无论是2B场景或是2C场景。

行业知识来源于行业数据，盘古团队使用了大量行业语音和文本数据，借助这些数据进行微调，模型的行业特定意图和知识理解能力得以大幅提高。

以盘古CV大模型为例，其在电力巡检行业中表现出超强的应用能力。它利用海量无标注电力数据进行预训练，并结合少量标注样本微调的高效开发模式，节省人工标注时间。在模型通用性方面，结合盘古搭载的自动数据增广以及类别自适应损失函数优化策略，极大地降低了模型维护成本。

谢凌曦还谈到，除了行业的应用，面向开发者方面，盘古大模型正在逐步上线到华为云AI资产共享社区（AI Gallery）。在平台上盘古会开发出一些比较通俗易用的工作流：如果你是有一定基础的开发人员，可以从工作流中做更多的定制化开发，更好地释放预训练模型的能力；如果你只是一个AI开发小白，想用大模型做简单的AI开发，盘古也会给你更加通俗易懂的界面，让大家用一些拖拉拽的方式去实现。后续盘古会针对开发者推出系列的课程，指导开发者基于盘古大模型在实践场景中开发应用。

另一方面，盘古也希望和开发者共成长。“大模型只是一个抓手，让它应用到实际场景中。不仅更好的帮助用户提高训练的进度和缩短训练的时间，而且模型上的应用数量增多，用户的成本自然而然就降低了。” 谢凌曦表示，盘古的发展单靠我们团队是远远不够的，我们还需要和开发者一起建设好这个生态。

谈到盘古大模型的未来，谢凌曦有个简单的小目标——把盘古推向下一个技术爆发点。AI大模型是深度学习的最高阶段，往下走可能是一条平的直线，大家都在等待跳跃的那一天。华为云一直在努力，用各种原创技术去推动，解决AI开发者实际会遇到的问题，最本质的目的是赋能千行百业的AI落地。

道阻且长，行则将至。正如盘古大模型的名字一样，华为也希望以大模型为抓手，把AI推向一个前所未有的高度，让我们往下一代AI去走，劈开AI未来道路上的“混沌”。

-END-

7月15日14:30 华为云TechWave云安全专题日，围绕零信任、云原生安全等热点话题，华为云携行业大咖共话云原生安全技术，发布华为云最新安全产品和解决方案，分享行业最佳应用实践，探讨企业云上安全之道。