浪潮信息再发大模型：时隔两年，源2.0与源1.0有何不同？

http://www.chaguwang.cn 2023-11-28 浪潮信息内幕信息

来源 :21经济网2023-11-28

　　11月27日，浪潮信息正式发布“源2.0”基础大模型，包括1026亿、518亿、21亿三种参数规模，并且全面开源。

　　在大模型方面，浪潮信息算是中国市场的先行者。早在2021年9月，浪潮信息就发布了源1.0大模型，该模型参数为2457亿，是当时业界规模最大的大模型。

　　从源1.0到源2.0，时间间隔了两年多，行业也发生了重大变化。尤其是ChatGPT的发布，引发了一场全新的技术革命，而浪潮信息作为“两个时代”的见证者，其先后发布的两代大模型，也有着完全不同的结构。

　　OpenAI的影响

　　在浪潮信息人工智能软件研发总监吴韶华看来，这轮大模型竞赛，从OpenAI发布GPT 3时就已经开始了。2020年5月，GPT 3发布，它提出了一种新的大模型训练和应用模式，即基础大模型经过训练后，通过零样本或小样本提示的形式直接赋能行业应用。

　　2021年8月，OpenAI进行了GPT 3.5的路演，在这个版本中，OpenAI在基础大模型之上，引入了指令微调的技术手段，并借此将模型能力和人的意图进行了对齐，让大模型能够理解人的意图，并且反馈更真实的回答。

　　在OpenAI不断迭代大模型产品的过程中，浪潮信息也在同步开发大模型。吴韶华表示，源1.0采用了比较经典的transformer结构，这和GPT 3的结构很类似。

　　2022年底，ChatGPT的横空出世，惊艳了世界，同时也带给了业界诸多的探究空间。不过，业界很快就获悉ChatGPT的训练方法——GPT 3+强化学习。对于浪潮信息来说，因为有源1.0的基础，在引入强化学习的方法后，也很快就做出了类似ChatGPT的一套系统，并且这套系统一直在迭代和改进，只不过浪潮信息一直没有对外发布。

　　“相比ChatGPT，GPT 4带给业界的震撼要更大”，吴韶华坦言，“ChatGPT的方法还有迹可循，但GPT 4没有对外披露，而且它展现出的能力要更全面，也更强大”。

　　所以2023年3月，GPT 4发布后，业界都在探究它到底是通过什么样的技术来实现这样的模型能力，浪潮信息也不例外。而这些，在今天的源2.0身上交出了答案，基于算法、数据层面的思考，浪潮信息逐渐形成了一套较成熟的模型结构改进方案。

　　源2.0的创新

　　据吴韶华介绍，源2.0的创新主要体现在三个方面。首先是算法方面，源2.0提出并采用了一种新型的注意力算法结构——局部注意力过滤增强机制(LFA：Localized Filtering-based Attention)。

　　LFA通过先学习相邻词之间的关联性，然后再计算全局关联性的方法，能够更好地学习到自然语言的局部和全局的语言特征。这使得模型可以在使用更少的训练算力、更小的模型参数的情况下，同样可以获得更高的模型精度和涌现能力。

　　其次是数据方面，源2.0通过使用中英文书籍、百科、论文等高质量中英文资料，降低了互联网语料内容占比，并结合高效的数据清洗流程，为大模型训练提供了高质量的专业数据集和逻辑推理数据集。

　　比如为了获取中文数学数据，浪潮信息清洗了从2018年至今约12PB的互联网数据，最后获取到了约10GB的数学数据。

　　最后在算力方面，源2.0采用了非均匀流水并行的方法，综合运用“流水线并行+优化器参数并行+数据并行”的策略，让模型在流水并行各阶段的显存占用量分布更均衡，避免出现显存瓶颈导致的训练效率降低的问题。

　　经过验证，源2.0大模型算力集群的线性扩展效率为47.3%，这远高于同类千亿参数大模型的算力集群线性扩展效率（业界普遍算力效率为27%-35%）。

　　也正是得益于这些创新，使得源2.0的模型参数虽然比源1.0更小，但是在各方面能力上，却远超于源1.0。

　　对于接下来的发展，吴韶华表示，针对后续的源2.5、源3.0模型，浪潮信息依然会从算法和数据两个维度入手。“算法方面我们刚刚进入一个新领域，这里值得探索的内容还很多，而在数据方面，我们会构建一套高质量数据自动生成系统，来持续为大模型提供高质量的数据。”