来源 :国脉电子政务网2021-11-10
在AI向行业渗透过程中,需求多变、场景碎片化等问题,让传统训练模式承受的压力与日俱增,发展AI大模型成为行业共识。在浪潮信息承办的AICC2021人工智能计算大会上,浪潮人工智能研究院发布了全球大中文AI巨量模型“源1.0”开源开放计划,第一阶段将面向三类伙伴将以开放API、开放数据集、开源代码等多种形式为业界提供开放合作。

如今,机器学习模型发展愈加复杂,巨量模型成为规模化创新的基础。而浪潮信息“源1.0”作为全球大规模的中文AI巨量模型,参数规模高达2457亿,训练采用的中文数据集达5000GB。作为对比,GPT-3语言模型则为1750亿参数量和570GB训练数据集。对比之下,浪潮信息“源1.0”参数规模领先40%,训练数据集规模领先近10倍,能够为AI产业的发展提供重要帮助。那么,浪潮信息又为何选择开源开放“源1.0”浪潮信息副总裁、AI&HPC产品线总经理刘军表示:“巨量模型应该成为普惠性的科技进步力量,让行业用户甚至是中小用户也能使用巨量模型寻求深度创新,促进业务可持续健康发展。”
浪潮信息此次发布的“源1.0”开源开放计划项目包含开放模型API,开放高质量中文数据集,开源模型训练代码、推理代码和应用代码等,第一阶段将面向人工智能相关高校和科研机构、产业伙伴及智能计算中心用户三类群体。首先,面向高校或科研机构的人工智能研究团队,浪潮信息“源1.0”将主要支撑在语言智能前沿领域的算法创新和方向探索;其次,面向元脑生态合作伙伴,浪潮信息“源1.0”将主要支撑元脑生态伙伴开发智能文本服务、语言翻译服务等行业示范性应用;此外,面向智能计算中心,浪潮信息“源1.0”将作为算法基础设施,与智能计算中心算力基础设施高效协同,支撑AI产业化和产业AI化发展。
开放合作是解决深度学习的不可解释性、数据拟合的统计学缺陷等问题的重要出路,未来浪潮信息在以强大技术、产品和实力为产业发展提供可靠AI算力支持的同时,还将秉承开源开放理念,为巨量模型的健康发展与产业落地作出更多积极贡献。