来源 :金融界2023-09-21
金融界9月21日消息,海天瑞声披露投资者关系活动记录表显示,大模型预训练阶段的数据需求与深度学习技术路线下的传统训练数据需求在形态上基本一致,但在数据规模、质量、来源等方面,预训练数据较传统训练数据存在差异。例如,预训练数据的token量普遍在万亿量级,而传统模型数量则大约在10亿量级。此外,大模型向多模态发展后,将会产生更多的新型数据需求,例如文生图的多模态大模型,需要机器理解文字语义的同时将理解的关键词与图片的关键标签进行映射,实现按指令的创作,以此完成学习训练过程。