来源 :星环科技2023-12-04
近日,第二十五届中国国际高新技术成果交易会(简称高交会)在深圳举办。本届高交会以“激发创新活力提升发展质量”为主题,超过105个国家和地区团组、4925家企业参会参展,展会总面积达到50万平方米,是史上规模最大、参与国家和地区最多的一届高交会。星环科技受邀亮相第二十五高交会,人工智能产品部范豪钧受邀参加高交会-未来科技峰会,发表《数据为中心的大模型持续晋级之路》主题演讲。
范豪钧表示,大模型时代,生成式AI技术及工具已经在软件生命周期的各个环节中体现出了提效的可行性,但想要在?型科技组织中端到端落地、实现提效的突破,还面临信息安全要求、领域性适用性、工具碎片化等诸多挑战。同时在实际落地中用大模型制作一些原型比较容易,但将他们嵌入到符合工业化、自身业务的生产环境却很难。
基于此,需要一个相对全局的工具链来解决上述问题,LLMOps是一组大模型工具和最佳实践,用于管理LLM驱动的应用程序的生命周期,包括开发、部署和维护,LLMOps核心是数据驱动下的不断尝试、不断优化、不断交付。在大模型领域,从企业实际的使用视角来看,一般会经历三个过程:需求与实验、数据与微调、反馈与循环。数据为中心,持续迭代模型是让数据工程贯穿LLMOps的全流程,从训练阶段到评估阶段,到应用阶段,会产生大量的数据帮助提升这个模型,星环科技的平台会将这些数据进行分门别类的保存,并且用于下一轮的迭代。
此外,在大模型时代,多模态的数据、模型、工具和应用生态也将成为值得关注的重点。首先,是来自于数据和模型的“多模态”,这包含了图像、语音、文字、抽象语意(事实知识、流程、知识图谱等)及其组合。其次,是应用生态中的“多模态”,例如随着大模型而来的检索增强生成(RAG)热潮。
大模型在实际生产生活中的落地中,通常需要不同来源的海量外部知识辅助模型的生成。例如在星环“无涯”金融大模型对上市公司分析的实践中,需要借助企业关联关系、行业研究报告、生产关系知识图谱等来源的数据进行信息检索、摘要,并利用大模型的生成能力,生成用户友好、信息全面准确、预测得当的分析报告。
此类RAG的落地中,会用到海量异构数据进行信息的加工、摘要、再生成。星环科技大数据基础平台TDH支持11种模型数据统一存储管理,能够为大模型落地的训练开发、应用推广、运营提升等多个环节的不同多模态存、算、检索、生成需求,提供统一的数据接口,实现更高的敏捷化和更丰富的落地实践。
星环科技作为一家企业级大数据基础软件开发商,站在工具链提供的角度来提供大模型制作所需要的对应工具链,推出了大模型统一运营管理平台Sophon LLMOps,为用户打通从数据接入、生成、开发和清洗、提示工程、大模型训练、大模型上架部署到大模型应用编排和业务效果对齐的全链路流程,从而实现针对大模型的“数据和分析的持续提升”。这是星环科技应对大模型时代,每个企业都想建立自己大模型的应对之道。