chaguwang.cn-查股网.中国
查股网.CN
金山办公(688111)内幕信息消息披露
 
个股最新内幕信息查询:    
 

金山办公:AI战略如何落地?

http://www.chaguwang.cn  2023-10-20  金山办公内幕信息

来源 :计算机司令部2023-10-20

  摘要

  公司构建了AIGC+Copilot+Insight的产品线。公司AI技术投入已久,早于2017年成立AI中台,将人工智能在公司内部上升至战略地位。2018年公司正式确立“多屏、云、AI和内容”四大战略。大模型技术浪潮下,公司构建了以“AIGC+Copilot+Insight”为内核的AI产品线,其中:

  AIGC:智能化内容创作。AIGC通过借助大模型的力量,帮助每一位用户优化创作流程,提高表达效率和质量。由于数字化不断渗透各行各业,用户在更高效的创作和管理方面的需求愈发明显。在WPS中,用户可以直接使用AIGC相关功能,进行文章续写,PPT生成等任务。避免了从0到1开始创作,节省了大量搜索资料的时间。AIGC能够提供更便捷的生成工具,不再受到模板的限制,更贴近用户的需求;

  Copilot:交互方式的变革。1)在文本领域,Copilot支持语音唤醒,时刻记录:用户可通过语音直接唤醒Copilot,随时随地记下灵感,并即时和Copilot共同创作;2)在表格中,Copilot理解用户指令并转化为公式:在Excel中只需输入需求,Copilot在理解用户指令的基础上,智能转为公式。

  Insight:提炼非结构化数据,提升知识再利用效率。Insight可以秒速分析文本,概括文章深意;在PDF中,Insight可以快速提炼重点,依据内容回答问题。在Insight的助力下,企业可以更高效地理解、提炼、应用非结构化数据,快速找到所需信息,并将其用于决策管理中,实现效率的再升级。

  在接入通用模型基础上,公司自研专业模型,致力于对WPS AI能力的提升与完善。公司基于业界开源基座模型进行了小模型的自研,如7B、13B,其优势是训练和推理的速度快,消耗的推理资源少,更易实现几百毫秒的搜索,阅读理解效果佳,解决了通用大模型在特定场景的能力仍有欠缺,并且部署、推理以及运维的成本较高,性价比较低的弊端。公司7B模型的总语料在TB级,中文占比约65%,训练效率可达1600 token/sec/gpu。从训练效果来看,其在自然语言理解任务上表现优于其他三个业界开源的6B/7B模型;公司13B模型的总语料约万亿token,中文占比约10%,确定了其最优训练效率下的分布式策略,在数台A800上的训练利用率高于65%,效果显著。

  投资建议:办公软件有望成为AI最先兑现业绩的领域,公司加快全面融入AI,估值体系有望迎来体系化重构。预计公司23-25年实现归母净利润15.24、22.30、29.51亿元,对应PE分别为105X、71X、54X,看好公司业务前景,维持“推荐”评级。

  风险提示:技术落地节奏不及预期,行业竞争加剧。

  

  1 金山AI布局由来已久,前期技术积累深厚

  金山办公布局AI由来已久。公司于2017年成立AI中台,将人工智能在公司内部上升至战略地位。同年5月,老将姚冬重回金山,牵头组建了金山办公的AI算法、工程和产品团队,负责算法改进、推动工程落地、人才梯队建设工作。2018年,金山正式确立“多屏、云、AI和内容”四大战略。AI战略的主要内容便是通过AI能力开发创新性功能,并以AI辅助办公来提高办公效率。截至2022年11月ChatGpt推出时,金山办公的AI团队已有百人规模,划分为基础设施、平台、产品和应用、基础算法等小组,开发近100项AI办公能力,涵盖全文翻译、文档校对、智能写作、PPT美化、数据分析等,落地超过18项AI应用,并斩获5项国际AI技术大奖。

  

  金山前期AI技术已取得突出成绩,部分技术领域能力跻身国内第一梯队。截至2021年7月,公司自主研发的OCR和机器翻译技术智能校对月校对字数超70亿;智能生成的内容占据整体内容资源比例为33.6%,智能美化功能MAU数量超百万;AI中台还打造了基于分布式训练的AI训练平台,包含了训练数据处理、训练调度、服务监控告警、链路追踪等一站式平台,达到了国内第一梯队的水平。

  2 公司明确AIGC+Copilot+Insight的产品体系

  大模型范式革命之后,金山办公全力投入,推出一系列AI应用。公司在2023年初定下以“AIGC+Copilot+Insight”构成公司AI产品线。2023年3月底接入文心一言大模型开启测试;4月18日公司正式官宣“WPS AI”,并将其首次嵌入在轻文档产品中。5月16日,公司进一步将“WPS AI”嵌入到其他办公产品,包括文字、表格、演示、PDF四大组件;5月23日,金山凭借在政企及个人用户办公领域开展LLM应用入选首批北京通用人工智能产业创新伙伴计划成员名单;5月31日公司正式发布“WPS 365”;7月6日,金山宣布WPS开启申请体验,并于7月27日海外版正式开启公测。在9月金山办公技术开放日会议上,公司展现了金山WPS AI独特的技术路径。自研小模型降低了推理成本与时间,增加用户体验感;服务器管理模型平衡了训练与推理的时间分配,提升算力应用效率;AI网关的统一管理,解决了不同大模型的接入与调用问题,体现金山在AI与办公软件领域多年的积累与理解。

  

  WPS AI助力传统办公软件,大幅提升办公效率,降低用户使用门槛。WPS AI在轻文档、文字、演示中赋予AIGC功能。在文字应用上,WPS AI具备进行模版生成和内容编写优化等功能,让创作更轻松;WPS AI在表格与演示中展现Copilot功能。在Copilot的加持下,用户不再需要费时费力地研究软件的各种功能和设置,只需要轻松地向WPS AI提问或提供指令,就可以立刻获得个性化的建议和帮助;在PDF应用中,Insight可以快速提炼重点,并根据内容回答问题。在Insight的助力下,企业可以更高效地处理非结构化数据,快速找到所需信息,并将其用于各种知识管理和决策支持任务,实现效率的再升级。

  

  2.1 AIGC:智能化进行内容创作

  AIGC通过借助大模型的力量,帮助每一位用户优化创作流程,提高表达效率和质量。由于数字化不断渗透各行各业,用户在更高效的创作和管理方面的需求愈发明显。在WPS中,用户可以直接使用AIGC相关功能,进行文章续写,PPT生成等任务。避免了从0到1开始创作,节省了大量搜索资料的时间。AIGC能够提供更便捷的生成工具,不再受到模板的限制,更贴近用户的需求。

  1.文章续写,润色等可一键生成:用户可以直接在WPS文档编辑环境中,直接进行续写,润色。无需通过复杂操作,即可一键生成,加快内容优化进程;

  2. AIGC让用户更加清晰高效的阅读长文本:过去的长文本报告等通常需要用户通读全文,找到核心信息或者筛选出相关部分,对准确度和全面性的要求不断上升。AIGC可以通过对合同,会议纪要等阅读材料在几秒钟内生成精炼报告,用户通过简单的问答形式即可获取相关信息,大量节省时间,提高文档信息筛选的效率;

  3.AIGC让用户更加清晰高效的阅读长文本:过去的长文本报告等通常需要用户通读全文,找到核心信息或者筛选出相关部分,对准确度和全面性的要求不断上升。AIGC可以通过对合同,会议纪要等阅读材料在几秒钟内生成精炼报告,用户通过简单的问答形式即可获取相关信息,大量节省时间,提高文档信息筛选的效率;

  4.AIGC让PPT演示更加简单:一句主题的描述即可生成完整PPT,同时提供内容润色和格式美化。相比过往需要用户全不需要自己重新编辑或者使用有限的模板,现在用户仅需提供演示主题和要点,AIGC即可协助生成演示提纲,排版,字体等也可以进行美化,并同步创建配图,用户可调整自己所需风格。AIGC贯穿整个用户使用PPT创作的流程,除了上述功能外,还会根据演示信息生成对应备注,供演讲者在演示过程中参考。除此之外,AIGC还可直接根据用户提供的PDF活DOC文档直接生成PPT,让用户可以根据自己的材料,生成对应的演示文档,大大优化创作效率。

  

  

  

  2.2 Copilot:交互范式的革命

  Copilot通过简化操作,极大地降低了办公软件应用的门槛。计算机历史上的2/8原则表明,用户一般只会使用软件20%的功能。而办公软件呈现出不断升级和发展的趋势,多样和复杂的功能层出不穷,用户需要花更多时间和经历学习和掌握这些功能。WPS推出Copilot,借助此功能,用户只需向WPS AI提问或发出指令,无需前期投入大量的学习成本,即可立即获得个性化的建议和帮助。Copilot目前很多功能还在开发当中,下面介绍两个已经投入使用的案例,能够看到WPS AI有效降低了用户使用原本复杂功能的门槛,广泛提升工作效率,具体而言:1)在文本领域,Copilot支持语音唤醒,时刻记录:用户可通过语音直接唤醒Copilot,随时随地记下灵感,并即时和Copilot共同创作。无需复杂的软件工具,解放双手。缓解了特殊情况下,用户没办法打字出入的情景;2)在表格中,Copilot理解用户指令并转化为公式:在Excel中只需输入需求, Copilot在理解用户指令的基础上,智能转为公式。降低了不熟悉Excel公式的用户的使用门槛,即使不熟悉公式,也可能够快速的上手excel并产出结果。

  

  

  2.3 Insight:提炼非结构化数据,提升知识再利用效率

  企业数据可分为两大类:结构化数据和非结构化数据。结构化数据是能够用数据或统一的结构加以表示的信息,通常存储在数据库中,易于管理和分析;而非结构化数据多存在于文档、聊天、邮件中,几乎不可充分利用,由于其复杂性和多样性,收集、处理和分析非结构化数据一直是企业的一项重大挑战。随着数据量的增加及数据类型的变化,传统的结构化数据已不再是主流,非结构化数据占据数据总量的比例越来越多,如果没有合适的工具来分析这些海量数据,企业数据的巨大价值都将无法发挥。企业传统使用的全文检索技术速度慢、效率低,在海量文档中使用关键字搜索往往会返回大量结果,而结果与用户需求之间的偏差,导致了信息过载和知识再利用的困难。

  Insight能更高效地理解、提炼非结构化数据,提升知识再利用效率。与AIGC不同,Insight并非根据公开信息回答问题,而是根据用户私有的数据,针对文档进行问答,包括从文档中提取数据和回答各种知识相关问题。应用在文字中,Insight可以秒速分析文本,概括文章深意;在PDF中,Insight可以快速提炼重点,依据内容回答问题。在Insight的助力下,企业可以更高效地理解、提炼、应用非结构化数据,快速找到所需信息,并将其用于决策管理中,实现效率的再升级。

  

  

  3 研发自有模型,致力于WPS AI能力的提升和完善

  AI时代的到来,对于金山办公的底层架构提出了全新的需求,除了具备传统的算力、数据、算法三要素之外,还需要结合强大的工程能力和应对丰富细分场景的应用能力。为了满足应用端的细分化场景需求,金山办公基于开源底座,通过训练调优自研模型的技术路径,助力WPS AI成为国内率先落地的AI办公应用。

  金山办公选择混合部署模型的战略,致力于对WPS AI能力的提升与完善:通用大模型在特定场景的能力仍有欠缺,并且部署、推理以及运维的成本较高,性价比较低,基于大模型的介入成本考虑,小众场景需要自研模型补充满足需求。公司研发团队基于业界开源基座模型进行了小模型的自研,如7B、13B,其优势是训练和推理的速度快,消耗的推理资源少,更易实现几百毫秒的搜索,阅读理解效果佳。公司7B模型的总语料在TB级,中文占比约65%,训练效率可达1600 token/sec/gpu,从训练效果来看,它在自然语言理解任务上表现优于其他三个业界开源的6B/7B模型;公司13B模型的总语料约万亿token,中文占比约10%,确定了其最优训练效率下的分布式策略,在数台A800上的训练利用率高于65%。

  

  

  公司使用自研Database与开源的Embedding模型结合的模式。Embedding本身相对生产模型来说是一个小模型,其语义相似度明显优于传统的基于关键词模式。公司通过自建的模型架构,并收集整理了很多开源的公开语料去做训练,生成了自研模型。同时公司也在考察试用开源的Embedding模型,结合每一个模型的技术优势,将它们应用在不同的细分场景中。

  在深层模型部分,公司目前主要基于ChatGLM2和Bloom开源模型进行了重训和微调。在核心能力方面,公司主要解决输入上下文的窗口长度问题,例如常规的小量级开源模型的窗口长度在2000左右,尽管可以通过一些模型参数的配置使得窗口变大,但输出质量还是会有可察觉的降低。公司通过工程化手段,在增加输入长度的同时确保输出质量,过程中可能会因为时间或空间的代价置换影响推理速度,但公司可以结合推理方面的工程优化来有效化解。在领域适配方面,因为不同领域的文档存在显著差别,公司会做比较多的数据收集和数据标注来针对各个领域进行模型的重训。在私有数据方面,中小模型比较容易实现私有化部署和进一步的推理优化,公司的自研模型也拥有私有化部署和定制研发的能力。

  WPS AI的公式生成功能、非结构化数据搜索功能都是通过自研模型实现的。公式生成在互联网上的语料并不丰富,公司自己通过数据标注训练补充完善模型的公式编写能力。针对一些个性化的细节,例如:识别表格连通域的范围,区分数据和标题等,对反应速度要求很高,就需要自研小模型帮助实现;而在文档搜索方面,当文档数量很大时,将消耗巨大算力,如果用大模型去处理,会需要很长时间,小模型则能在针对性调优后做到快速且优质的阅读理解,有效解决该问题。未来大模型的速度也将得到提升,但由于目前的业务场景需求和资源约束,使得小模型成为一个很有意义的补充。

  投资建议

  办公软件有望成为AI最先兑现业绩的领域,公司加快全面融入AI,估值体系有望迎来体系化重构。预计公司23-25年实现归母净利润15.24、22.30、29.51亿元,对应PE分别为105X、71X、54X,看好公司业务前景,维持“推荐”评级。

  风险提示

  1)技术落地节奏不及预期的风险。ChatGPT技术还处于规模化推广的前期,目前技术仍在进步、完善和升级过程中。如果技术进步节奏低于预期,将会对后续市场拓展节奏形成一定的干扰;

  2)行业竞争加剧的风险。在新的技术变革浪潮下,市场可能存在新的进入者。若公司不能及时开发出适应市场需求的新产品,可能会影响公司在细分市场的领先地位,从而对公司的份额和盈利造成不利影响。

  计算机团队介绍

  吕伟:民生证券计算机行业首席分析师,北京大学理学硕士,2021年加入民生证券研究所。

有问题请联系 767871486@qq.com 商务合作广告联系 QQ:767871486
www.chaguwang.cn 查股网