引言:随着我国经济发展进入更加重视质量与创新的新时代,一批“专业化、精细化、特色化、新颖化”的企业逐渐成为我国创新的发源地。资本市场的发展也在与时俱进,北交所设立的核心目标之一就是为“专精特新”中小企业服务。为此,新浪财经推出“专精特新TOP100”系列报道,旨在挖掘一批主营业务聚焦,创新能力强,成长性高,专注于细分市场的小巨人。
海天瑞声成立于2005年,专注于将自然数据源专业化加工为可供AI公司训练使用的工程化数据集,服务于AI算法设计,目前已经覆盖微软、腾讯、百度、科大讯飞等头部AI企业客户。
作为国内领先的AI模型训练数据提供商,公司在中国语音类基础数据服务领域企业中营收份额占比排名第一。2020年,海天瑞声获评工信部国家专精特新“小巨人”企业。今年8月,公司在科创板首发上市。
AI语音训练数据领军
公司的主营业务包括训练数据库产品、训练数据定制服务和数据资源相关的应用服务,前两者收入占比超过95%。

其中,智能语音是海天瑞声的优势领域。公司所提供的训练数据覆盖语音识别、语音合成等、计算机视觉、多语种发音词典、自然语言五个领域,服务于人机交互、智能驾驶、智慧城市等多种创新应用场景,客户覆盖了主要的大型知名科技公司、人工智能企业及科研机构。
训练数据库产品,是公司自行开发的训练数据产品,开发后直接授权客户使用。而训练数据定制服务,根据客户需求提供训练数据定制,通过“采集+加工”或“纯加工”形式,形成个性化的训练数据集。在数据定制服务中,智能语音营收占比 70%以上;在数据库产品中,智能语音营收占比 85%以上。
根据艾瑞咨询《2020年中国AI基础数据服务行业研究报告》,2019年海天瑞声在国内基础数据服务行业以约8%的市场份额位列第二;同时,公司主攻着中国语音类基础数据服务细分市场,营收份额占比排名第一。
近年来公司不断加大研发投入,2018年-2020年公司研发费用分别为2734.53万元、4169.61万元和4349.75万元,累计研发投入占收入比重为16.96%。
截至目前,公司已取得26项专利授权、拥有134项计算机软件著作权,另有2项专利已提交申请且已经受理,处于行业领先地位。
目前,海天瑞声建设完成了760多个自有知识产权的AI训练数据集,积累了丰富的多语种语言学家团队,并与下游的阿里、腾讯、百度、微软等客户形成了合作关系,并向下游客户提供了累计超3600次/个训练数据定制服务或训练数据产品,
在智能语音领域,公司已覆盖超过160余个主要语种及方言。在深耕国内市场的同时,也在拓展加拿大美国、日韩及“一带一路”地区的布局,目前已覆盖“一带一路”地区54个国家的42个语种及方言,累计词条数近350万条,构建自身人工智能训练数据资源集群。
AI落地刚需带动业绩空间
随着智能物联网、产业互联网等新型场景催生增量新需求,人工智能领域相关技术的产业化进程开启。与此同时,随着AI技术的不断成熟,AI 的商用化落地已经在全球各地全面展开。根据IDC统计预测,2020 年全球人工智能产业规模达到 501 亿美元,预计2024年将达到1100亿美元,年复合增长率为 21.73%。
千亿蓝海市场逐步促进 AI 技术和算法模型的优化和创新,基础训练数据服务得以从中分羹。训练数据资源是机器学习的基本素材,应用场景的创新和机器学习算法的迭代直接带动了训练数据需求的大幅增长。艾瑞咨询的研究报告显示,2019年中国基础数据服务行业的市场规模达到30.9亿元,预计2025年将突破100亿元,复合年增长率达到21.8%。
专业化的训练数据是当前AI算法发展迭代的刚需。具体而言,约1/3的算法模型每月至少更新一次,约1/4的算法模型每日至少更新一次,算法模型持续更新的特点将进一步拓展各领域训练数据的需求空间。在创新应用场景和新型算法的带动下,训练数据产品和高定制化的训练数据服务需求将逐步成为主流,这正是海天瑞声目前的主营业务。
2017年至2020年,海天瑞声的营业收入从1.19亿元增长至2.33亿元,年均复合增长率达25.15%。其中,训练数据定制服务和训练数据产品是主要收入来源,从2020年数据来看,二者占总营业收入的比例分别为50.26%、45.48%。不仅如此,这两类业务均表现出较强的盈利能力,带动公司总体盈利水平的提高。2020年公司综合毛利率水平为67.70%,净利率达到了35.17%。
目前,国内基础数据服务行业集中度较低。根据艾瑞咨询数据,2019 年以海天瑞声、百度众包为代表的国内基础数据服务行业前五大企业AI市场份额为 26.2%。行业整体仍处于低集中竞争阶段,行业活力充足,发展空间较大,作为中国领先的基础数据服务商,公司在品牌效益、技术资质等方面均有优势,市场份额仍有较大的提升空间。