特别报道｜海天瑞声贺琳接受北京新闻采访：为中文大模型打造高质量数据底座

http://www.chaguwang.cn 2023-08-23 海天瑞声内幕信息

来源 :海天瑞声2023-08-23

　　随着大模型领域的飞速发展，今年国内已发布超过80个大模型，其中约一半位于北京市。今年5月，北京市经信局联合市科委、中关村管委会和市发改委共同启动了“北京市通用人工智能产业创新伙伴计划”共39家企业，海天瑞声成为首批入选该计划的“数据伙伴”。

　　在上个月的2023全球数字经济大会中，正式发布了总规模超500T的“人工智能大模型高质量数据集”。其中，海天瑞声“大模型多语种语音数据集”、“大模型中文千万轮对话数据集”入选，助力北京市打造人工智能大模型产业高地。

　　北京市经信局、百度云、海天瑞声、金山云接受北京卫视采访。海天瑞声创始人、董事贺琳在采访中介绍了海天瑞声近20年来在人工智能数据领域的持续探索与创新发展。

　　大模型的崛起，可以说是数据、算力、人才、资金等关键生产要素全面支撑的结果。在采访中，贺琳介绍了海天瑞声在人工智能训练数据领域的持续发展和创新。作为国内最早从事该领域的企业之一，海天瑞声的训练数据涵盖语音识别、语音合成、计算机视觉、自然语言等多个核心领域。已经积累了超过1300个自有知识产权的人工智能训练数据产品，为全球超过810家企业及科研机构提供高质量数据支撑，全面服务于科技互联网、智能驾驶、Iot、智慧金融等行业，助力人工智能领域发展。

　　携手共建高质量数据

　　助力中文大模型“加速度”

　　高质量训练数据的生产需要长期的资源投入和专业的技术支撑，并在遵循相应的质量标准和规范的基础上，保持不断更新和扩充，才能更好的迎接人工智能领域发展的新需求与新挑战。

　　为了打造高质量中文语料库、围绕语料数据共建生态，海天瑞声携手中科院自动化所、中国信通院泰尔实验室、智谱AI、澜舟科技、循环智能，在2023全球数字经济大会中启动“高质量中文大模型训练数据集共建项目”，为中文大模型研发提供“加速度”。

　　千万轮对话语料库

　　打造中文大模型的“新引擎”

　　大模型训练使用的数据集规模近年来呈爆发式增长，从GPT3 的1750亿参数，到近期Llama2的700亿参数，甚至更大Bloom的1760亿参数，高质量数据成为大模型不断突破的重要资源。

　　近期，海天瑞声推出「中文千万轮对话语料库 DOTS-NLP-216」。这是一个符合中国人表达习惯的自然对话数据集，共计约1,0000,000轮，上亿级token，包含正式非正式风格对话，使用偏口语化自然表达。内容覆盖工作、生活、校园等场景，及金融、教育、娱乐、体育、汽车、科技等领域。

　　海天瑞声肩负“做智能世界数据基石”的使命，致力于成为人工智能数据领域的引领者，我们将以高质量训练数据为大模型发展提供源源不断的动力，推动人工智能领域不断取得突破。