chaguwang.cn-查股网.中国
查股网.CN
海天瑞声(688787)内幕信息消息披露
 
个股最新内幕信息查询:    
 

特别报道|海天瑞声贺琳接受北京新闻采访:为中文大模型打造高质量数据底座

http://www.chaguwang.cn  2023-08-23  海天瑞声内幕信息

来源 :海天瑞声2023-08-23

  随着大模型领域的飞速发展,今年国内已发布超过80个大模型,其中约一半位于北京市。今年5月,北京市经信局联合市科委、中关村管委会和市发改委共同启动了“北京市通用人工智能产业创新伙伴计划”共39家企业,海天瑞声成为首批入选该计划的“数据伙伴”。

  在上个月的2023全球数字经济大会中,正式发布了总规模超500T的“人工智能大模型高质量数据集”。其中,海天瑞声“大模型多语种语音数据集”、“大模型中文千万轮对话数据集”入选,助力北京市打造人工智能大模型产业高地。

  北京市经信局、百度云、海天瑞声、金山云接受北京卫视采访。海天瑞声创始人、董事贺琳在采访中介绍了海天瑞声近20年来在人工智能数据领域的持续探索与创新发展。

  大模型的崛起,可以说是数据、算力、人才、资金等关键生产要素全面支撑的结果。在采访中,贺琳介绍了海天瑞声在人工智能训练数据领域的持续发展和创新。作为国内最早从事该领域的企业之一,海天瑞声的训练数据涵盖语音识别、语音合成、计算机视觉、自然语言等多个核心领域。已经积累了超过1300个自有知识产权的人工智能训练数据产品,为全球超过810家企业及科研机构提供高质量数据支撑,全面服务于科技互联网、智能驾驶、Iot、智慧金融等行业,助力人工智能领域发展。

  携手共建高质量数据

  助力中文大模型“加速度”

  高质量训练数据的生产需要长期的资源投入和专业的技术支撑,并在遵循相应的质量标准和规范的基础上,保持不断更新和扩充,才能更好的迎接人工智能领域发展的新需求与新挑战。

  为了打造高质量中文语料库、围绕语料数据共建生态,海天瑞声携手中科院自动化所、中国信通院泰尔实验室、智谱AI、澜舟科技、循环智能,在2023全球数字经济大会中启动“高质量中文大模型训练数据集共建项目”,为中文大模型研发提供“加速度”。

  

  

  千万轮对话语料库

  打造中文大模型的“新引擎”

  大模型训练使用的数据集规模近年来呈爆发式增长,从GPT3 的1750亿参数,到近期Llama2的700亿参数,甚至更大Bloom的1760亿参数,高质量数据成为大模型不断突破的重要资源。

  近期,海天瑞声推出「中文千万轮对话语料库 DOTS-NLP-216」。这是一个符合中国人表达习惯的自然对话数据集,共计约1,0000,000轮,上亿级token,包含正式非正式风格对话,使用偏口语化自然表达。内容覆盖工作、生活、校园等场景,及金融、教育、娱乐、体育、汽车、科技等领域。

  

  海天瑞声肩负“做智能世界数据基石”的使命,致力于成为人工智能数据领域的引领者,我们将以高质量训练数据为大模型发展提供源源不断的动力,推动人工智能领域不断取得突破。

有问题请联系 767871486@qq.com 商务合作广告联系 QQ:767871486
www.chaguwang.cn 查股网