chaguwang.cn-查股网.中国
查股网.CN
海天瑞声(688787)内幕信息消息披露
 
个股最新内幕信息查询:    
 

生态共建|海天瑞声携高质量大模型数据集亮相2023服贸会

http://www.chaguwang.cn  2023-09-05  海天瑞声内幕信息

来源 :海天瑞声2023-09-05

  8月28日,2023中国国际服务贸易交易会分论坛“通用人工智能算力论坛”在京举办。本次论坛由北京市石景山区人民政府、北京市经济和信息化局、北京市科学技术委员会中关村科技园区管理委员会联合主办。

  海天瑞声近期发布的“中文千万轮对话语料库 DOTS-NLP-216”入选第二批北京市人工智能大模型高质量数据集名单。作为“北京市通用人工智能产业创新伙伴计划”第一批数据伙伴,显示了海天瑞声在人工智能数据领域的实力。

  

  

  海天瑞声发布大模型高质量数据集

  中文千万轮对话语料库 DOTS-NLP-216

  在本次发布的第二批北京市人工智能大模型高质量数据集中,共有来自16家单位不同领域的41个数据集,涵盖医学、生物、农业、金融、政务、互联网、智慧城市、自动驾驶、科技服务、商业分析、产业研究、市场营销等,数据总量规模约112TB,为通用大模型和行业大模型训练及应用落地提供了坚实有力的“资源”保障。

  

  点击图片或扫描二维码查看更多数据集详情

  海天瑞声“中文千万轮对话语料库 DOTS-NLP-216”是一个符合中国人表达习惯的自然对话数据集,共计约1,0000,000轮,上亿级token,包含正式非正式风格对话,使用偏口语化自然表达。覆盖工作、生活、校园等场景,及金融、教育、娱乐、体育、汽车、科技等领域。

  在数据集构成上,DOTS-NLP-216包含了对真实场景的对话采集,及高度还原真实场景的模拟对话这两种方式,兼顾分布的代表性、多样性和样本规模。海天瑞声始终致力于在安全合规的基础上,为大模型提供更好的性能和鲁棒性,帮助企业更轻松的构建高质量生成式AI应用。

  样例:

  

  海天瑞声深耕人工智能数据领域近20年,始终肩负“做智能世界数据基石”的使命,为全球810家企业构建数据底座。至今积累了超1300个自有知识产权的大规模工程化数据库,数据库数量全球领先。持续投入研发体系,打造覆盖智能语音、计算机视觉、自然语言处理等核心领域的一体化数据处理平台DOTS。面向大模型领域,为客户提供包括智能算法平台协同标注、价值观对齐、专业领域知识等全方位服务,以高质量数据结合应用场景赋能大模型高质量发展。

有问题请联系 767871486@qq.com 商务合作广告联系 QQ:767871486
www.chaguwang.cn 查股网