chaguwang.cn-查股网.中国
查股网.CN
昆仑万维(300418)内幕信息消息披露
 
个股最新内幕信息查询:    
 

昆仑万维开源Matrix-3D大模型,树立3D世界生成新标杆

http://www.chaguwang.cn  2025-08-12  昆仑万维内幕信息

来源 :昆仑万维集团2025-08-12

  8月11日,昆仑万维SkyWork AI技术发布周正式启动。8月11日至8月15日,我们每天发布一款新模型,连续五天,覆盖多模态AI核心场景的前沿模型。

  8月12日,我们继续开源「昆仑万维Matrix世界模型系列」中的另一个重要组成模型——Matrix-3D,用于3D世界的生成与探索。

  

  昆仑万维「Matrix-3D」:

  GitHub:

  https://github.com/SkyworkAI/Matrix-3D

  HuggingFace:

  https://huggingface.co/Skywork/Matrix-3D

  技术报告:

  https://github.com/SkyworkAI/Matrix-3D/blob/main/asset/report.pdf

  项目主页:

  https://matrix-3d.github.io/

  空间智能是 AI 理解和生成世界的下一个前沿,赋予人工智能在三维空间中进行理解、推理、交互与建构的能力,是虚拟现实、机器人导航和通用智能体的关键基础。现有方法依赖多视图输入和局部视角渲染,难以从单张图像生成结构完整、可探索的3D世界。为此,昆仑万维提出 Matrix-3D ,一个融合全景视频生成与三维重建的统一框架。它从单图像出发,生成高质量、轨迹一致的全景视频,并直接还原可漫游的三维空间,对标李飞飞WorldLabs的生成效果,可实现更大范围的探索空间。

  01

  Matrix-3D:用于生成可探索、全景覆盖的3D世界的统一框架

  Matrix-3D通过引入全景表示、条件视频生成与3D重建模块,突破了现有方法在视角范围、几何一致性和视觉质量上的限制。

  Matrix-3D由以下核心部分组成:

  轨迹引导的全景视频生成模块:利用场景Mesh渲染图作为条件输入,训练视频扩散模型生成符合给定相机轨迹的全景视频。有效提升生成视频在空间结构上的一致性,缓解遮挡错误与图像伪影问题。

  双路径可选择的全景3D重建模块:优化路径:对生成的视频进行超分与3DGS优化,获取高质量3D结构。前馈网络路径:基于Transformer直接回归,从生成视频Latent特征快速预测3D几何属性,实现高效重建。

  Matrix-Pano 数据集:大规模高质量合成数据集,包含116K条带有相机轨迹、深度图和文本注释的静态全景视频序列。

  Matrix-3D 核心优势:

  场景全局一致:支持360°自由视角浏览,几何结构准确、遮挡关系自然,纹理风格统一。

  生成场景范围大:与现有场景生成方法相比,支持更大范围的、可360度自由探索的场景生成。

  生成高度可控:同时支持文本和图像输入,结果与输入高度匹配,支持自定义范围与无限扩展。

  泛化能力强:基于自研3D数据与视频模型先验,可生成多样、真实感强的高质量场景。

  生成速度快:首个Feed-Forward 全景3D场景生成模型,可快速生成高质量3D场景。

  Matrix-3D同时支持文本、图像作为输入,生成的3D场景支持自由探索,具备如下特性:

  1.视角一致性:生成3D场景支持360度自由环视,内容始终保持统一一致。

  输入图像(左下所示)/文本:一座有草屋顶的房子,风车,以及延伸至地平线远端的花田的动漫风格村庄,极为精细,暖光,舒适的氛围。

  2.几何、色彩一致性:生成3D场景的几何关系和遮挡关系正确,不同区域颜色统一。

  输入图像(左下所示)/文本:一座漂浮的岛屿上有瀑布和小屋,夜空中繁星与行星闪耀,整体采用动漫风格,细节丰富,色彩鲜艳,营造出充满魔法气息的氛围。

  3.精准控制:根据用户输入轨迹不同,能生成不同的3D场景。

  S弯折前行:

  右前方前行:

  4.大范围移动:对比李飞飞WorldLabs和HunyuanWorld 1.0方法,Matrix-3D支持更大范围的移动。

  WorldLabs移动效果:

  HunyuanWorld 1.0移动效果:

  Matrix-3D移动效果:

  5.无限续写:生成一段场景后,用户可以在此基础上对场景进行扩写。

  输入图像(左下所示)/文本:一座建在冰川上的未来研究基地,配有发光穹顶和先进机械,四周环绕着冰封景观,具有科幻美学风格,画面极为细致精美。

  输入第一次生成视频(上面视频右)的尾帧,进行续写:

  6.同时支持全景前馈重建和3DGS优化重建:前馈重建网络LRM支持10s快速场景重建,基于3DGS优化的策略可重建精细准确的场景。

  输入图像(左下所示),Matrix-3D可重建前馈网络(下中)以及3DGS优化场景(下右)。

  此外,Matrix-3D的全景视频生成结果在全景视频生成评测集上也取得了最好的生成质量,我们的运镜控制精度也达到了行业最优。更多测评细节可以查看技术报告。

  

  02

  技术实现:从构建Matrix-Pano数据集,再到网络设计思路与训练流程

  3D场景数据的稀缺性是制约3D场景生成研究发展的重要因素之一。为解决现有的3D场景数据集普遍存在规模较小、视角覆盖不全、质量参差不齐,以及缺乏精确相机和几何标注等问题,昆仑万维团队提出了Matrix-Pano数据集,一个基于Unreal Engine构建可扩展的全景视频数据集,专为生成高质量、可探索的全景视频而设计。

  Matrix-Pano数据集具有以下特点:

  场景环境多样:Matrix-Pano数据集包含116K全景视频,共22M全景帧,涵盖室内室外504个高质量3D场景及多样的天气与光照条件。

  自动化高效轨迹采样:基于 Navigation Mesh 和 Delaunay 三角剖分,结合 Dijkstra 最短路径与 Hermite 曲线平滑,自动化生成合理且连贯的全景视频探索轨迹。

  高仿真精确碰撞检测:采用边界框代理进行路径仿真,实时剔除发生几何剪切或物体穿透的轨迹,保证全景视频运动过程的物理合理性。

  工业级相机控制:融合多级平滑与 PID 控制,实现相机位置与旋转的双向解耦与动态阻尼,生成空间一致、稳定流畅的视频序列及精准相机和3D标注信息。

  开源可获取:基于上述多步骤的数据生成与筛选流程,计划对精选3D场景全景视频训练子集进行开源,以推动相关研究和技术发展。

  

  为了实现强泛化的3D场景生成,目前的主流思路是利用图像生成模型或者视频生成模型作为先验。然而这类方法都是在透视图上进行训练,仅能覆盖小范围的场景,用户超出该范围查看场景时,就会有明显的场景边界,如下图(左),影响用户的沉浸体验以及VR/AR等下游应用。

  

  为了保证生成的场景是支持任意地点、任意角度查看,我们选用了全景数据作为场景生成的中间表达。全景图可以覆盖360度的水平视角和180度的垂直视角,支持用户在任意角度查看(如上图右所示)。因此,多个位置的全景图拼接在一起构成全景视频,即可包含3D世界生成所需的所有信息。

  Matrix-3D借助全景视频中间表达,设计三个核心模块实现从单图/文本到3D世界的生成:

  全景图生成模块:从用户输入的文本或透视图生成全景图,具体通过LoRA微调生图模型实现。

  可控全景视频生成模块:根据用户指定的探索轨迹和范围精准生成全景图视频。

  3D场景生成模块:从全景图视频中解码出3D场景,支持用户自由探索。

  

  03

  前瞻布局空间智能,树立3D世界生成新标杆

  Matrix-3D作为3D世界生成的重要里程碑,有望在多个领域广泛应用:

  游戏与影视制作:快速生成高质量3D场景,助力游戏开发与虚拟拍摄,提升沉浸感并显著降低制作成本。

  具身智能:构建可控模拟环境,用于机器人训练与自动驾驶测试,提高系统的安全性与泛化能力。

  虚拟现实:生成可360°自由探索的沉浸式虚拟空间,为用户带来真实可感的交互体验。

  昆仑万维「可交互视频生成大模型Matrix-Game」与「3D世界生成与探索模型Matrix-3D」的开源,代表了公司对未来AI技术的提前布局,也将进一步赋能公司AI多矩阵产品的开发。

  未来,空间智能技术不仅带给用户全新的与生成世界交互的体验,还能大大提升了交互的多样性。空间智能技术的发展也是通往具身智能乃至AGI路上的一个重要技术里程碑。昆仑万维也将以空间智能为新的支点,持续研发与开源优秀的AI技术方案、与开发者和用户共建新的技术平台,为全球AGI时代的发展贡献中国方案。

查股网为非盈利性网站 本页为转载如有版权问题请联系 767871486@qq.comQQ:767871486
Copyright 2007-2025
www.chaguwang.cn 查股网