LangSplat: 3D 语言场重建与交互系统

Author: 李宗阳 | 位置实践与服务-课程作业展示

🌟 项目简介 (Project Overview)

LangSplat 是一个融合了前沿 3D 渲染与大语言模型的人工智能跨模态交互系统。它基于 3D Gaussian Splatting (3DGS) 技术实现了真实物理世界的高保真三维重建,并创新性地将 CLIP 视觉语言大模型 的空间语义特征“蒸馏”到了 3D 空间中。

简单来说,不仅为计算机赋予了一双“看清” 3D 世界的眼睛,更赋予了它一个能“听懂”人类语言的大脑。你只需输入自然语言指令(如:“寻找一个蓝色的毛绒玩具”),系统就能在错综复杂的 3D 场景中瞬间锁定,并实现物理级别的精确高亮。

1. 真实世界原始数据采集 (Raw Video)

这是使用佳能R50微单相机拍摄的原始场景视频,取景于信息学部星湖旁。包含了复杂的桌面杂物、遮挡关系以及不同材质,极具三维重建挑战性。

2. 3DGS 底层物理结构 (Interactive 3D Splatting)

解码了球谐函数特征后的 3D 粒子群。直接在浏览器中旋转和缩放我们重建的 3D 桌面场景。(💡 提示:鼠标左键旋转,滚轮缩放,右键平移)

3. 渲染质量对比 (GT vs Vanilla 3DGS)

通过 30,000 次迭代训练后,纯净版 3DGS 的渲染画面与真实拍摄照片达到了高度一致。

Ground Truth (真实照片)

Vanilla 3DGS (纯净 3D 渲染)

4. LangSplat 魔法:语义交互高亮 (Semantic Query)

在这里,3D 空间拥有了语义感知大脑。请在下方下拉菜单中选择查询指令,系统将为你进行物理级别的高亮定位。

前景与应用意义 (Future Applications)

将自然语言理解能力注入 3D 空间,构建真正的“3D 语言场 (3D Language Field)”,是迈向通用人工智能(AGI)的重要一步。本项目所展示的基础跨模态能力,在未来具有极其广阔的现实落地场景:

具身智能 (Embodied AI)

未来的家庭或工业机器人不再需要繁琐的三维坐标系编程。主人只需用自然语言下达指令(如“帮我把桌子上的佳能镜头拿过来”),机器人即可利用 LangSplat 构建的 3D 语义场,自主在三维空间中理解、定位并抓取目标。

空间计算与 AR/VR

佩戴 AR 眼镜的用户在面对复杂的机房或维修场景时,可以通过语音查询特定零件。系统将在用户的真实视野中,以高亮渲染(3D Splatting)的形式直接标记出物理实体的位置,实现真正的虚实结合向导。

应急救援与场景理解

在灾区等复杂非结构化地形中,无人机扫过废墟建立 3D 场景后,救援人员只需输入“寻找红色布料”或“寻找生命支持设备”,系统即可秒级在 3D 废墟中进行语义定位,为抢险争取黄金时间。

次世代数字孪生与搜索

颠覆传统的 2D 图片和列表搜索。在未来的数字孪生商场或虚拟展厅中,用户输入文字需求,目标商品将直接从庞大的 3D 空间中脱颖而出,实现“所说即所见”的沉浸式空间交互体验。