LangSplat: 3D 语言场重建与交互系统

Author: 李宗阳 | 位置实践与服务-课程作业展示

🌟 项目简介 (Project Overview)

LangSplat 是一个融合了前沿 3D 渲染与大语言模型的人工智能跨模态交互系统。它基于 3D Gaussian Splatting (3DGS) 技术实现了真实物理世界的高保真三维重建，并创新性地将 CLIP 视觉语言大模型 的空间语义特征“蒸馏”到了 3D 空间中。

简单来说，不仅为计算机赋予了一双“看清” 3D 世界的眼睛，更赋予了它一个能“听懂”人类语言的大脑。你只需输入自然语言指令（如：“寻找一个蓝色的毛绒玩具”），系统就能在错综复杂的 3D 场景中瞬间锁定，并实现物理级别的精确高亮。

1. 真实世界原始数据采集 (Raw Video)

这是使用佳能R50微单相机拍摄的原始场景视频，取景于信息学部星湖旁。包含了复杂的桌面杂物、遮挡关系以及不同材质，极具三维重建挑战性。

2. 3DGS 底层物理结构 (Interactive 3D Splatting)

解码了球谐函数特征后的 3D 粒子群。直接在浏览器中旋转和缩放我们重建的 3D 桌面场景。（💡 提示：鼠标左键旋转，滚轮缩放，右键平移）

3. 渲染质量对比 (GT vs Vanilla 3DGS)

通过 30,000 次迭代训练后，纯净版 3DGS 的渲染画面与真实拍摄照片达到了高度一致。

Ground Truth (真实照片)

Vanilla 3DGS (纯净 3D 渲染)

4. LangSplat 魔法：语义交互高亮 (Semantic Query)

在这里，3D 空间拥有了语义感知大脑。请在下方下拉菜单中选择查询指令，系统将为你进行物理级别的高亮定位。

💬 请选择你想高亮的物体：

前景与应用意义 (Future Applications)

将自然语言理解能力注入 3D 空间，构建真正的“3D 语言场 (3D Language Field)”，是迈向通用人工智能（AGI）的重要一步。本项目所展示的基础跨模态能力，在未来具有极其广阔的现实落地场景：

具身智能 (Embodied AI)

未来的家庭或工业机器人不再需要繁琐的三维坐标系编程。主人只需用自然语言下达指令（如“帮我把桌子上的佳能镜头拿过来”），机器人即可利用 LangSplat 构建的 3D 语义场，自主在三维空间中理解、定位并抓取目标。

空间计算与 AR/VR

佩戴 AR 眼镜的用户在面对复杂的机房或维修场景时，可以通过语音查询特定零件。系统将在用户的真实视野中，以高亮渲染（3D Splatting）的形式直接标记出物理实体的位置，实现真正的虚实结合向导。

应急救援与场景理解

在灾区等复杂非结构化地形中，无人机扫过废墟建立 3D 场景后，救援人员只需输入“寻找红色布料”或“寻找生命支持设备”，系统即可秒级在 3D 废墟中进行语义定位，为抢险争取黄金时间。

次世代数字孪生与搜索

颠覆传统的 2D 图片和列表搜索。在未来的数字孪生商场或虚拟展厅中，用户输入文字需求，目标商品将直接从庞大的 3D 空间中脱颖而出，实现“所说即所见”的沉浸式空间交互体验。