100k star: Claude Code、Cursor、Devin AI、Junie、Kiro、Manus智能体工具、NotionAI、Orchids.app、Perplexity、Poke、Qoder、Replit、Same.dev、Trae、Traycer AI、VSCode智能体、Warp.dev、Windsurf、Xcode、Z.ai代码、dia和v0(以及其他开源的)系统提示词
摘要:基于视觉的自动驾驶感知已经经历了从鸟瞰图 (BEV) 表示到 3D 语义占用的转变。与 BEV 平面相比,3D 语义占用进一步提供了沿垂直方向的结构信息。本文介绍了 OccFormer,这是一种双路径变压器网络,可有效处理 3D 体积以进行语义占用预测。OccFormer 实现了相机生成的 3D 体素特征的长距离、动态和高效编码。
本仓库包含对 Claude Code v1.0.33 进行逆向工程的完整研究和分析资料。包括对混淆源代码的深度技术分析、系统架构文档,以及重构 Claude Code agent 系统的实现蓝图。主要发现包括实时 Steering 机制、多 Agent 架构、智能上下文管理和工具执行管道。该项目为理解现代 AI agent 系统设计和实现提供技术参考。
三维占据预测能够全面描述周围场景,已成为三维感知领域的关键任务。现有方法大多局限于单视角或有限视角的离线感知,无法满足具身智能体通过渐进式探索逐步感知场景的需求。本文针对这一实际应用场景,提出具身三维占据预测任务,并开发基于高斯分布的EmbodiedOcc框架来实现该目标。我们使用均匀的三维语义高斯分布初始化全局场景,并通过具身智能体逐步更新观测到的局部区域。
三维语义占用预测是实现稳健视觉导向自动驾驶的关键任务,其核心在于精准解析周围场景的细粒度几何特征与语义属性。现有方法多采用密集网格化的场景表征方式,却忽视了驾驶场景的空间稀疏特性。尽管三维语义高斯模型作为以对象为中心的稀疏替代方案,但多数高斯分布仍存在描述空区域效率低下的问题。针对这一缺陷,我们提出概率高斯叠加模型:将每个高斯分布解释为邻域被占用的概率分布,并通过概率乘法构建整体几何结构。
理解驾驶场景的三维几何结构和语义对于安全的自动驾驶至关重要。近期三维占用预测方面的进展改进了场景表示,但往往存在空间不一致的问题,导致出现悬浮伪影和较差的表面定位。现有的体素级损失(例如交叉熵)无法保证几何一致性。在本文中,我们提出了GaussRender,这是一个通过强制投影一致性来改进三维占据学习的模块。我们的核心思想是将预测的和真实的三维占据都投影到二维相机视图中,并在该视图中进行监督。
[CVPR2025] STCOcc:用于 3D 的稀疏空间占用率和场景流预测时间级联革新(SHTOcc的作者在该项目下的提问:https://github.com/lzzzzzm/STCOcc/issues/3)
本文提出的 SparseOcc,是一种受稀疏点云处理启发的高效占用网络。1,3D 稀疏扩散器使用空间分解的 3D 稀疏卷积核执行潜在补全; 2,transformer head 被重新设计为 sparse 变体。SparseOcc 在密集基线上实现了 74.9% 的 FLOP 显著减少。有趣的是,它还提高了准确性,从 12.8% 到 14.1% mIOU。
3D视觉定位(3D Visual Grounding, 3DVG)任务旨在根据自然语言描述在三维场景中定位指定的目标对象。这一多模态任务具有很大挑战性,需要同时理解3D场景和语言描述。在实际应用(如机器人、AR/VR)中对模型的效率有着较高的要求,但现有方法在推理速度上受到了一定限制。原作者讲解链接:https://zhuanlan.zhihu.com/p/32438313932
基于视觉的三维占位预测任务中,二维到三维的视图转换是必不可少的步骤。以前的方法大多是前向投影,如BEVPooling和VoxelPooling,它们都是将2D图像特征映射到3D网格中。然而,当前表示某一高度范围内特征的网格通常会引入许多属于其他高度范围的混淆特征。为了应对这一挑战,我们提出了深度高度解耦(DHD),这是一个新颖的框架,在过滤掉令人困惑的特征之前,它包含了显式高度。
语义占用感知对于自动驾驶至关重要,因为自动驾驶汽车需要对3D城市结构进行细粒度感知。然而,现有的相关基准在城市场景中缺乏多样性,并且它们仅评估前视图预测。为了对周围感知算法进行全面的基准测试,我们提出了OpenOccupancy,这是第一个周围语义占用感知基准。在OpenOccupancy基准测试中,我们用密集的语义占用注释扩展了大规模的nuScenes数据集。
在自动驾驶领域,3D网格占用(occupancy)感知很重要,但空间中大部分网格是空的,对这些空体素进行分类需要次优的计算资源分配,减少这些空体素需要复杂的算法设计。为此,我们提出了一个关于占用率预测任务的新观点:将其制定为一个精简的集合预测范式,而不需要明确的空间建模或复杂的稀疏化过程。我们提出的框架,称为OPUS,利用一个转换器编码器-解码器架构,使用一组可学习的查询来同时预测占用的位置和类。