2D-3D 공간 학습, 재귀적 코드(ReCode), 잠재 공간 추론으로 진화하는 차세대 AI 에이전트
모호한 쿼리 상호작용, 능동형 로봇 제어, 무한 3D 세계 생성 및 데이터 에이전트 자율성 탐구
모호한 쿼리 상호작용, 능동형 로봇 제어, 무한 3D 세계 생성 및 데이터 에이전트 자율성 탐구
Concerto: Joint 2D-3D Self-Supervised Learning Emerges Spatial Representations
https://arxiv.org/abs/2510.23607
인간이 여러 감각을 통해 공간 개념을 학습하는 방식에 착안하여, 2D 이미지와 3D 포인트 클라우드 데이터를 함께 활용하는 새로운 자기 지도 학습(self-supervised learning) 방법론 'Concerto'를 제안한다. 이 모델은 3D 데이터 자체 내에서 학습하고, 2D와 3D 데이터 간의 관계를 학습하는 것을 결합한다. 그 결과, 3D 씬(scene) 인식 작업에서 기존 2D 또는 3D 단독 모델보다 우수한 성능을 보이며 ScanNet과 같은 주요 벤치마크에서 SOTA(최고 성능)를 달성했다. 또한 비디오나 언어(CLIP)와 연계하여 개방형 세계 인식으로도 확장될 수 있다.
![[2025년 44째주] MetaX 주간 AI 논문 리뷰](https://metax-images-bucket.s3.ap-southeast-2.amazonaws.com/defaults/aitech7.webp)

