범용 에이전트의 3D 오픈월드 정복부터 멀티 에이전트 신약 발굴까지
작은 모델의 추론 혁명, 메모리 환각 평가, 안전 얼라인먼트의 창의적 한계
작은 모델의 추론 혁명, 메모리 환각 평가, 안전 얼라인먼트의 창의적 한계
Lumine: An Open Recipe for Building Generalist Agents in 3D Open Worlds
https://arxiv.org/abs/2511.08892
'Lumine'은 3D 오픈월드 환경에서 실시간으로 장시간의 복잡한 임무를 완수할 수 있는 범용 에이전트 개발을 위한 최초의 오픈 레시피를 제시한다. 이 에이전트는 비전-언어 모델(VLM)을 기반으로 인식, 추론, 행동을 엔드-투-엔드 방식으로 통합하며, 5Hz의 원시 픽셀 입력을 30Hz의 정밀한 키보드/마우스 조작으로 변환하고 필요시 적응형으로 추론을 수행한다. '원신'에서 훈련된 Lumine은 5시간 분량의 메인 스토리를 인간 수준의 효율로 완료하고 자연어 지시를 따라 다양한 작업을 수행하며, 특히 별도 학습 없이 '명조'나 '붕괴: 스타레일' 같은 타 게임에서도 뛰어난 제로샷 일반화 성능을 입증했다.
![[2025년 46째주] MetaX 주간 AI 논문 리뷰](https://metax-images-bucket.s3.ap-southeast-2.amazonaws.com/defaults/aitech2.webp)

