[2025년 50째주] MetaX 주간 AI 논문 리뷰

정밀한 시공간 제어와 서사적 일관성을 강화하여 몰입감을 높인 차세대 비디오 및 3D 생성 기술의 고도화
병렬 추론 도입과 연산 효율성 최적화를 통해 대규모 언어 모델의 성능 한계를 극복하는 아키텍처 혁신

Wan-Move: Motion-controllable Video Generation via Latent Trajectory Guidance

Wan-Move는 비디오 생성 모델에 정밀한 동작 제어 기능을 부여하는 간단하고 확장 가능한 프레임워크로, 기존 방법들의 거친 제어 입도와 낮은 확장성 문제를 해결하기 위해 고안되었다. 이 방법의 핵심 아이디어는 객체의 움직임을 밀집된 점 궤적(dense point trajectories)으로 표현하고, 이를 잠재 공간(latent space)에 투영하여 첫 프레임의 특징을 궤적에 따라 전파함으로써 아키텍처 변경 없이 기존 이미지-비디오 모델(예: Wan-I2V-14B)에 통합 가능한 동작 인식 특징 맵을 생성하는 것이다. 이를 통해 별도의 보조 동작 인코더 없이도 미세 조정이 용이하며, 사용자 연구 결과 Kling 1.5 Pro의 모션 브러시 기능과 유사한 수준의 제어 능력을 갖춘 5초 길이의 480p 비디오를 생성할 수 있음이 입증되었고, 더불어 대규모 데이터와 정밀한 주석을 포함한 MoveBench 벤치마크를 통해 그 우수성을 검증하였다.

[2025년 50째주] MetaX 주간 AI 논문 리뷰

Wan-Move: Motion-controllable Video Generation via Latent Trajectory Guidance

관련 기사

앤트로픽 650억 달러 투자 유치, 1조 달러 AI 기업 시대 임박

운전이 사라지는 시대, 운전의 즐거움은 어디로 가는가... 현대 N 레이싱 시뮬레이터가 던지는 질문

[게임 장르 이야기] 함께하는 세상을 꿈꾼 ′MMORPG′ ① - 초기 실험에서 WoW의 시대까지