정밀한 시공간 제어와 서사적 일관성을 강화하여 몰입감을 높인 차세대 비디오 및 3D 생성 기술의 고도화
병렬 추론 도입과 연산 효율성 최적화를 통해 대규모 언어 모델의 성능 한계를 극복하는 아키텍처 혁신
병렬 추론 도입과 연산 효율성 최적화를 통해 대규모 언어 모델의 성능 한계를 극복하는 아키텍처 혁신
Wan-Move: Motion-controllable Video Generation via Latent Trajectory Guidance
https://arxiv.org/abs/2512.08765
Wan-Move는 비디오 생성 모델에 정밀한 동작 제어 기능을 부여하는 간단하고 확장 가능한 프레임워크로, 기존 방법들의 거친 제어 입도와 낮은 확장성 문제를 해결하기 위해 고안되었다. 이 방법의 핵심 아이디어는 객체의 움직임을 밀집된 점 궤적(dense point trajectories)으로 표현하고, 이를 잠재 공간(latent space)에 투영하여 첫 프레임의 특징을 궤적에 따라 전파함으로써 아키텍처 변경 없이 기존 이미지-비디오 모델(예: Wan-I2V-14B)에 통합 가능한 동작 인식 특징 맵을 생성하는 것이다. 이를 통해 별도의 보조 동작 인코더 없이도 미세 조정이 용이하며, 사용자 연구 결과 Kling 1.5 Pro의 모션 브러시 기능과 유사한 수준의 제어 능력을 갖춘 5초 길이의 480p 비디오를 생성할 수 있음이 입증되었고, 더불어 대규모 데이터와 정밀한 주석을 포함한 MoveBench 벤치마크를 통해 그 우수성을 검증하였다.
![[2025년 50째주] MetaX 주간 AI 논문 리뷰](https://metax-images-bucket.s3.ap-southeast-2.amazonaws.com/defaults/aitech2.webp)

