[2025년 50째주] MetaX 주간 AI 논문 리뷰

김한얼 기자

loenahmik@gmail.com | 2025-12-13 09:27:10

정밀한 시공간 제어와 서사적 일관성을 강화하여 몰입감을 높인 차세대 비디오 및 3D 생성 기술의 고도화
병렬 추론 도입과 연산 효율성 최적화를 통해 대규모 언어 모델의 성능 한계를 극복하는 아키텍처 혁신

Wan-Move: Motion-controllable Video Generation via Latent Trajectory Guidance

https://arxiv.org/abs/2512.08765

Wan-Move는 비디오 생성 모델에 정밀한 동작 제어 기능을 부여하는 간단하고 확장 가능한 프레임워크로, 기존 방법들의 거친 제어 입도와 낮은 확장성 문제를 해결하기 위해 고안되었다. 이 방법의 핵심 아이디어는 객체의 움직임을 밀집된 점 궤적(dense point trajectories)으로 표현하고, 이를 잠재 공간(latent space)에 투영하여 첫 프레임의 특징을 궤적에 따라 전파함으로써 아키텍처 변경 없이 기존 이미지-비디오 모델(예: Wan-I2V-14B)에 통합 가능한 동작 인식 특징 맵을 생성하는 것이다. 이를 통해 별도의 보조 동작 인코더 없이도 미세 조정이 용이하며, 사용자 연구 결과 Kling 1.5 Pro의 모션 브러시 기능과 유사한 수준의 제어 능력을 갖춘 5초 길이의 480p 비디오를 생성할 수 있음이 입증되었고, 더불어 대규모 데이터와 정밀한 주석을 포함한 MoveBench 벤치마크를 통해 그 우수성을 검증하였다.

Wan-Move: Motion-controllable Video Generation via Latent Trajectory Guidance


Visionary: The World Model Carrier Built on WebGPU-Powered Gaussian Splatting Platform

https://arxiv.org/abs/2512.08478

Visionary는 3D Gaussian Splatting(3DGS)과 메시 렌더링을 위한 개방형 웹 네이티브 플랫폼으로, 기존 뷰어들이 가진 무겁고 제한적인 배포 환경 문제를 해결하기 위해 WebGPU 기반 렌더러와 프레임별 ONNX 추론 기능을 통합하여 개발되었다. 이 플랫폼은 표준화된 가우시안 생성자 계약(Gaussian Generator contract)을 도입하여 단순한 3DGS 렌더링뿐만 아니라 매 프레임 가우시안을 생성하거나 업데이트하는 알고리즘을 플러그 앤 플레이 방식으로 지원하며, 피드포워드 생성 후처리를 가능하게 한다. 또한 three.js 라이브러리와의 통합을 지원하는 간결한 TypeScript API를 제공하여 기존 웹 애플리케이션에 쉽게 적용할 수 있고, GPU 기반 정렬을 통해 기존 웹 뷰어보다 뛰어난 렌더링 효율성을 보이며 MLP 기반 3DGS, 4DGS 등 다양한 모델을 브라우저에서 직접 실행할 수 있게 하여 3DGS 기술의 접근성과 재현성을 크게 낮추었다.

Visionary: The World Model Carrier Built on WebGPU-Powered Gaussian Splatting Platform


Native Parallel Reasoner: Reasoning in Parallelism via Self-Distilled Reinforcement Learning

https://arxiv.org/abs/2512.07461

Native Parallel Reasoner(NPR)는 대규모 언어 모델(LLM)이 외부의 지도 없이 스스로 병렬 추론 능력을 진화시킬 수 있도록 돕는 프레임워크로, 순차적인 모방 학습에서 벗어나 진정한 병렬 인지 능력으로 전환하게 한다. NPR은 콜드 스타트 형식 발견에서 위상 제약으로 이어지는 자가 증류 점진적 학습 패러다임, 실행 그래프 내에서 분기 정책을 최적화하여 시행착오를 통해 적응형 분해를 학습하는 병렬 인식 정책 최적화(PAPO) 알고리즘, 그리고 SGLang의 메모리 관리 및 흐름 제어를 재설계하여 안정적인 대규모 병렬 RL 학습을 가능하게 하는 견고한 NPR 엔진이라는 세 가지 핵심 혁신을 통해 구현된다. Qwen3-4B 모델에 적용했을 때 8개의 추론 벤치마크에서 최대 24.5%의 성능 향상과 4.6배의 추론 속도 개선을 달성했으며, 기존 방식과 달리 100% 진정한 병렬 실행을 보여주며 효율적이고 확장 가능한 에이전트 추론의 새로운 표준을 제시하였다.

Native Parallel Reasoner: Reasoning in Parallelism via Self-Distilled Reinforcement Learning


TwinFlow: Realizing One-step Generation on Large Models with Self-adversarial Flows

https://arxiv.org/abs/2512.05150

TwinFlow는 대규모 멀티모달 생성 모델의 추론 효율성을 극대화하기 위해 고안된 간단하고 효과적인 프레임워크로, 고정된 교사 모델이나 불안정한 표준 적대적 네트워크(GAN) 학습 없이 단 1단계(1-NFE)만으로 고품질 이미지를 생성할 수 있게 한다. 기존의 증류 기반 방법들이 반복적인 절차를 요구하거나 적은 단계에서 성능이 급격히 저하되는 단점을 극복하기 위해 제안되었으며, 텍스트-이미지 작업에서 SANA-Sprint와 같은 강력한 베이스라인을 능가하는 0.83의 GenEval 점수를 기록하였다. 또한 Qwen-Image-20B와 같은 대규모 모델에 대한 전체 파라미터 학습을 통해 확장성을 입증하였고, 1-NFE만으로 기존 100-NFE 모델의 성능에 필적하는 결과를 보여주어 계산 비용을 100배 절감하면서도 품질 저하를 최소화하는 성과를 달성하였다.

TwinFlow: Realizing One-step Generation on Large Models with Self-adversarial Flows


StereoWorld: Geometry-Aware Monocular-to-Stereo Video Generation

https://arxiv.org/abs/2512.09363

StereoWorld는 단안 비디오를 고품질 스테레오 비디오로 변환하기 위한 엔드투엔드 프레임워크로, 사전 학습된 비디오 생성 모델을 재활용하여 비용 효율적이고 아티팩트가 적은 스테레오 콘텐츠를 제작한다. 이 모델은 단안 비디오 입력을 조건으로 사용하면서 기하학적 인식 정규화(geometry-aware regularization)를 통해 3D 구조적 충실도를 보장하고, 시공간 타일링(spatio-temporal tiling) 기법을 통합하여 고해상도 합성을 효율적으로 수행한다. 또한 대규모 학습과 평가를 위해 자연스러운 인간 동공 간 거리(IPD)에 맞춰 정렬된 1,100만 프레임 이상의 고화질 스테레오 비디오 데이터셋을 구축하였으며, 실험 결과 기존 방법들보다 시각적 충실도와 기하학적 일관성이 뛰어난 스테레오 비디오를 생성함을 입증하였다.

StereoWorld: Geometry-Aware Monocular-to-Stereo Video Generation


Beyond Real: Imaginary Extension of Rotary Position Embeddings for Long-Context LLMs

https://arxiv.org/abs/2512.07525

Beyond Real은 대규모 언어 모델(LLM)의 긴 문맥 의존성 모델링을 강화하기 위해 기존 회전 위치 임베딩(RoPE)을 확장한 방법으로, 표준 구현에서 어텐션 점수 계산 시 버려지던 복소수 내적의 허수 성분을 재도입하는 데 초점을 맞춘다. 이 방법은 위상 정보를 포함한 허수 성분을 활용하여 이중 성분 어텐션 점수를 생성함으로써 위치 정보의 손실을 막고 관계적 세부 사항을 보존하여 긴 문맥 모델링 성능을 향상시킨다. 이론적 및 경험적 검증을 통해 이 접근법이 긴 문맥 내의 의존성을 더 잘 모델링함을 확인하였으며, 다양한 긴 문맥 언어 모델링 벤치마크 평가에서 문맥 길이가 길어질수록 표준 RoPE 대비 성능 향상 효과가 뚜렷하게 나타남을 입증하였다.

Beyond Real: Imaginary Extension of Rotary Position Embeddings for Long-Context LLMs


Preserving Source Video Realism: High-Fidelity Face Swapping for Cinematic Quality

https://arxiv.org/abs/2512.07951

LivingSwap은 영화 및 엔터테인먼트 제작을 위한 고충실도 비디오 얼굴 교체 모델로, 소스 비디오의 풍부한 시각적 속성을 활용하여 긴 시퀀스에서도 높은 품질과 시간적 일관성을 유지하도록 설계되었다. 이 모델은 키프레임을 조건 신호로 사용하여 목표 정체성을 주입함으로써 유연한 편집을 가능하게 하고, 비디오 참조 안내와 결합된 시간적 스티칭(temporal stitching) 기술을 통해 안정적인 정체성 보존과 고해상도 재구성을 수행한다. 또한 참조 기반 학습을 위해 데이터가 부족한 문제를 해결하고자 Face2Face라는 쌍방향 얼굴 교체 데이터셋을 구축하여 신뢰할 수 있는 정답 감독(ground-truth supervision)을 제공하였으며, 실험을 통해 소스 비디오의 표정, 조명, 움직임을 자연스럽게 유지하면서 목표 얼굴로 완벽하게 통합하는 최신 성능을 보여주었다.

Preserving Source Video Realism: High-Fidelity Face Swapping for Cinematic Quality


Unified Video Editing with Temporal Reasoner

https://arxiv.org/abs/2512.07469

VideoCoF는 사고의 사슬(Chain-of-Thought)에서 영감을 받은 프레임의 사슬(Chain-of-Frames) 접근 방식을 통해 기존 비디오 편집 모델들의 마스크 의존성과 공간적 단서 부족 문제를 해결하는 통합 비디오 편집 프레임워크다. 이 방식은 비디오 확산 모델이 목표 비디오 토큰을 생성하기 전에 편집 영역에 대한 추론 토큰(edit-region latents)을 먼저 예측하도록 강제하는 보고, 추론하고, 편집하는 절차를 따르며, 이를 통해 사용자 마스크 없이도 정밀한 영역 지정과 세밀한 편집을 가능하게 한다. 또한 추론 토큰을 활용한 RoPE 정렬 전략을 도입하여 동작 일치성을 보장하고 학습된 길이를 초과하는 영상 생성까지 지원하며, 5만 쌍의 적은 데이터만으로도 VideoCoF-Bench에서 최고 성능을 달성하여 그 효율성과 효과를 입증하였다.

Unified Video Editing with Temporal Reasoner


OneStory: Coherent Multi-Shot Video Generation with Adaptive Memory

https://arxiv.org/abs/2512.07802

OneStory는 여러 숏으로 구성된 일관된 서사를 생성하기 위한 멀티 숏 비디오 생성(MSV) 모델로, 기존 방법들이 겪는 장기적인 숏 간 문맥 모델링의 어려움을 극복하기 위해 전역적이면서도 압축적인 문맥 기억 방식을 제안한다. 이 모델은 MSV를 다음 숏 생성 작업으로 재정의하여 자기회귀적으로 숏을 합성하며, 이전 숏에서 정보량이 많은 프레임을 선별하여 의미적으로 연관된 전역 메모리를 구축하는 프레임 선택 모듈과 중요도 기반 패치화를 통해 압축된 문맥을 생성하는 적응형 컨디셔너(Adaptive Conditioner)를 도입하였다. 또한 실제 스토리텔링 패턴을 반영한 6만 개의 고품질 멀티 숏 데이터셋으로 사전 학습된 I2V 모델을 미세 조정함으로써, 텍스트 및 이미지 조건 환경 모두에서 다양하고 복잡한 장면들에 걸쳐 서사적 일관성이 뛰어난 긴 형식의 비디오를 생성하는 데 성공하였다.

OneStory: Coherent Multi-Shot Video Generation with Adaptive Memory


[METAX = 김한얼 기자]

[ⓒ META-X. 무단전재-재배포 금지]

WEEKLY HOT