[2025년 47째주] MetaX 주간 AI 논문 리뷰

옴니모달 MoE와 병렬 확산(Diffusion) 모델을 통한 고해상도 비디오·3D 생성 및 구조적 이해의 통합
강화 학습(RL), 모델 수핑(Souping), 상호작용 스케일링을 통한 과학적 논리 및 연산 효율성 극대화

Kandinsky 5.0: A Family of Foundation Models for Image and Video Generation

https://arxiv.org/abs/2511.14993

Kandinsky 5.0은 고해상도 이미지와 10초 분량의 비디오 합성을 위한 최신 파운데이션 모델 제품군으로, 6B 파라미터의 Image Lite, 빠르고 가벼운 2B 파라미터의 Video Lite, 그리고 뛰어난 비디오 생성 품질을 자랑하는 19B 파라미터의 Video Pro 등 세 가지 핵심 모델로 구성된다. 이 연구는 데이터 수집부터 필터링, 클러스터링에 이르는 전체 데이터 큐레이션 과정을 포괄적으로 검토하고, 자기 지도 미세 조정(SFT) 및 강화 학습(RL) 기반 사후 학습과 같은 품질 향상 기술을 적용한 다단계 훈련 파이프라인을 소개한다. 또한 새로운 아키텍처와 추론 최적화를 통해 높은 생성 속도와 성능을 달성했음을 입증하며, 연구 커뮤니티의 발전을 위해 코드와 훈련 체크포인트를 오픈 소스로 공개하여 광범위한 생성형 애플리케이션에 활용될 수 있도록 지원한다.

[2025년 47째주] MetaX 주간 AI 논문 리뷰

Kandinsky 5.0: A Family of Foundation Models for Image and Video Generation

관련 기사

앤트로픽 650억 달러 투자 유치, 1조 달러 AI 기업 시대 임박

운전이 사라지는 시대, 운전의 즐거움은 어디로 가는가... 현대 N 레이싱 시뮬레이터가 던지는 질문

[게임 장르 이야기] 함께하는 세상을 꿈꾼 ′MMORPG′ ① - 초기 실험에서 WoW의 시대까지