옴니모달 MoE와 병렬 확산(Diffusion) 모델을 통한 고해상도 비디오·3D 생성 및 구조적 이해의 통합
강화 학습(RL), 모델 수핑(Souping), 상호작용 스케일링을 통한 과학적 논리 및 연산 효율성 극대화
강화 학습(RL), 모델 수핑(Souping), 상호작용 스케일링을 통한 과학적 논리 및 연산 효율성 극대화
Kandinsky 5.0: A Family of Foundation Models for Image and Video Generation
https://arxiv.org/abs/2511.14993
Kandinsky 5.0은 고해상도 이미지와 10초 분량의 비디오 합성을 위한 최신 파운데이션 모델 제품군으로, 6B 파라미터의 Image Lite, 빠르고 가벼운 2B 파라미터의 Video Lite, 그리고 뛰어난 비디오 생성 품질을 자랑하는 19B 파라미터의 Video Pro 등 세 가지 핵심 모델로 구성된다. 이 연구는 데이터 수집부터 필터링, 클러스터링에 이르는 전체 데이터 큐레이션 과정을 포괄적으로 검토하고, 자기 지도 미세 조정(SFT) 및 강화 학습(RL) 기반 사후 학습과 같은 품질 향상 기술을 적용한 다단계 훈련 파이프라인을 소개한다. 또한 새로운 아키텍처와 추론 최적화를 통해 높은 생성 속도와 성능을 달성했음을 입증하며, 연구 커뮤니티의 발전을 위해 코드와 훈련 체크포인트를 오픈 소스로 공개하여 광범위한 생성형 애플리케이션에 활용될 수 있도록 지원한다.
![[2025년 47째주] MetaX 주간 AI 논문 리뷰](https://metax-images-bucket.s3.ap-southeast-2.amazonaws.com/defaults/aitech3.webp)

