파운데이션 모델의 진화: 멀티모달 추론과 상호작용형 Physical AI로의 확장 확산 모델
고희소성 MoE, 하드웨어 양자화 혁신을 통한 AI 효율성 및 안전성 확보
고희소성 MoE, 하드웨어 양자화 혁신을 통한 AI 효율성 및 안전성 확보
Thinking with Video: Video Generation as a Promising Multimodal Reasoning Paradigm
https://arxiv.org/abs/2511.04570
'Thinking with Video'는 텍스트와 이미지 기반 추론의 정적인 한계를 극복하기 위해 Sora-2와 같은 비디오 생성 모델을 활용하는 새로운 패러다임을 제안한다. 이 접근법은 동적인 프로세스와 연속적인 변화를 통일된 시간적 프레임워크 안에서 통합적으로 다루며, 이를 검증하기 위해 VideoThinkBench라는 벤치마크를 개발했다. 이 벤치마크에서 Sora-2는 비전 및 텍스트 중심 작업 모두에서 강력한 추론 능력을 입증하며, 비디오 생성 모델이 텍스트와 비전을 아우르는 통합 멀티모달 추론기로서의 잠재력을 지니고 있음을 보여준다.
![[2025년 45째주] MetaX 주간 AI 논문 리뷰](https://metax-images-bucket.s3.ap-southeast-2.amazonaws.com/defaults/aitech4.webp)
