[2025년 51째주] MetaX 주간 AI 동향 리포트

멀티모달 모델의 비약적 진화와 코딩 에이전트 혁신을 통한 지능형 자동화 솔루션의 확산
고효율 인프라 운영 체계 확립과 글로벌 자본 및 기술 패권을 둘러싼 산업 생태계의 전략적 재편

차세대 모델 출시 및 멀티모달 기술의 진화

OpenAI는 더욱 빠르고 정확한 이미지 생성 모델인 GPT-Image-1.5를 출시하며 시장에서의 경쟁력을 강화하였다. 이 모델은 지시 사항 준수 능력과 이미지 편집 기능이 대폭 개선되었으며, 구글의 제미나이(Gemini) 제품군이 최근 벤치마크에서 보여준 성과에 대응하기 위한 조치로 풀이된다. 이미지 생성 기술은 사용자를 지속적으로 유인하는 핵심적인 기능으로 평가받고 있다.

구글은 저지연성과 높은 지능을 동시에 제공하는 Gemini 3 Flash 모델을 공개하였다. 이 모델은 사용자가 일상적인 작업을 학습하고 계획하며 무언가를 구축하는 과정을 신속하게 돕기 위해 설계된 경량 모델이다. 특히 저렴한 가격과 빠른 속도에도 불구하고 상위 모델인 Pro의 지능을 상당 부분 유지하고 있다는 점이 강점으로 꼽힌다.

메타는 복잡한 오디오 환경에서 특정 소리만 분리해내는 SAM Audio 모델을 발표하였다. 이 모델은 텍스트, 시각적 정보, 시간 기반 프롬프트를 사용하여 배경 소음을 제거하거나 특정 악기 소리만 추출하는 등 유연한 사운드 편집 기능을 제공한다. 또한, 메타는 2026년 상반기 출시를 목표로 이미지와 비디오 생성에 특화된 신규 모델 망고(Mango)를 개발 중이다.

엔비디아는 오픈 모델 형태의 Nemotron 3 제품군을 선보이며 모델 생태계 확장에 나섰다. 300억 개의 파라미터를 가진 Nano 모델을 시작으로 2026년 초에는 Super(100B)와 Ultra(500B) 모델을 출시할 계획이다. 이는 독자적인 칩을 개발하여 엔비디아의 의존도를 낮추려는 빅테크 기업들에 맞서 자사의 인프라와 소프트웨어 우위를 지키려는 전략적 선택이다.

AI 인터페이스는 텍스트 중심의 채팅을 넘어 더욱 역동적인 생성형 UI(Generative UI)로 진화하고 있다. OpenAI의 애플리케이션 책임자는 챗GPT가 사용자의 작업 맥락에 따라 이미지 스튜디오, 인라인 쓰기 블록, 대화형 시각 답변 등을 적절히 띄워주는 인터페이스로 변화할 것이라고 예고하였다. 이러한 변화는 사용자가 기술과 상호작용하는 방식을 근본적으로 바꿀 것으로 보인다.

[2025년 51째주] MetaX 주간 AI 동향 리포트

차세대 모델 출시 및 멀티모달 기술의 진화

관련 기사

바다는 알고 있었을 것이다

자리에 맞는 태도

정체성은 변하는가, 드러나는가