[2025년 48째주] MetaX 주간 AI 동향 리포트

DeepSeek-Math-V2의 IMO 2025 성과 및 Claude Opus 4.5 등 추론 모델의 도약과 코딩 에이전트 프레임워크의 고도화
COGS 압박 속 Amazon·xAI의 대규모 인프라 투자 경쟁 지속 및 Mixpanel 침해 등 AI 보안과 데이터 프라이버시 이슈의 부상

최신 모델 성능 및 수학/추론 능력 발전

DeepSeek의 새로운 수학 추론 모델인 DeepSeek-Math-V2가 IMO 2025에서 골드 레벨 성능을 달성하여, 최근 Google 및 OpenAI의 결과와 동등한 수준에 도달했다. 이 접근 방식은 LLM 기반 증명 검증기를 보상 모델로 훈련시켜, 최종 답변뿐만 아니라 단계별 추론을 검증하도록 생성기에 인센티브를 제공함으로써 올바른 답이 올바른 추론을 보장하지 않는다는 근본적인 한계를 해결한다. 한편, Robinhood CEO Vlad Tenev가 공동 설립한 AI 스타트업 Harmonic은 AI의 수학 및 추론 능력에 중점을 두고 있으며, 환각을 제거하는 것을 목표로 안전 필수 산업 분야의 상업적 응용을 탐색하고 있다.

Anthropic의 Claude Opus 4.5는 SWE-bench Verified에서 80%를 초과한 최초의 모델이며, 코딩, 도구 사용, 추론 벤치마크 전반에서 최첨단 결과를 달성했다. 이 모델은 이전 Opus 가격보다 낮은 가격으로 책정되었으며, 개발자가 속도와 기능 사이에서 선택할 수 있도록 하는 새로운 노력 매개변수를 포함하고, 무제한 대화 길이를 가능하게 하는 자동 컨텍스트 압축 기능을 제공한다. 또한, INTELLECT-3라는 100B+ 매개변수 Mixture-of-Experts 모델은 GLM 4.5 Air 기반 모델 상에서 SFT와 RL로 훈련되었으며, 크기에 비해 수학, 코드, 과학 및 추론 벤치마크 전반에서 최첨단 성능을 달성한다.

OpenAI의 GPT-5.1-Codex-Max는 GPT-5.1-Codex보다 향상된 성능을 보이며, SWE-bench-verified, SWE-Lancer-IC SWE 및 Terminal-Bench 2.0에서 개선된 성과를 나타낸다. 이 모델은 작업 지속성, 사이버 보안 대비를 발전시키고 Windows 훈련을 도입했으며, 보안상의 이유로 네트워크 접근은 기본적으로 비활성화된 상태를 유지한다. 이러한 발전들은 모델의 근본적인 지능이 단일 능력에 의해 결정되는 심층적인 세계보다는, 다양한 직교적 능력을 가져야 하는 상황 의존적인 세계에 모델이 존재함을 시사한다.

[2025년 48째주] MetaX 주간 AI 동향 리포트

최신 모델 성능 및 수학/추론 능력 발전

관련 기사

바다는 알고 있었을 것이다

자리에 맞는 태도

정체성은 변하는가, 드러나는가