[2025년 48째주] MetaX 주간 AI 동향 리포트

김한얼 기자

loenahmik@gmail.com | 2025-11-29 18:30:00

DeepSeek-Math-V2의 IMO 2025 성과 및 Claude Opus 4.5 등 추론 모델의 도약과 코딩 에이전트 프레임워크의 고도화
COGS 압박 속 Amazon·xAI의 대규모 인프라 투자 경쟁 지속 및 Mixpanel 침해 등 AI 보안과 데이터 프라이버시 이슈의 부상

최신 모델 성능 및 수학/추론 능력 발전

DeepSeek의 새로운 수학 추론 모델인 DeepSeek-Math-V2가 IMO 2025에서 골드 레벨 성능을 달성하여, 최근 Google 및 OpenAI의 결과와 동등한 수준에 도달했다. 이 접근 방식은 LLM 기반 증명 검증기를 보상 모델로 훈련시켜, 최종 답변뿐만 아니라 단계별 추론을 검증하도록 생성기에 인센티브를 제공함으로써 올바른 답이 올바른 추론을 보장하지 않는다는 근본적인 한계를 해결한다. 한편, Robinhood CEO Vlad Tenev가 공동 설립한 AI 스타트업 Harmonic은 AI의 수학 및 추론 능력에 중점을 두고 있으며, 환각을 제거하는 것을 목표로 안전 필수 산업 분야의 상업적 응용을 탐색하고 있다.

Anthropic의 Claude Opus 4.5는 SWE-bench Verified에서 80%를 초과한 최초의 모델이며, 코딩, 도구 사용, 추론 벤치마크 전반에서 최첨단 결과를 달성했다. 이 모델은 이전 Opus 가격보다 낮은 가격으로 책정되었으며, 개발자가 속도와 기능 사이에서 선택할 수 있도록 하는 새로운 노력 매개변수를 포함하고, 무제한 대화 길이를 가능하게 하는 자동 컨텍스트 압축 기능을 제공한다. 또한, INTELLECT-3라는 100B+ 매개변수 Mixture-of-Experts 모델은 GLM 4.5 Air 기반 모델 상에서 SFT와 RL로 훈련되었으며, 크기에 비해 수학, 코드, 과학 및 추론 벤치마크 전반에서 최첨단 성능을 달성한다.

OpenAI의 GPT-5.1-Codex-Max는 GPT-5.1-Codex보다 향상된 성능을 보이며, SWE-bench-verified, SWE-Lancer-IC SWE 및 Terminal-Bench 2.0에서 개선된 성과를 나타낸다. 이 모델은 작업 지속성, 사이버 보안 대비를 발전시키고 Windows 훈련을 도입했으며, 보안상의 이유로 네트워크 접근은 기본적으로 비활성화된 상태를 유지한다. 이러한 발전들은 모델의 근본적인 지능이 단일 능력에 의해 결정되는 심층적인 세계보다는, 다양한 직교적 능력을 가져야 하는 상황 의존적인 세계에 모델이 존재함을 시사한다.

그림1. IMO 2025에서 골드 레벨 성능을 달성한 DeepSeek-Math-V2 모델 (출처: DeepSeek)


에이전트 프레임워크 및 개발 워크플로우 혁신

Anthropic은 개발자를 위한 세 가지 베타 기능을 출시하며 고급 도구 사용 기능을 도입했다. Tool Search Tool은 모든 정의를 미리 로드하는 대신 필요할 때 도구를 검색하여 토큰 소비를 85%까지 줄이고, Programmatic Tool Calling은 Claude가 개별 API 호출 대신 Python 코드를 통해 여러 도구를 조정할 수 있게 하여 토큰 사용량을 37% 감소시킨다. 또한, Tool Use Examples는 JSON 스키마를 넘어 구체적인 사용 패턴을 제공하여 복잡한 매개변수 처리에서 정확도를 72%에서 90%로 향상시킨다.

Compounding Engineering Plugin은 개발자가 AI 기반 도구를 사용하여 체계적으로 개발 워크플로우를 개선하는 방식을 제공하며, 복합 엔지니어링(Compounding Engineering)의 개념을 실용적으로 만든다. 복합 엔지니어링은 엔지니어링 작업의 각 단위가 다음 단위의 작업을 더 쉽게 만들어야 한다는 아이디어를 의미하며, 이 플러그인이 해당 도구를 제공한다. 이와 함께 Better Agents는 에이전트 구축을 위한 CLI 도구이자 표준 세트로, AGENTS.md를 생성하여 업계 모범 사례를 보장하고 사용자가 필요한 구성 요소를 선택하도록 안내한다.

그림2. Tool Search Tool의 과거와 현재 비교 (출처: Anthropic)


시장 경쟁, 인프라 투자 및 비용

AI 업계는 현재 COGS 쓰나미에 직면하여 조정 모드에 있으며, OpenAI, Anthropic, Cursor와 같은 기업들이 마이너스 마진으로 수요를 보조하고 있다. Google은 AI 붐에 놀랐으나 이제 강력하게 돌아오고 있으며, 주머니가 두둑하여 마이너스 마진 게임을 더 잘 수행할 수 있는 위치에 있고, 경쟁자들이 비용의 쓰나미에 빠지지 않으려면 변화가 필요하다. 한편, Elon Musk의 xAI는 12월에 150억 달러의 자금 조달을 마감할 계획이며, 이는 2,300억 달러의 사전 투자 가치를 반영하는 것으로, OpenAI와 Anthropic의 대규모 자금 조달에 이은 것이다.

Amazon은 2026년에 시작하여 미국 정부 고객을 위한 AI 및 고성능 컴퓨팅 역량을 확대하기 위해 최대 500억 달러를 투자할 것이다. 이 프로젝트는 거의 1.3기가와트의 용량을 추가하게 되며, 정부 기관에 AWS의 AI 도구, Anthropic의 Claude 모델 제품군, Nvidia 칩 및 Amazon의 맞춤형 Trainium AI 칩에 대한 접근 권한을 제공한다. 또한, Meta는 270억 달러 규모의 데이터 센터를 부채로 자금 조달하고 있으며, 이를 대차 대조표에 포함하지 않고 임대 구조로 운영하여 리스 부채와 관련 자산을 최소화하려고 한다.

Google은 고수요로 인해 Gemini 3 Pro 무료 액세스 제한을 업데이트했으며, 무료 사용자에게는 기본적인 액세스만 보장되며 일일 한도가 자주 변경될 수 있다. LLM 유닛 경제학에 따르면, OpenAI와 Anthropic이 영원히 훈련을 멈추지는 않겠지만, 연간 훈련 지출이 매년 5배씩 증가하는 것을 멈추는 순간 이윤이 즉시 나타날 것이다. 현재 이들 회사는 돈을 태우는 기계이지만, 영원히 그렇지는 않을 것이다.

그림3. Amazon, 미국 정부 기관의 AI 및 슈퍼컴퓨팅 인프라 확장에 최대 500억 달러 투자 (출처: Amazon)


AI 시스템 보안 및 사용자 경험 혁신

OpenAI는 데이터 분석 제공업체 Mixpanel의 최근 침해 사고 이후 Mixpanel과의 관계를 중단했다. 이 사고로 OpenAI API 사용자들의 데이터(이름, 대략적인 위치, OS 및 브라우저 세부 정보, 사용자 ID 포함)가 유출되었으며, OpenAI는 벤더 생태계 전반에 걸쳐 더 광범위한 보안 검토를 수행하고 있다. 또한, Anthropic CEO Dario Amondei는 중국 국가 행위자들이 Claude Code를 광범위한 사이버 스파이 캠페인에 사용한 방식에 대해 증언하도록 요청받았다.

Perplexity는 AI 비서에 메모리 및 개인화 기능을 추가하여 대화 전반에 걸쳐 선호도, 관심사 및 컨텍스트를 유지할 수 있게 했다. 이 메모리 시스템은 관련 정보를 자동으로 로드하여 답변 품질을 개선하고 컨텍스트 엔지니어링을 줄여준다. 한편, ChatGPT는 쇼핑 작업을 위해 특별히 훈련된 GPT-5 mini 모델을 기반으로 하는 대화형 제품 검색 기능을 출시하여, 웹을 검색하고 질문하며 개인화된 구매자 가이드를 생성한다.

Google DeepMind는 Gemini를 일종의 로봇 운영 체제로 만들려는 비전의 일환으로 Boston Dynamics의 전 CTO인 Aaron Saunders를 하드웨어 엔지니어링 부사장으로 고용했다. Google의 Antigravity 코딩 도구는 숨겨진 지침인 프롬프트 인젝션을 통해 조작될 수 있으며, Gemini의 보안 설정을 우회하고 사용자 자격 증명을 훔친 데이터를 공격자 통제 웹사이트로 보내도록 속이는 데 사용되었다. 또한, OpenAI는 안전 문제에 대한 내부 팀의 경고를 무시하고 사용자 참여를 높이는 GPT-4o 업데이트를 출시하며 사용자 참여와 안전 사이의 내부 갈등을 겪었다.

그림4. 최근 보안 사고로 Mixpanel과의 관계를 중단한 OpenAI (출처: OpenAI)


[METAX = 김한얼 기자]

[ⓒ META-X. 무단전재-재배포 금지]

WEEKLY HOT