고도화된 에이전트 시스템과 혁신적 아키텍처 연구를 통한 산업 전반의 기술적 도약
주요 모델 및 제품 출시
OpenAI의 GPT-5.2가 전문적인 사용과 장기적인 에이전트 워크플로우를 위해 최적화되어 도입된다. 이 모델은 지식 작업, 장문 맥락 추론, 도구 사용 및 멀티모달 이해 전반에 걸쳐 성능을 향상시키는 데 초점을 맞춘다. OpenAI는 Gemini 3의 출시로 발생한 격차를 좁히기 위해 코드 레드(code red)를 선언한 후, 속도, 안정성 및 사용자 정의에 중점을 둔 GPT-5.2 업데이트를 곧 출시할 수 있다.
OpenAI는 또한 GPT-5.2 출시와 함께 차세대 이미지 생성 모델인 Image-2 모델을 테스트하고 있다. 이 두 개의 새로운 모델은 온라인 평가 플랫폼에 등장했으며, 초기 테스터들은 이미지 디테일과 충실도가 상당히 증가했다고 언급한다. 이러한 업그레이드는 OpenAI의 이미지 생성 능력을 Google Nano Banana 2가 설정한 표준에 더 가깝게 만든다.
Google은 Gemini Nano Banana 2 Pro와 성능은 일치하지만 더 낮은 비용으로 제공되는 Gemini Nano Banana 2 Flash 모델을 출시할 계획이다. 이러한 움직임은 비용 최적화를 위한 Google의 모델 계층화 전략과 일치하며, 대규모 배포에 적합한 고품질 출력을 더 광범위한 사용자 기반에 제공하는 것을 목표로 한다. 또한 Google은 LM Arena에서 Gemini 3 Flash 또는 Gemini 3 Pro의 일반 출시 가능성을 시사하는 두 개의 새로운 모델을 적극적으로 테스트하고 있다.
Mistral은 Devstral 2와 함께 Vibe CLI를 출시했는데, 123B 매개변수를 가진 Devstral 2는 동급 모델 대비 작은 크기에도 불구하고 SWE-bench Verified에서 72.2%를 달성하여 최고의 오픈 웨이트 코딩 모델 중 하나이다. 이와 함께 출시된 Mistral Vibe CLI는 코드베이스 전체에 걸쳐 멀티 파일 변경을 조율하는 오픈 소스 터미널 에이전트이다.
기업 AI 채택 및 전략적 제휴
OpenAI는 디즈니와의 3년 라이선스 계약을 통해 Sora 및 ChatGPT Image 사용자가 디즈니, 마블, 픽사, 스타워즈의 200개 이상의 캐릭터를 사용하여 콘텐츠를 만들 수 있도록 한다. 디즈니는 이 계약의 일환으로 OpenAI에 10억 달러를 투자하며, 캐릭터 사용은 내년부터 시작될 예정이다.
Anthropic은 Claude를 사용하여 엔터프라이즈 AI 배포를 가속화하기 위해 Accenture와 전담 사업 그룹을 설립하는 파트너십을 확대했다. 이 파트너십은 Claude에 대해 30,000명의 전문가를 교육하고 규제 산업을 대상으로 하는 솔루션을 목표로 하며, 기업들이 파일럿 프로젝트를 넘어 완전한 생산 단계로 나아갈 수 있도록 돕는다.
기업 AI 시장은 이제 370억 달러 규모에 이르렀으며, 이는 소프트웨어 역사상 가장 빠르게 확장되는 카테고리이다. 기업들은 AI가 업무 수행 방식, 팀 협업 방식, 제품 구축 및 제공 방식을 재편하는 것을 목격하고 있으며, 실제 수익을 확인하고 AI 투자를 늘리고 있다.
Meta는 대화 기록용 AI 펜던트로 알려진 스타트업 Limitless를 인수했다. Limitless는 하드웨어 판매를 중단하지만 1년 동안 지원을 계속하며, 팀은 새로운 제품을 출시하기보다는 Meta의 기존 AR 및 AI 웨어러블 지원에 집중할 계획이다. 이 인수는 주요 기업들이 디바이스 제공을 확장함에 따라 AI 하드웨어 경쟁이 심화되는 가운데 이루어진다.
AI 인프라 및 컴퓨팅 발전
Broadcom은 작년 9월에 100억 달러 규모의 맞춤형 칩 주문을 체결한 고객이 Anthropic임을 밝혔다. Broadcom은 단순한 칩 제공을 넘어 Anthropic에게 완전한 서버 랙을 납품할 예정이며, Anthropic은 최근 분기에 Broadcom에 110억 달러를 추가 주문했다. 이 거래는 AI 인프라 붐 속에서 투자자들의 상당한 관심을 받고 있다.
Nvidia가 지원하는 Starcloud는 Nvidia H100 GPU를 사용하여 Google의 Gemma LLM을 실행함으로써 우주에서 최초의 AI 모델 훈련에 성공했다. 이러한 궤도 데이터 센터는 지상 기반 시설에 비해 상당한 에너지 절약을 약속하며, Starcloud는 일정한 태양 에너지를 포착하기 위해 5기가와트 규모의 궤도 데이터 센터를 계획한다.
미국은 Nvidia H200 AI 칩의 중국 및 기타 승인된 고객 대상 판매를 허용하는 방안을 추진하고 있으며, 이는 미국이 25%의 수익을 확보하는 조건이다. 이 정책 변경은 미국 일자리를 지원하고 미국 제조업을 강화하며 미국 납세자에게 이익을 주기 위함이며, AMD, Intel 등 다른 미국 기업에도 동일하게 적용될 예정이다.
Tensor R-Fork는 GPU-to-GPU 데이터 전송을 사용하여 실행 중인 인스턴스 간에 모델 가중치를 신속하게 전송하는 제로-카피 방식이다. 이 방법은 로딩 시간을 단축하고 디스크/DRAM 사용량을 줄이며, 추론 서비스를 중단 없이 유지할 수 있다. 또한, 트랜스포머 모델의 대규모 훈련을 가능하게 하기 위해 멀티 헤드 어텐션 및 피드 포워드 레이어를 GPU에 걸쳐 분할하는 텐서 병렬 처리(Tensor Parallelism)에 대한 설명이 제공된다.
모델 아키텍처 및 근본 연구
Google Research는 트랜스포머의 정확도와 순환 신경망(RNN)의 속도를 결합하는 아키텍처(Titans)와 이론적 청사진(MIRAS)을 소개하는 두 개의 새로운 논문을 발표했다. Titans와 MIRAS는 AI 모델이 장기 기억을 유지하는 능력인 테스트 시점 암기의 개념을 발전시킨다. 이 아키텍처는 데이터가 스트리밍될 때 자체 매개변수를 능동적으로 학습하고 업데이트하여, 모델이 새로운 세부 정보를 핵심 지식에 즉시 통합할 수 있도록 한다.
새로운 연구는 강화 학습(RL)에 의해 잠금 해제된 추론 기술이 이미 기본 모델 내부에 존재할 수 있다고 제안한다. 하버드 연구원들은 많은 평범한 완료 토큰보다는 높은 가능성을 가진 완료 토큰 쪽으로 생성을 편향시키는 파워 샘플링이라는 기법을 제안한다.
콜라츠 추측은 가장 유명한 미해결 수학 문제 중 하나이며, 이 미해결 퍼즐에 트랜스포머를 훈련시켜 모델이 실패하는 방식을 연구하는 논문이 있다. 또한, 긴 컨텍스트 윈도우는 에이전트 코딩에서는 과대평가되는 경향이 있으며, Amp 팀은 모든 것을 100만 토큰 메가-스레드에 넣는 대신 평균 80k 토큰을 가진 작은 스레드 클러스터를 사용하여 기능을 출시한다.
정렬(Alignment) 연구는 핵심 연구 문제의 일부이며, 정렬을 제약으로 취급하는 연구소는 한계에 부딪히는 반면, 인간의 가치를 진정으로 이해하는 모델을 구축하는 방법을 알아내는 연구소가 앞서 나갈 것이라는 주장이 있다. AGI(범용 인공지능)를 달성하기 위해서는 정렬이 필수적이며, 통합된 접근 방식이 가장 강력한 것으로 보인다.
에이전트 시스템 및 개발 환경
Gemini Deep Research는 이제 개발자를 위해 새로운 Interactions API를 통해 사용할 수 있으며, 이는 컨텍스트 수집 및 합성 작업을 실행하는 데 최적화된 에이전트이다. 이 에이전트는 Gemini 3 Pro를 추론 코어로 사용하며, 검색을 위한 다단계 강화 학습을 확장하여 복잡한 정보 환경을 높은 정확도로 자율적으로 탐색한다.
Shopify는 이제 판매자가 ChatGPT, Perplexity 및 Microsoft Copilot과 같은 AI 플랫폼을 통해 제품을 판매할 수 있도록 에이전트 스토어프론트를 도입했다. 에이전트는 고객의 질문에 답하는 동시에 판매자에게 검색 트렌드 및 고객이 문의하는 주제에 대한 통찰력을 제공하며, Shopify는 모든 스토어를 기본적으로 에이전트 지원 가능하게 만들 계획이다.
Google은 Chrome에서 에이전트 기능의 보안을 구축하기 위해 다층 방어 체계를 투자했으며, 이는 어디든 나타날 수 있는 간접 프롬프트 주입의 위협에 직면하고 있다. 이 방어에는 결정론적 및 확률론적 방어가 모두 포함되며, 공격자가 해를 가하는 것을 어렵고 비용이 많이 들게 만든다.
Cursor는 디자인과 코드를 Cursor Browser 내에 통합하는 새로운 시각 편집기를 출시했다. 사용자는 UI 요소를 드래그하고 프롭(props)을 검사하며 대화식으로 변경할 수 있으며, 또한 Cursor는 런타임 로그와 인간 상호작용을 통합하여 고질적인 버그를 수정하는 새로운 에이전트 루프인 Debug Mode를 도입했다.
[METAX = 김한얼 기자]
[저작권자ⓒ META-X. 무단전재-재배포 금지]


































