시각적 지능과 논리적 추론의 결합을 통한 차세대 멀티모달 에이전트 및 세계 모델의 진화
장기 기억 체계와 실시간 상호작용 최적화를 통한 고도화된 생성형 AI 기술의 실현
장기 기억 체계와 실시간 상호작용 최적화를 통한 고도화된 생성형 AI 기술의 실현
Step-GUI Technical Report
https://arxiv.org/abs/2512.15431
이 논문은 AI가 스마트폰이나 PC의 화면(GUI)을 스스로 조작할 수 있게 돕는 Step-GUI 모델과 효율적인 학습 체계를 제안한다. 기존에는 AI에게 화면 조작을 가르치기 위해 사람이 일일이 데이터를 만들어야 해서 비용이 많이 들었으나, 연구진은 AI가 생성한 조작 경로를 스스로 평가하고 보정하는 '보정 단계 보상 시스템'을 통해 비용을 100배 이상 절감하면서도 90% 이상의 높은 정확도를 확보했다. 또한, 사용자의 개인정보 보호를 위해 민감한 데이터는 기기 내부에서 처리하고 복잡한 명령만 모델이 수행하는 GUI-MCP 프로토콜과 실제 모바일 사용 환경을 반영한 AndroidDaily 벤치마크를 함께 공개하여 실용적인 GUI 에이전트의 가능성을 제시했다.
![[2025년 51째주] MetaX 주간 AI 논문 리뷰](https://metax-images-bucket.s3.ap-southeast-2.amazonaws.com/defaults/aitech5.webp)
