데이터 중심의 파이프라인 효율화와 모델 내부 메커니즘의 이론적 최적화
과학 탐구·로봇 제어 등 특화 도메인을 위한 자율 에이전트 및 멀티모달 기술의 고도화
과학 탐구·로봇 제어 등 특화 도메인을 위한 자율 에이전트 및 멀티모달 기술의 고도화
DataFlow: An LLM-Driven Framework for Unified Data Preparation and Workflow Automation in the Era of Data-Centric AI
https://arxiv.org/abs/2512.16676
대규모 언어 모델(LLM)을 위한 고품질 데이터 준비의 중요성이 커짐에 따라, 기존의 비체계적인 스크립트 위주 방식을 개선하기 위해 통합적이고 확장 가능한 데이터 준비 프레임워크인 DataFlow를 제안한다. 이 프레임워크는 PyTorch 스타일의 API와 200여 개의 재사용 가능한 연산자를 통해 모듈화된 데이터 변환을 지원하며, 자연어 명세를 실행 가능한 파이프라인으로 자동 변환하는 DataFlow-Agent를 도입하여 사용성을 극대화했다. 텍스트, 수학, 코드 등 다양한 도메인에서 검증한 결과, DataFlow는 텍스트-SQL 변환 정확도와 코드 벤치마크 등에서 기존의 합성 데이터나 인간 구축 데이터셋보다 우수한 성능을 입증하며 신뢰할 수 있는 데이터 중심 AI 개발의 기반을 마련했다.
![[2025년 52째주] MetaX 주간 AI 논문 리뷰](https://metax-images-bucket.s3.ap-southeast-2.amazonaws.com/defaults/aitech3.webp)

