롱컨텍스트 어텐션 분리, 경량 메모리, RL 안정화로 LLM 훈련·추론 최적화
자율 데이터 과학, 옴니모달, 훈련 없는 3D 편집 및 새로운 평가 벤치마크
자율 데이터 과학, 옴니모달, 훈련 없는 3D 편집 및 새로운 평가 벤치마크
A Theoretical Study on Bridging Internal Probability and Self-Consistency for LLM Reasoning
https://arxiv.org/abs/2510.15444
이 논문은 LLM 추론 성능을 높이는 샘플링 기반 테스트 시간 스케일링 방법의 이론적 토대를 최초로 제시한다. 기존의 Self-Consistency는 추정 오류가 높고 Perplexity는 모델링 오류가 크다는 한계를 이론적으로 분석하며, 이 두 방법의 장점을 결합한 RPC(Reasoning Pruning and Perplexity Consistency)라는 새로운 하이브리드 방법을 제안한다. RPC는 낮은 확률의 추론 경로를 제거하고 수렴 속도를 높여, 기존 Self-Consistency와 비슷한 성능을 달성하면서도 샘플링 비용을 50% 절감하고 신뢰도를 향상시킨다.
![[2025년 43째주] MetaX 주간 AI 논문 리뷰](https://metax-images-bucket.s3.ap-southeast-2.amazonaws.com/defaults/aitech5.webp)
