[문과생의 AI 논문 리뷰] Attention Is All You Need(2017) - 언어는 어떻게 계산

Transformer, 계산 가능한 언어 모델의 탄생
관계 중심 언어 처리 구조의 등장과 새로운 해석의 기준

AI를 잘 모르는 사람도, 요즘 “트랜스포머(Transformer)”라는 말은 한 번쯤 들어봤을 것이다. 챗GPT를 비롯해 지금의 대규모 언어모델 대부분이 이 구조 위에 서 있기 때문이다. 그렇다면 다시 질문해볼 수 있다. 오늘의 AI를 가능하게 만든 그 출발점은 정확히 무엇이었을까.

2017년 발표된 「Attention Is All You Need」는 바로 그 질문 앞에 놓이는 논문이다. 이 논문은 단순히 성능이 좋은 모델 하나를 제안한 것이 아니다. 더 근본적으로는, 언어를 처리하는 방식 자체를 바꿔놓았다. 기존 모델이 문장을 시간의 흐름에 따라 읽었다면, 이 논문의 모델은 문장을 관계의 구조로 다시 본다.

문장을 따라가던 모델의 한계
이 논문 이전까지, 언어를 처리하는 대부분의 모델은 RNN(Recurrent Neural Network, 순환 신경망 - 데이터의 순서(시퀀스)를 고려하여 과거 정보를 현재 출력에 반영하는 딥러닝 모델)계열 구조를 기반으로 하고 있었다. LSTM(Long Short-Term Memory, 장단기 기억 네트워크: RNN의 기울기 소실 문제를 해결하기 위해 고안된 딥러닝 모델)이나 GRU(Gated Recurrent Unit, 게이트 순환 유닛: LSTM을 단순화한 구조로, 비슷한 성능을 유지하면서 계산을 더 효율적으로 만든 모델) 역시 그 변형일 뿐, 기본적인 원리는 동일하다. 입력 문장을 앞에서부터 하나씩 읽고, 그때마다 은닉 상태를 업데이트하며 정보를 축적해 나가는 방식이다.

이 구조는 직관적이지만, 계산의 관점에서는 명확한 제약을 가진다. 각 단계는 이전 단계의 결과에 의존하기 때문에 병렬 처리가 어렵고, 긴 문장에서는 앞부분의 정보가 점차 희석되면서 장거리 의존성을 유지하기도 쉽지 않다. 논문은 이 점을 단순한 기술적 한계가 아니라, 구조적 제약으로 본다. 순서를 따라가는 방식 자체가 모델의 표현력과 효율을 동시에 제한하고 있다는 것이다.

이 지점에서 질문이 등장한다.
정말로 우리는 문장을 반드시 순서대로 처리해야 하는가.

순서를 버리고 관계를 택하다
이 논문의 대담함은 여기서 시작된다. 저자들은 순환 구조도, 합성곱 구조도 버리고, attention(문장 내 단어들 사이의 관계를 비교하고, 그 중요도를 가중치로 계산하는 메커니즘)만으로 전체 모델을 구성하겠다고 선언한다.

이들이 제안한 Transformer(해당 논문에서 제안된 attention 기반 딥러닝 모델)는 내부를 self-attention과 feed-forward network로 채운다. 인코더는 6개의 동일한 층으로, 각 층은 multi-head self-attention과 position-wise feed-forward network로 이루어진다. 디코더 역시 6개 층으로 구성되며, 여기에 인코더 출력을 참조하는 attention 서브레이어가 추가된다. 각 서브레이어에는 residual connection과 layer normalization이 적용된다. 이 구조는 겉보기에는 단순하지만, 실제로는 기존 모델과 전혀 다른 방식으로 정보를 처리한다.

물론 여기에는 즉시 떠오르는 질문이 있다.
순환도 없고 합성곱도 없다면, 단어의 순서는 어떻게 파악까?

논문은 이 문제를 Positional encoding으로 해결한다. 입력 임베딩에 위치 정보를 더해주어, 모델이 단어의 상대적·절대적 위치를 사용할 수 있도록 만든 것이다. 저자들은 사인과 코사인 함수 기반의 Positional encoding을 사용했고, 학습 가능한 Positional embedding과 비교했을 때도 거의 비슷한 결과를 얻었다고 보고한다. 중요한 것은 여기서 순서가 더 이상 “처리 방식”이 아니라 “추가 정보”가 되었다는 점이다. 즉, 모델은 단어의 순서를 따라가며 이해하는 것이 아니라, 순서를 하나의 feature로 활용한다.

성능 면에서도 이 논문은 명확한 성과를 제시한다. Transformer big 모델은 WMT 2014 English-to-German 번역에서 BLEU(Bilingual Evaluation Understudy: 기계번역 성능 평가 지표) 28.4를 달성해 기존 최고 성능을 2 BLEU 이상 넘어섰고, English-to-French에서는 단일 모델 기준 41.8 BLEU를 기록했다. 게다가 훈련 비용 역시 경쟁 모델보다 훨씬 낮거나 효율적이었다. 저자들은 이것을 단지 번역 품질 향상으로 제시하지 않는다. 병렬화 가능성과 학습 시간 단축이라는 구조적 이점이 함께 작동한 결과로 제시한다. 더 나아가 이 구조가 영어 Constituency parsing(문장을 구성 요소(구조) 단위로 나누는 분석 방식) 같은 다른 과제에도 잘 일반화된다고 보고한다.

이쯤 되면 이 논문이 왜 “현대 AI의 출발점”으로 읽히는지 분명해진다. 이 논문은 언어를 기억의 흐름이 아니라 참조의 구조로 재배치했다. RNN이 상태를 축적하는 방식이라면, Transformer는 매 순간 전체 맥락을 다시 펼쳐놓고 필요한 관계를 골라낸다. 이 차이는 단순한 기술적 선택이 아니다. 언어를 무엇으로 볼 것인가에 대한 관점의 전환이다.

언어는 관계로 설명될 수 있는가
그런데 바로 여기서, 이 논문을 읽는 문과생의 질문이 시작된다.
언어는 정말, 관계만으로 환원 가능한가?

언어를 관계망으로 본다는 것은 분명 강력한 발상이다. 모델은 각 단어가 다른 단어를 얼마나 참고해야 하는지를 가중치로 계산한다. 그러나 우리가 실제로 언어를 이해할 때 작동하는 것은 언제나 그렇게 명시적인 관계만은 아니다.

우리는 종종 단어의 의미를 정반합처럼 단순한 관계로 설명하려 하지만, 실제 언어는 그렇게 단편적으로 작동하지 않는다. 말에는 뉘앙스가 있고, 맥락이 있으며, 말해지지 않은 전제가 존재한다. 문화적 배경과 상황, 그리고 화자의 의도까지 포함된 복합적인 층위 위에서 의미가 형성된다. 어떤 문장은 단어와 단어의 관계만으로는 충분히 설명되지 않는다. 아이러니와 은유, 회피와 함축, 그리고 침묵조차 의미를 구성하는 요소로 작동한다.

이 질문은 논문을 부정하기 위한 것이 아니다. 오히려 반대다. 이 논문이 무엇을 가능하게 했는지를 인정하기 때문에, 동시에 그것이 무엇을 전제로 하는지도 묻게 되는 것이다.

Transformer는 언어를 다루는 데 있어 엄청난 실용적 성과를 냈다. 하지만 그 성공은 언어를 “계산 가능한 관계의 구조”로 다룰 수 있다는 전제 위에 세워져 있다. 이 전제는 강력했고, 실제로 유효했다. 다만 인간의 언어가 정말 그 전제로 충분히 설명되는가 하는 문제는 여전히 남아 있다.

이 질문은 이후 연구에서도 다양한 방식으로 이어진다. BERT는 문맥을 더 정교하게 반영하려 했고, GPT 계열은 긴 흐름 속에서도 의미를 유지하며 생성하는 방향으로 확장되었다. 최근 연구들은 여기에 더해 추론과 장기 기억, 구조적 이해까지 모델 내부에 포함시키려는 시도를 이어가고 있다.

그러나 이 모든 흐름의 출발점은 동일하다. 언어를 관계로 본다는 전환, 바로 그 위에서 모든 확장이 이루어진다.

그래서 마지막으로 남는 질문은 이것이다.

우리는 지금 언어를 더 잘 이해하게 된 것일까.
아니면 단지 언어를 더 정교하게 계산하게 된 것일까.

「Attention Is All You Need」는 이 질문을 가능하게 만든 논문이다.

어쩌면 이 논문의 진짜 의미는, 모델이 언어를 이해했다는 데 있는 것이 아니라, 언어를 계산 가능한 대상으로 바꾸었다는 데 있는지도 모른다.

[문과생의 AI 논문 리뷰] Attention Is All You Need(2017) - 언어는 어떻게 계산되는가

관련 기사

앤트로픽 650억 달러 투자 유치, 1조 달러 AI 기업 시대 임박

운전이 사라지는 시대, 운전의 즐거움은 어디로 가는가... 현대 N 레이싱 시뮬레이터가 던지는 질문

[게임 장르 이야기] 함께하는 세상을 꿈꾼 ′MMORPG′ ① - 초기 실험에서 WoW의 시대까지