대규모 언어모델 이해 논쟁: AI 윤리, 확률적 앵무새 논문 위험 분석

인공지능은 말을 잘하게 됐다. 문장을 만들고, 질문에 답하고, 글을 요약하며, 때로는 인간보다 더 인간적인 어조로 대화한다. 그러나 에밀리 벤더, 팀닛 게브루, 안젤리나 맥밀런-메이저, 슈마가렛 슈미첼의 논문 On the Dangers of Stochastic Parrots: Can Language Models Be Too Big?는 이 익숙한 감탄 앞에 불편한 질문을 던진다. 대규모 언어모델은 정말 언어를 이해하는가. 아니면 방대한 텍스트에서 본 표현을 확률적으로 이어 붙이는 거대한 앵무새에 불과한가.

이 논문은 2021년 ACM FAccT 학회에 발표된 이후 AI 윤리 논쟁의 상징적 텍스트가 됐다. 논문의 핵심 주장은 단순하다. 언어모델이 커질수록 성능이 좋아진다는 믿음은 기술적으로 매력적이지만, 그 과정에서 환경 비용, 데이터 편향, 사회적 차별, 연구 방향의 왜곡, 인간 모방의 위험이 함께 커질 수 있다는 것이다. 저자들은 대규모 언어모델의 발전을 무조건적인 진보로 보지 않는다. 오히려 “얼마나 더 크게 만들 것인가”보다 “무엇을 위해, 누구에게 이익이 되며, 누구에게 피해를 주는가”를 먼저 물어야 한다고 강조한다.

논문이 제기하는 첫 번째 쟁점은 환경 비용이다. 대규모 언어모델은 막대한 연산 자원과 전력을 필요로 한다. 모델 크기와 학습 데이터가 커질수록 탄소 배출과 에너지 소비도 증가한다. 저자들은 이러한 비용이 단순히 기술 기업의 비용 문제가 아니라고 본다. 기후 변화의 피해는 대개 기술의 혜택을 가장 적게 받는 취약 지역과 주변화된 공동체에 먼저 도달하기 때문이다. 즉, 대규모 영어 중심 언어모델이 만들어내는 편익은 일부 기업과 사용자에게 집중되지만, 그 환경적 부담은 불평등하게 분산될 수 있다.

두 번째 쟁점은 학습 데이터의 문제다. 대규모 언어모델은 인터넷에서 수집한 방대한 텍스트를 기반으로 학습된다. 그러나 인터넷은 결코 중립적 공간이 아니다. 온라인에서 목소리를 낼 수 있는 사람, 오래 머물 수 있는 사람, 플랫폼의 규칙 안에서 배제되지 않는 사람은 사회적으로 고르게 분포하지 않는다. Reddit, Wikipedia, Common Crawl과 같은 데이터 소스는 겉으로는 방대하고 다양해 보이지만, 실제로는 특정 언어권, 특정 계층, 특정 성별과 인종의 관점이 과대표집될 수 있다.

이 지점에서 논문은 “크기가 다양성을 보장하지 않는다”고 지적한다. 데이터가 많다고 해서 더 공정해지는 것은 아니다. 오히려 편향된 데이터가 더 많이 쌓이면, 편향 역시 더 강하게 학습될 수 있다. 특히 혐오 표현, 성차별적 언어, 인종주의적 표현, 장애인에 대한 부정적 묘사, 성소수자 담론의 왜곡 등은 대규모 데이터 속에서 희석되는 것이 아니라 모델의 언어 패턴으로 흡수될 수 있다. 문제는 모델이 이를 이해해서 판단하는 것이 아니라, 그저 통계적으로 그럴듯한 표현으로 재생산한다는 데 있다.

세 번째 쟁점은 언어모델의 ‘이해’에 대한 비판이다. 논문은 언어모델이 자연어 이해를 수행한다는 주장에 신중해야 한다고 말한다. 언어는 단순한 기호 배열이 아니라 의미, 맥락, 의도, 세계 경험과 연결되어 있다. 하지만 언어모델은 텍스트의 형식만을 학습한다. 그것은 발화자의 의도나 청자의 상태, 사회적 맥락, 현실 세계의 의미 구조를 직접 경험하지 않는다. 따라서 언어모델이 매끄러운 답변을 내놓는다고 해서 그것이 곧 이해를 의미하는 것은 아니다.

여기서 등장하는 핵심 은유가 바로 ‘확률적 앵무새’다. 저자들은 대규모 언어모델을 “stochastic parrot”, 즉 확률적 앵무새라고 부른다. 앵무새가 사람의 말을 흉내 내지만 그 의미를 반드시 이해하는 것은 아니듯, 언어모델도 방대한 데이터에서 학습한 언어 형식을 확률적으로 조합할 뿐이라는 비판이다. 이 표현은 이후 생성형 AI 논쟁에서 가장 널리 인용되는 개념 중 하나가 됐다.

논문이 우려하는 것은 단순히 모델이 틀린 답을 한다는 문제가 아니다. 더 큰 문제는 모델이 매우 그럴듯하게 틀릴 수 있다는 점이다. 인간은 유창한 문장을 보면 그 안에 의미와 의도가 있다고 해석하는 경향이 있다. 따라서 언어모델이 만든 문장이 자연스럽고 설득력 있게 보일수록, 사용자는 그것을 실제 이해와 판단의 결과로 오인할 수 있다. 이때 편향된 정보, 혐오 표현, 허위 사실, 극단주의적 메시지, 왜곡된 사회적 고정관념이 자연스러운 언어의 형태로 확산될 위험이 커진다.

네 번째 쟁점은 사회적 피해다. 저자들은 대규모 언어모델이 기존 사회의 지배적 관점을 강화할 수 있다고 본다. 학습 데이터에 이미 존재하는 인종주의, 성차별, 능력주의, 소수자 배제의 언어가 모델 출력으로 재생산될 수 있기 때문이다. 이러한 출력은 단순한 기술 오류가 아니다. 누군가에게는 모욕과 배제의 경험이 되고, 누군가에게는 차별적 고정관념을 강화하는 정보 환경이 된다. 언어모델이 검색, 자동응답, 번역, 채용, 교육, 고객상담 등 다양한 시스템에 결합될수록 그 피해는 더 구조화될 수 있다.

논문은 해결책으로 무조건적인 모델 확장을 멈추고, 더 신중한 개발 문화를 제안한다. 저자들은 데이터셋을 무작정 크게 만드는 대신, 어떤 데이터를 왜 수집하는지 문서화하고, 데이터의 한계와 편향을 설명해야 한다고 주장한다. 또한 모델 개발 전 단계에서 이해관계자에게 어떤 피해가 발생할 수 있는지 검토하는 사전 평가가 필요하다고 말한다. 환경 비용과 에너지 사용량을 보고하고, 모델의 성능뿐 아니라 효율성과 사회적 영향을 함께 평가해야 한다는 제안도 포함된다.

이 논문의 강점은 기술 비판을 단순한 반대론으로 제시하지 않는다는 데 있다. 저자들은 언어기술의 발전 자체를 부정하지 않는다. 다만 대규모화가 곧 진보라는 단선적 사고를 비판한다. 더 큰 모델, 더 많은 데이터, 더 높은 벤치마크 점수가 반드시 더 나은 사회적 결과로 이어지지는 않는다는 것이다. 이 논문은 AI 연구가 성능 경쟁을 넘어 책임, 지속가능성, 사회적 맥락을 함께 고려해야 한다고 요구한다.

물론 이 논문에는 논쟁적인 지점도 있다. 당시 일부 연구자들은 저자들의 비판이 대규모 언어모델의 잠재력을 과소평가한다고 보기도 했다. 실제로 이후 등장한 생성형 AI 시스템들은 번역, 요약, 코딩, 창작, 교육 등 다양한 영역에서 실용적 가능성을 보여주었다. 그러나 그 가능성이 커질수록 이 논문이 제기한 문제 역시 더 현실적인 쟁점이 됐다. 모델이 더 널리 쓰일수록 데이터 편향, 허위정보, 저작권, 개인정보, 환경 비용, 책임 소재의 문제는 더 이상 주변적 논의가 아니다.

결국 On the Dangers of Stochastic Parrots는 생성형 AI 시대를 예견한 경고문에 가깝다. 이 논문은 인공지능이 말을 잘하는 시대에 우리가 무엇을 놓치고 있는지를 묻는다. 인간처럼 말하는 기계가 등장했을 때, 우리는 그 유창함에 속아 이해와 책임을 부여하고 있지는 않은가. 더 큰 모델을 만드는 데 몰두한 나머지, 그 모델이 누구의 언어를 배우고 누구의 세계를 지우는지 묻지 않고 있는 것은 아닌가.

이 논문이 남긴 가장 중요한 메시지는 분명하다. AI의 크기는 곧 지혜가 아니다. 데이터의 양은 곧 다양성이 아니며, 유창한 문장은 곧 이해가 아니다. 생성형 AI가 사회의 핵심 인프라가 되어가는 지금, 이 논문은 여전히 유효한 질문을 던진다. 우리는 더 큰 언어모델을 원하는가, 아니면 더 책임 있는 언어기술을 원하는가.

[논문리뷰]대규모 언어모델은 정말 ‘이해’하고 있는가

관련 기사

광고 속 AI에 대한 세대별 수용 차이

대규모 언어모델 학습 데이터 기억과 프라이버시 문제: GPT-2 논문 리뷰

MZ세대 명품 소비: 인플루언서 전문성, 이제 통하지 않는다? | 논문리뷰