[논문리뷰] 생성형 AI 저작권: 변형적 이용과 감정의 향유
류성훈 기자
ryunow@metax.kr | 2025-12-17 07:00:51
일본: '향유를 목적으로 하지 않는 이용' 규정과 의거성 논의가 쟁점
|
생성형 AI 학습에 대한 공정이용 첫 판결 - 앤쓰로픽 및 메타 케이스의 비교 분석 -, 이대희, 2025 |
생성형 AI 학습을 공정이용으로 인정한 역사적인 첫 판결
[메타X(MetaX)] 2025년 6월, 미국 연방지방법원은 생성형 AI 모델의 학습이 저작권법상 '공정이용(Fair Use)'에 해당한다는 역사적인 첫 판결을 내렸다. 이는 Bartz v. Anthropic PBC 사건과 Kadrey v. Meta Platforms, Inc. 사건으로, 향후 인공지능 산업과 저작권 법리에 지대한 영향을 미칠 선례로 평가받는다. 두 사건 모두 작가들이 자신들의 저작물이 AI 학습 데이터로 무단 사용된 것에 대해 소송을 제기하면서 시작되었다. 앤쓰로픽 케이스에서 피고는 해적 사이트 등에서 수집한 데이터로 '라이브러리'를 구축해 AI 모델 '클로드'를 학습시켰고, 메타 케이스에서는 '그림자 도서관'에서 서적을 다운로드해 '라마'를 학습시킨 것이 쟁점이 되었다.
두 케이스는 AI 학습 그 자체가 인간의 학습과 유사하며 사회적 유용성이 큰 변형적 이용이라는 점, 그리고 학습 데이터 이용허락 시장을 잠재적 시장으로 인정하지 않았다는 점에서 공통된 결론을 내렸다. 그러나 앤쓰로픽 케이스는 데이터 수집과 학습을 분리하여 보는 개별 분석을, 메타 케이스는 이를 하나의 과정으로 보는 통합 분석을 취함으로써 방법론적 차이를 보였다.
분석 방법론의 차이가 해적 행위에 대한 상반된 결론을 이끌어냄
AI 개발자의 이용행위가 공정이용에 해당하는지에 대해 두 법원은 분석 틀의 차이로 인해 서로 다른 결론에 도달했다. 앤쓰로픽 케이스는 학습을 위한 이용은 변형적이지만, 해적 사이트에서 저작물을 다운로드하여 라이브러리를 구축하는 행위 자체는 변형적 이용이 될 수 없다고 명확히 판시했다. 즉, 학습 단계의 공정성과 별개로 수집 단계의 불법성은 치유되지 않는다는 이분법적 태도를 취한 것이다.
반면, 메타 케이스는 다운로드와 학습을 통합하여 분석함으로써, 해적 사이트에서의 다운로드 역시 궁극적인 목적인 AI 학습이 변형적이므로 변형적 이용에 포함될 수 있다고 보았다. 이는 불법 소스에서의 데이터 수집이라도 그것이 학습이라는 변형적 목적을 위한 것이라면 공정이용의 범주에 포함될 수 있다는 더 넓은 해석을 제시한 것으로, 해적 데이터 사용에 대해 앤쓰로픽 케이스와 상반된 입장을 보였다.
AI 모델의 암기나 스타일 모방은 변형적 이용을 인정하는 데 방해가 되지 않는다
AI 모델의 암기(memorization)와 정보 역류(regurgitation)는 학습의 공정이용 여부를 판단하는 중요한 요소이나, 법원은 이것이 변형적 이용을 부정하지 않는다고 보았다. 앤쓰로픽 케이스에서 법원은 AI 모델이 암기를 하더라도 창의적 요소나 스타일을 생성하지 않으며, 스타일 자체는 저작권으로 보호되지 않는다고 판단했다. 메타 케이스 또한 정보 역류는 문제가 되지 않으며, 스타일은 보호되지 않는 요소라고 확인했다. 특히 보호받지 않는 요소가 포함된 결과물의 생성은 메타의 이용 행위와 목적을 달리하므로, 이러한 요소들이 변형적 이용을 인정하는 데 영향을 주지 않는다고 판시했다.
AI 학습 행위 자체는 인간의 학습과 유사한 변형적 이용으로 인정받음
두 케이스 모두 AI 학습을 위한 저작물 이용이 변형적 이용에 해당한다고 판시했다. 앤쓰로픽 법원은 LLM 학습을 위한 이용이 본질적으로(quintessentially) 변형적인 이용이라고 규정했다. 그 근거로 AI 모델의 학습이 인간의 학습과 동일하며, 암기를 하더라도 창의적 표현 요소를 생성하지 않는다는 점을 들었다. 법원은 AI 학습을 인간이 책을 읽고 암기하여 새로운 것을 창조하는 행위에 비유하며, 이러한 행위에 사용료를 지급하는 것은 부당하다고 보았다. 메타 케이스 역시 저작물의 이용이 혁신적 도구인 LLM을 학습시키기 위한 것으로서 높은 수준의(highly) 변형적 이용이라고 판시했다. 메타 법원은 서적의 원래 목적(오락이나 교육)과 달리 LLM은 이메일 수정, 번역 등 완전히 다른 기능을 수행하므로 변형적이라고 판단했다.
해적 사이트에서의 다운로드가 변형적 이용인지에 대해서는 법원의 판단이 엇갈림
해적 사이트로부터의 다운로드 행위에 대해 앤쓰로픽 케이스는 매우 강경하게 부정적인 입장을 취했다. 법원은 "해적 사이트로부터 교재를 복제한 자는 이미 저작권을 침해하였다"고 하며, 이러한 행위는 변형적 이용이 될 수 없다고 못 박았다. 앤쓰로픽 법원은 해적 행위가 본질적으로 저작권을 침해하며, 이를 통해 구축한 라이브러리를 학습에 이용하더라도 그 불법성이 치유되지 않는다고 보았다.
반면 메타 케이스는 다운로드가 궁극적인 목적인 Llama의 학습이 매우 변형적이라는 목적에서 고려되어야 한다고 판시했다. 이에 따라 메타 케이스는 그림자 도서관에서의 다운로드도 학습과 같은 변형적 이용을 위한 것이라면 변형적 이용이 될 수 있다고 판단하여 앤쓰로픽 케이스와 정반대의 결론을 내렸다.
학습 데이터 이용허락 시장은 저작권자가 통제할 수 없는 이론적 시장으로 판단
두 케이스 모두 저작권자들이 주장한 '학습 데이터 이용허락 시장'을 인정하지 않았다. 앤쓰로픽 케이스는 이용허락 시장이 발달할 수 있더라도 이는 저작자가 이용할 권리가 있는 시장이 아니라고 보았으며, 메타 케이스는 이를 "이론적 시장(theoretical market)"으로 규정하고 저작권자가 독점할 권리가 없다고 판단했다. 메타 법원은 잠재적 시장을 '이론적인 이용허락 시장'으로 정의할 경우, 저작권자는 항상 손실을 입은 것이 되어 공정이용 논리가 무력화되는 '순환 논리'의 오류에 빠진다고 지적했다. 따라서 두 법원 모두 학습 데이터에 대한 이용허락 시장을 넷째 요소인 시장에 미치는 영향 분석에서 배제했다.
시장 희석의 가능성은 인정되었으나 구체적인 증거 없이는 저작권 침해로 인정되지 않음
메타 케이스는 AI 결과물이 원저작물을 대체하지 않더라도 시장을 잠식할 수 있다는 '시장 희석(market dilution)' 가능성을 심도 있게 논의했다. 법원은 AI가 생성한 텍스트가 저작권을 침해하지 않더라도 해당 분야의 저작물 판매를 잠식하거나 창작 인센티브를 감소시킬 수 있음을 시사했다. 그러나 법원은 원고 측이 이러한 시장 희석에 대한 구체적인 증거를 제시하지 못했다는 이유로 시장 손상을 인정하지 않았다. 원고는 단순한 추측이 아닌 데이터 등 객관적이고 경험적인 증거를 통해 시장 영향을 입증했어야 했으나 실패했고, 결과적으로 시장 희석의 가능성은 인정되었음에도 넷째 요소 판단에서 메타에게 유리하게 작용했다.
|
생성형 AI의 저작권 침해에 대한 검토 - 일본에서의 논의를 중심으로 -, 이재민,2024 |
생성형 AI 시대의 저작권 침해 문제의 발생 원인
최근 인공지능(AI) 산업의 급격한 발달에 따라 지식재산권 분야, 특히 저작권 영역에서 다양한 분쟁이 발생하고 있다. 이러한 분쟁은 크게 AI 사업자의 관점과 원저작자의 관점으로 나뉘는데, 본고는 후자인 원저작자의 입장에서 저작권 침해 문제를 집중적으로 조명한다. 생성형 AI와 관련하여 저작권 침해 문제가 발생하는 근본적인 이유는 AI의 기술적 특성과 현행 저작권법 체계 사이의 불일치에 있다. AI는 대규모 데이터를 학습하여 새로운 결과물을 만들어내는데, 이 과정에서 타인의 저작물을 이용하게 되며, 산출된 결과물이 기존 저작물과 유사할 경우 권리 침해 여부가 불분명해지기 때문이다. 특히 인간의 사상이나 감정이 표현된 것만을 저작물로 인정하는 현행법상, AI가 단독으로 생성한 결과물은 저작물성을 인정받기 어렵다. 그러나 현재 통용되는 '약한 AI(Weak AI)'의 경우, 프롬프트 입력 등 인간의 활동이 결과물 산출에 깊이 개입하게 되므로, 이를 인간의 창작물로 볼 여지가 많아지며, 이에 따라 현행 저작권법의 규율 대상이 될 가능성이 열리게 된다.
생성형 AI 기술의 흐름과 저작권 침해의 두 가지 국면
생성형 AI와 관련하여 원저작자의 권리를 침해하는 경우는 크게 두 가지 단계로 구분된다. 첫째는 AI의 '개발 및 학습 단계'에서 발생하는 문제로, 원저작물을 수집하고 가공하는 과정에서 필연적으로 발생하는 복제권과 전송권 침해 문제이다. 둘째는 AI를 '이용하여 결과물을 생성하는 단계'에서 발생하는 문제로, AI 산출물이 기존 저작물과 유사할 때 발생하는 저작권 침해이다. 이러한 구분이 필요한 이유는 각 단계별로 저작물의 이용 행위와 침해의 양상이 다르며, 적용되는 법적 규정 또한 상이하기 때문이다.
그림.생성형 AI기술 개발과 이용의 흐름의 알반적인 내용의 도식화
생성형 AI 기술의 개발과 이용 흐름을 도식화하여 살펴보면 다음과 같다. 우선 개발 및 학습 단계에서는 저작물을 포함한 학습용 데이터를 수집 및 가공하여 데이터셋을 구축한다. 이를 학습용 프로그램에 입력하여 파라미터 조정을 거쳐 '학습 완료된 모델'을 생성한다. 이후 생성 및 이용 단계에서는 이 학습 완료된 모델에 이용자가 프롬프트(지시어)를 입력하고, 추론 과정을 거쳐 최종 AI 생성물을 출력하게 되며, 이것이 배포되거나 공표되는 과정을 거친다.
일본의 '향유를 목적으로 하지 않는 이용' 규정
그림. 생성형AI의 결과물이 저작권을 침해하는 경우의 도식화
AI 개발을 위해 수많은 저작물을 데이터셋으로 구축하는 과정은 원칙적으로 저작재산권(복제권 등) 침해에 해당할 수 있다. 그러나 방대한 데이터의 저작권자에게 일일이 이용 허락을 받는 것은 현실적으로 불가능하며, 이는 AI 산업의 위축을 초래할 수 있다. 이에 일본은 2018년 저작권법을 개정하여 '저작물에 표현된 사상 또는 감정의 향유를 목적으로 하지 않는 이용' 규정(제30조의4)을 신설하였다.
이 규정이 신설된 배경에는 소송 리스크를 줄이고 명확성을 확보하여 AI 산업 발전을 도모하려는 의도가 있었다. 일본은 저작물 이용 행위를 권리자에게 미치는 불이익 정도에 따라 계층화하였는데, AI 학습을 위한 이용은 권리자의 이익을 해치지 않는 '제1층'의 행위로 분류되었다. 이러한 분류의 기저에는 "저작권은 저작물의 '향유(Enjoyment)'에 대한 대가를 받을 기회를 보장하는 것"이라는 논리가 깔려 있다. 즉, 저작물을 감상하거나 정서적 만족을 얻기 위해 사용하는 것이 아니라면, 저작권자의 본질적인 시장 이익을 해치지 않는다는 것이다. 이를 AI 개발을 위한 학습용 데이터 수집에 적용하면 다음과 같은 논리가 성립된다. 데이터 수집 행위는 저작물을 문화적 소산으로서 감상하거나 그 표현의 미적 가치를 느끼기 위한 것이 아니라, 정보 해석과 패턴 인식을 위한 기계적 과정에 불과하다. 따라서 이는 원래 목적인 '향유'를 하는 것이라 볼 수 없으므로, 저작권자의 동의 없이도 이용이 가능하다는 결론에 도달한다.
이 규정의 해석과 관련하여 영리 목적 여부는 중요하지 않다는 점이 특징이다. 해당 조항은 영리와 비영리를 구분하지 않고 오로지 '향유 목적' 유무만을 따지므로, 영리 기업이 상업적 AI를 개발하기 위해 데이터를 학습시키더라도 그것이 감상 목적이 아니라면 저작권 제한 규정이 적용된다. 다만, 해석상 주의할 점은 향유의 목적과 비향유의 목적이 혼합되어 있는 경우이다. 예를 들어, 기존 학습 완료된 모델에 의도적으로 특정 작가의 화풍을 그대로 출력시키기 위해 추가 학습(Fine-tuning)을 시키는 경우, 이는 향유의 목적이 병존하는 것으로 보아 해당 면책 규정이 적용되지 않고 저작권 침해가 될 수 있다.
한국에의 시사점: 문화산업 발전을 위한 저작권의 재해석
일본의 이러한 논의는 한국 저작권법 체계에도 중요한 시사점을 준다. 한국 저작권법의 목적 역시 저작자의 권리 보호뿐만 아니라 공정한 이용을 도모하여 문화 및 관련 산업의 발전에 이바지하는 데 있다. 저작권은 창작을 유인하는 인센티브로서 기능해야지, 새로운 기술 발전을 가로막는 장벽이 되어서는 안 된다. AI 학습 과정에서의 저작물 이용은 인간의 뇌가 정보를 학습하는 것과 유사하며, 단지 기계적으로 복제·전송될 뿐 실질적인 '향유'가 일어나지 않는다. 따라서 학습 단계에서의 이용만으로는 저작권자의 실질적 이익을 침해한다고 보기 어려우며, 일본과 같이 유연한 권리 제한 규정을 도입하여 AI 산업 발전과 저작권 보호의 균형을 맞출 필요가 있다.
AI 결과물 생성・이용 단계에서의 저작권 침해 문제와 '의거성'의 딜레마
학습 단계를 넘어, 실제로 생성된 AI 결과물이 기존 저작물과 유사할 때 발생하는 침해 문제는 더욱 복잡하다. 저작권 침해(표절)가 인정되기 위해서는 두 가지 요건이 충족되어야 한다. 첫째, 양 작품이 실질적으로 유사해야 한다는 '유사성' 요건이다. 둘째, 결과물이 기존 저작물에 기초하여 만들어졌다는 '의거성' 요건이다. 즉, 우연의 일치가 아니라 타인의 저작물을 보고 베꼈다는 사실이 입증되어야 한다.
이 지점에서 생성형 AI 특유의 쟁점이 발생한다. AI 이용자는 특정 원저작물을 전혀 본 적이 없는데, AI가 이를 학습하여 유사한 결과물을 내놓는 경우 과연 '의거성'을 인정할 수 있는가 하는 문제다. 이에 대해 일본 문화심의회는 'AI와 저작권에 관한 사고방식'을 통해 구체적인 기준을 제시하였다.
일본의 논의에 따르면, 이용자가 기존 저작물을 인식하고 프롬프트에 입력한 경우(예: "○○ 스타일로 그려줘")에는 당연히 의거성이 인정된다. 논란이 되는 지점은 '이용자는 기존 저작물을 몰랐지만, AI 학습 데이터에 해당 저작물이 포함된 경우'이다. 이 경우 일본은 AI 이용자가 직접 저작물을 보지 않았더라도, 학습 데이터에 포함되어 있었다면 객관적인 접근 가능성이 있었던 것으로 보아 의거성을 추정할 수 있다고 판단한다.
여기서 더 나아가 법적 책임의 주체에 대한 논란이 발생한다. 이용자는 의거성(인식) 없이 AI를 사용했음에도 결과적으로 침해자가 될 위험에 처한다. 일본의 논의는 이용자가 AI를 '도구'로 사용한 것이므로, 도구(AI)가 이미 학습한(접근한) 저작물은 사용자도 접한 것으로 간주하는 논리를 취한다. 이는 이용자 입장에서 억울할 수 있는 부분이나, 고의나 과실이 없는 경우 손해배상 책임은 면할 수 있어도 부당이득 반환 등의 책임은 남을 수 있다. 또한, AI 사업자가 침해 가능성을 알면서도 억제 조치를 취하지 않았다면, 사업자 역시 규범적인 침해 주체로서 책임을 질 가능성이 있다는 점도 중요하게 논의되고 있다. 이는 AI 기술이 가져온 전통적 법리와의 충돌을 보여주는 대표적인 사례로, 향후 한국에서도 면밀한 검토가 필요한 지점이다.
[METAX = 류성훈 기자]
[ⓒ META-X. 무단전재-재배포 금지]