CNN, 퍼플렉시티 AI 저작권 침해 소송…언론 콘텐츠 무단 활용 쟁점

CNN이 AI 검색 기업 퍼플렉시티를 상대로 저작권 및 상표권 침해 소송을 제기했다. 2026년 5월 28일 미국 뉴욕남부지방법원에 제출된 소장에 따르면 CNN은 퍼플렉시티가 CNN의 기사, 영상, 이미지 등 17,000건 이상의 저작물을 무단으로 복제·활용해 자사 생성형 AI 제품을 운영했다고 주장했다. CNN은 퍼플렉시티의 행위가 단순 검색이나 링크 제공을 넘어, 언론사의 콘텐츠를 AI 답변 형태로 재포장해 이용자가 원문 사이트를 방문할 필요를 줄이는 구조라고 지적했다.

이번 소송은 AI와 언론 저작권 갈등의 새로운 국면을 보여준다. 그동안 생성형 AI 저작권 논쟁은 주로 대규모 모델 학습 데이터에 초점이 맞춰져 있었다. 그러나 CNN의 소송은 여기에 더해 실시간 검색과 검색 증강 생성, 즉 RAG 기반 AI 서비스가 언론 콘텐츠를 어떻게 수집하고, 어떻게 답변으로 다시 배포하는지를 정면으로 문제 삼는다.

핵심은 두 단계다. 첫째, 입력 단계에서 퍼플렉시티가 CNN 디지털 플랫폼과 제3자 경로를 통해 CNN 콘텐츠를 크롤링·스크래핑·복제해 AI 검색 인덱스와 RAG 시스템에 사용했다는 주장이다. 둘째, 출력 단계에서 퍼플렉시티의 챗봇, 브라우저, API가 CNN 기사와 동일하거나 실질적으로 유사한 답변을 생성해 이용자에게 제공했다는 주장이다. CNN은 이 두 단계 모두가 저작권 침해라고 보고 있다.

CNN의 주장…“퍼플렉시티는 검색이 아니라 대체재를 만든다”

소장에서 CNN은 퍼플렉시티를 “답변 엔진”으로 규정한다. 전통적인 검색엔진이 여러 링크를 보여주고 이용자를 원문 사이트로 보내는 방식이라면, 퍼플렉시티는 이용자가 링크를 클릭하지 않아도 되도록 질문에 대한 종합 답변을 제공한다는 것이다. CNN은 퍼플렉시티가 과거 “Skip the links”라는 표현을 사용하며 링크 방문을 건너뛰는 경험을 마케팅했다고 지적했다.

이 차이는 저작권 논쟁의 핵심이다. 검색엔진은 일반적으로 원문 콘텐츠로 트래픽을 보내는 대가로 색인과 짧은 스니펫을 제공한다. 그러나 AI 답변 엔진은 원문으로 가는 경로를 줄이고, 이용자가 필요한 정보를 플랫폼 안에서 소비하도록 만든다. CNN은 이 구조가 언론사의 디지털 광고, 구독, 라이선스 수익을 직접 침해한다고 주장한다.

특히 CNN은 퍼플렉시티가 무료 서비스뿐 아니라 유료 요금제, 기업용 요금제, API 상품을 통해 CNN 콘텐츠를 활용하고 있다고 본다. 소장에는 퍼플렉시티가 유료 서비스인 Perplexity Pro, Enterprise Pro, Enterprise Max를 제공하며, “더 깊은 출처 접근”, “웹·팀 파일·업무 앱 검색”, “대규모 딥 리서치” 등을 내세운다는 내용이 담겼다. CNN의 시각에서 이는 언론사가 만든 고비용 콘텐츠를 퍼플렉시티가 자사 유료 상품의 가치로 전환하는 행위다.

RAG가 왜 쟁점인가

이번 소송에서 중요한 기술적 개념은 RAG다. RAG는 Retrieval-Augmented Generation의 약자로, 대형언어모델이 답변을 만들기 전에 외부 문서나 웹페이지에서 관련 정보를 검색해 그 내용을 기반으로 답변을 생성하는 방식이다. 일반 LLM이 학습된 내부 지식에 의존한다면, RAG는 최신 정보와 특정 출처를 불러와 답변을 더 신뢰성 있게 만들 수 있다.

문제는 이 “신뢰성”이 어디에서 오는가다. CNN은 퍼플렉시티의 RAG 시스템이 CNN과 같은 언론사의 고품질 보도에 의존한다고 주장한다. 즉 퍼플렉시티가 “정확한 답변”을 제공할 수 있는 이유는 CNN 기자들이 현장에서 취재하고, 편집자들이 검증하고, 언론사가 비용을 들여 만들어낸 콘텐츠를 실시간으로 가져오기 때문이라는 논리다.

CNN은 퍼플렉시티가 자체적으로 기자, 편집자, 취재망을 운영하지 않으면서 CNN의 보도를 RAG 콘텐츠로 활용한다고 비판한다. 이 관점에서 퍼플렉시티의 AI 검색은 언론 보도의 대체재가 될 수 있지만, 언론 생산 비용을 부담하지 않는다. 바로 이 지점이 언론사들이 AI 검색 기업을 향해 제기하는 가장 근본적인 문제다.

robots.txt와 ‘스텔스 크롤링’ 의혹

CNN은 퍼플렉시티가 CNN 콘텐츠에 접근하는 과정도 문제 삼았다. 소장에 따르면 CNN은 PerplexityBot 접근을 차단했으며, 퍼플렉시티가 CNN 콘텐츠를 사용할 권한이 없다는 사실을 알고 있었다고 주장한다. 그럼에도 퍼플렉시티는 PerplexityBot, Perplexity-User 등 소프트웨어 프로그램을 통해 CNN 콘텐츠를 수집하거나, 제3자 인덱스와 데이터베이스를 통해 CNN 콘텐츠를 활용했다는 것이 CNN의 주장이다.

특히 CNN은 퍼플렉시티가 robots.txt 같은 기술적 접근 제한을 무시하거나 우회했다는 외부 보도를 인용했다. robots.txt는 웹사이트 운영자가 크롤러에게 접근 허용·차단 범위를 알려주는 표준적 장치다. CNN은 퍼플렉시티의 Perplexity-User 크롤러가 일반적으로 robots.txt 규칙을 무시한다고 설명하며, 비공개 IP나 미신고 사용자 에이전트를 통해 차단을 회피했다는 조사 결과도 제시했다.

이 대목은 AI 기업과 콘텐츠 보유자 사이의 기술적 신뢰 문제로 이어진다. AI 서비스가 웹 콘텐츠를 활용하려면 사이트 운영자의 접근 제한을 존중해야 하는가. robots.txt는 법적 구속력이 있는가. 크롤러를 식별하지 않고 접근하는 행위는 기술적 우회인가. 이번 소송은 이런 질문을 법정으로 끌고 들어갔다.

출력 단계의 핵심…“요약”인가 “대체 복제”인가

CNN은 퍼플렉시티의 출력물이 단순 요약을 넘어선다고 주장한다. 소장에는 퍼플렉시티 챗봇, Comet 브라우저, Search API, Agent API가 CNN 기사 일부 또는 전체를 그대로 출력했다는 사례들이 제시돼 있다. CNN은 이러한 답변이 일반 검색 결과의 짧은 스니펫을 넘어, 원문을 읽지 않아도 될 정도의 대체적 결과물이라고 본다.

예를 들어 CNN은 퍼플렉시티 Pro가 특정 CNN 기사를 분석해달라는 요청에 대해 기사 일부를 거의 그대로 재현했다고 주장했다. 또 퍼플렉시티 Search API가 CNN 기사 제목 일부만 입력해도 기사 상당 부분을 그대로 출력했다는 사례도 제시했다. 더 강한 사례는 Comet 브라우저다. CNN은 Comet Assistant가 CNN의 유료 구독 장벽 뒤에 있는 기사 내용을 비구독자에게 그대로 제공했다고 주장했다.

이 주장은 AI 검색 서비스의 본질적 위험을 드러낸다. AI 답변이 짧은 사실 정보나 링크 안내에 그친다면 검색 보조 도구로 볼 수 있다. 그러나 유료 기사 전문이나 상당 부분을 제공한다면, 이는 원문 콘텐츠의 시장을 대체할 수 있다. CNN은 바로 이 점을 근거로 퍼플렉시티가 구독·광고·라이선스 수익을 침해한다고 주장한다.

상표권 침해 주장…AI 환각이 CNN 브랜드를 훼손한다

이번 소송은 저작권 침해만 다루지 않는다. CNN은 퍼플렉시티가 CNN 상표를 무단 사용하고, CNN과의 제휴가 존재하는 것처럼 허위 표시했으며, 환각 또는 변형된 콘텐츠를 CNN 출처로 제시해 CNN 브랜드를 훼손했다고 주장했다.

소장에 따르면 CNN과 퍼플렉시티는 2025년 10월 Comet Plus 관련 파트너십 조건서에 합의했지만, 최종 계약으로 이어지지 않았고 양측은 2025년 11월 24일 조건서를 종료했다. CNN은 이후에도 퍼플렉시티가 CNN 프리미엄 콘텐츠에 접근할 수 있는 것처럼 답변했다고 주장한다. CNN은 이를 존재하지 않는 제휴 관계를 암시하는 행위로 보고, Lanham Act상 허위 출처 표시와 상표 희석 문제를 제기했다.

또한 CNN은 퍼플렉시티가 CNN 기사를 인용하는 과정에서 사실과 다른 문장이나 부정확한 내용을 CNN과 연결해 표시했다고 주장했다. AI 환각이 특정 언론사의 이름과 함께 제시될 경우, 이용자는 그 오류를 AI가 아니라 언론사의 실수로 오해할 수 있다. CNN 입장에서는 이는 단순한 정보 오류가 아니라 브랜드 신뢰 훼손이다.

CNN이 요구한 구제…손해배상과 영구금지명령

CNN은 퍼플렉시티에 대해 저작권 침해, 기여·대위 저작권 침해, 허위 출처 표시와 상표 희석, 상표 침해를 주장하며 배심재판을 요구했다. 구제수단으로는 법정손해배상, 실제손해배상, 3배 손해배상, 이익 반환, 변호사 비용, 소송비용, 그리고 퍼플렉시티의 위법 행위를 영구적으로 금지하는 명령을 청구했다.

주목할 점은 CNN이 단순히 과거 침해에 대한 배상만 요구한 것이 아니라, 퍼플렉시티의 구조적 행위 자체를 막으려 한다는 점이다. 이는 AI 검색 서비스가 언론 콘텐츠를 수집하고 답변으로 재배포하는 방식을 법원이 어디까지 허용할 것인지와 직결된다.

퍼플렉시티는 왜 집중 표적이 됐나

퍼플렉시티는 전통적 검색과 생성형 AI의 경계에 있는 대표적 기업이다. 오픈AI나 앤트로픽이 주로 범용 챗봇과 모델 기업으로 인식된다면, 퍼플렉시티는 처음부터 “AI 검색”과 “답변 엔진”을 전면에 내세웠다. 이용자가 질문하면 웹을 실시간으로 검색하고, 출처를 붙여 요약 답변을 제공한다는 점이 핵심 경쟁력이다.

이 모델은 이용자에게 편리하다. 그러나 언론사 입장에서는 위험하다. 퍼플렉시티가 원문 링크를 제공하더라도, 답변이 충분히 자세하면 이용자는 링크를 클릭하지 않을 가능성이 크다. 출처 표시는 오히려 답변에 대한 신뢰를 높이지만, 원문 사이트 방문으로 이어지지 않을 수 있다. CNN은 이 구조가 언론 콘텐츠 생산자에게 돌아가야 할 경제적 가치를 AI 플랫폼으로 이전시킨다고 본다.

소장에는 퍼플렉시티가 이미 Dow Jones, New York Post, New York Times, Chicago Tribune, Encyclopaedia Britannica, Merriam-Webster 등과 관련된 소송에 직면해 있다는 내용도 언급된다. 이는 퍼플렉시티가 AI 검색의 새로운 법적 시험대가 되고 있음을 보여준다.

언론 산업의 관점…트래픽 기반 인터넷 질서가 흔들린다

이번 소송의 더 큰 의미는 인터넷 뉴스 유통 질서의 변화다. 지난 20여 년 동안 언론사는 검색엔진, 소셜미디어, 포털을 통해 트래픽을 확보하고 광고·구독 수익으로 전환해왔다. 물론 이 구조도 플랫폼 의존 문제를 낳았지만, 최소한 검색 결과와 소셜 링크는 원문 방문을 유도했다.

AI 답변 엔진은 다르다. 이용자가 질문하고, 플랫폼이 요약하고, 출처를 표시한 뒤, 이용자는 플랫폼 안에서 답을 얻는다. 이 구조에서는 원문 생산자가 보이지 않거나, 보이더라도 클릭을 얻지 못할 수 있다. 언론사 입장에서 이는 “발견”이 아니라 “대체”다.

CNN은 소장에서 AI 봇이 전통적 구글 검색보다 훨씬 적은 추천 트래픽을 보낸다는 연구를 인용했다. 이 주장이 법적으로 얼마나 받아들여질지는 별개로, 언론사들이 체감하는 위기는 분명하다. AI 검색이 확산될수록 원문 사이트 방문, 광고 노출, 구독 전환이 줄어들 가능성이 있기 때문이다.

AI 기업의 반론 가능성…공정이용과 검색 혁신

물론 퍼플렉시티 측은 다른 논리를 펼 가능성이 크다. AI 검색은 이용자 질문에 답하기 위한 변형적 사용이며, 출처를 표시하고, 웹 정보 접근성을 높이고, 기존 검색의 진화라는 주장이다. 또한 RAG는 원문 전체를 저장하거나 대체하기 위한 것이 아니라, 최신 정보를 기반으로 답변 정확도를 높이기 위한 기술이라는 방어도 예상된다.

공정이용 여부는 핵심 쟁점이 될 수 있다. 법원은 사용 목적과 성격, 저작물의 성격, 사용된 양과 실질성, 원저작물 시장에 미치는 영향을 따져 판단한다. CNN은 퍼플렉시티가 상업적 목적으로 CNN 콘텐츠를 대량 복제하고, 상당 부분을 그대로 출력하며, CNN의 구독·광고·라이선스 시장을 침해한다고 주장한다. 반대로 퍼플렉시티는 검색과 요약이 정보 접근성을 높이고, 출처를 제공하며, 공익적 기능을 한다고 주장할 가능성이 있다.

하지만 이번 사건의 까다로운 지점은 단순 요약이 아니라 ‘전문 또는 상당 부분의 재현’ 사례가 포함됐다는 점이다. 만약 법원이 출력물이 원문 시장을 실질적으로 대체한다고 본다면, AI 검색 서비스의 현행 운영 방식은 큰 제약을 받을 수 있다.

한국 언론과 플랫폼에도 남의 일이 아니다

이번 소송은 미국 언론과 AI 기업의 분쟁이지만, 한국 언론 산업에도 직접적인 시사점을 준다. 한국에서도 포털, 검색, SNS, 생성형 AI가 뉴스 유통을 재편하고 있다. 향후 AI 검색 서비스가 한국어 뉴스를 실시간으로 요약·답변하는 방식으로 확산되면, 언론사의 원문 트래픽과 구독 전환은 더 큰 압박을 받을 수 있다.

특히 한국 언론은 포털 의존도가 높고, 유료 구독 모델이 아직 강하게 자리 잡지 못한 경우가 많다. 이런 환경에서 AI 답변 엔진이 기사 내용을 요약해 제공하면 언론사는 콘텐츠 생산 비용을 부담하면서도 수익은 플랫폼에 빼앗기는 구조에 놓일 수 있다.

따라서 한국 언론사들도 세 가지를 준비해야 한다. 첫째, AI 크롤링과 RAG 사용에 대한 명확한 이용약관과 기술적 차단 정책이 필요하다. 둘째, AI 기업과의 라이선스 계약에서 사용 범위, 출력 제한, 출처 표시, 수익 배분, 환각 책임을 구체화해야 한다. 셋째, AI 시대에도 대체되기 어려운 현장 취재, 탐사보도, 데이터 저널리즘, 독자 커뮤니티를 강화해야 한다.

결론…AI 검색의 미래는 ‘누가 답을 만드는가’가 아니라 ‘누가 비용을 부담하는가’에 달렸다

CNN의 퍼플렉시티 제소는 AI 검색 시대의 핵심 질문을 정면으로 던진다. 이용자는 빠르고 편리한 답변을 원한다. AI 기업은 그 수요를 충족시키기 위해 언론사 콘텐츠를 검색하고 요약한다. 그러나 그 콘텐츠를 만들기 위해 현장에 기자를 보내고, 위험을 감수하며, 편집과 검증에 비용을 지불한 주체는 언론사다.

AI 검색은 인터넷 정보 접근 방식을 바꾸고 있다. 그러나 정보 접근의 혁신이 정보 생산의 경제적 기반을 무너뜨린다면, 장기적으로 AI가 가져올 답변의 품질도 약해질 수 있다. AI는 스스로 현장에 가지 않는다. AI는 전쟁터에서 취재하지 않고, 재난 현장에서 확인하지 않으며, 권력자를 인터뷰하지 않는다. 결국 AI가 답하기 위해서는 누군가가 먼저 사실을 기록해야 한다.

이번 소송의 본질은 CNN과 퍼플렉시티 사이의 개별 분쟁이 아니다. 생성형 AI 시대에 고품질 정보의 비용을 누가 부담할 것인가에 대한 산업적 충돌이다. 법원이 어디까지를 공정이용으로 보고, 어디부터를 무단 대체로 볼 것인지에 따라 AI 검색과 디지털 저널리즘의 미래 질서가 달라질 수 있다.

AI가 링크를 건너뛰는 시대가 왔다. 이제 법원은 그 건너뛴 링크 뒤에 있던 노동과 비용, 권리와 책임을 어떻게 평가할지 판단해야 한다.

CNN, 퍼플렉시티 제소…AI 검색의 ‘답변 엔진’이 언론 저작권 전쟁의 중심에 섰다