브리태니커 백과사전의 오픈AI 고소, AI 학습 데이터의 정당성 논란

인공지능 기술이 발전하면서 정보의 생산과 소비 방식이 근본적으로 뒤바뀌고 있습니다. 하지만 최근 브리태니커 백과사전과 미리엄-웹스터 사전이 오픈AI를 상대로 소송을 제기하며, AI가 학습 데이터로 정보를 활용하는 방식에 대한 치열한 공방이 시작되었습니다. 이는 단순히 기업 간의 법적 다툼을 넘어, 지식 공유의 가치와 저작권 보호 사이의 경계를 다시 묻는 중요한 사건입니다.

Table of Contents

브리태니커 백과사전은 왜 오픈AI를 고소했는가

브리태니커 측의 핵심 주장은 오픈AI가 자사의 방대한 지식 콘텐츠를 무단으로 학습하고, 이를 그대로 복제하여 출력한다는 점입니다. 이들은 챗GPT가 답변을 생성할 때 단순히 정보를 요약하는 수준을 넘어, 브리태니커의 저작물과 거의 흡사한 문장을 그대로 출력하고 있다고 주장합니다. 이는 AI가 정보를 재구성하는 것이 아니라, 데이터를 기억했다가 무단으로 복제하는 행위라는 비판입니다.

AI가 지식을 암기한다는 의미는 무엇일까

법률 소송 과정에서 브리태니커는 챗GPT가 마치 백과사전을 암기한 것처럼 행동한다고 지적합니다. 실제로 사용자가 특정 질문을 던지면, 챗GPT는 브리태니커의 전문 지식을 거의 그대로 쏟아냅니다. 이러한 모델의 반응은 단순히 지식을 학습한 결과를 출력하는 범위를 벗어나, 저작권이 있는 콘텐츠를 직접적으로 침해하는 행위로 간주될 수 있습니다.

방대한 데이터를 모델 내부에 구축
특정 문구를 verbatim으로 생성
정보 제공의 원본 출처를 무력화

오픈AI의 학습 방식이 가져온 트래픽 잠식 현상

브리태니커가 느끼는 위기감은 실질적인 트래픽 감소에서 옵니다. 과거 사용자는 궁금한 점이 있으면 브리태니커 웹사이트에 직접 방문했지만, 이제는 챗GPT에게 물어보는 것만으로 모든 답을 얻을 수 있습니다. AI는 정보를 가공하여 사용자에게 즉각 제공하기 때문에, 브리태니커와 같은 원천 정보 생산자들의 웹사이트 방문자가 줄어들고 수익 구조가 흔들리는 상황입니다.

왜 검색 엔진과 AI의 지식 제공은 다른가

기존의 구글과 같은 검색 엔진은 사용자에게 링크를 제공하여 원본 웹사이트로 유도합니다. 하지만 오픈AI의 챗GPT는 링크를 제시하기보다 직접적인 답변을 제시합니다. 이는 원본 사이트의 생태계를 파괴하는 결과로 이어집니다. 퍼블리셔 입장에서는 자신들이 힘들게 구축한 데이터가 AI 학습의 재료가 되고, 결국 자신의 서비스를 대신하는 경쟁자로 돌아오는 상황을 받아들이기 어렵습니다.

앞으로 저작권 관련 법적 공방은 어떻게 될까

이번 사례는 뉴욕타임스가 오픈AI를 상대로 제기한 소송과 맥을 같이합니다. 지난 9월 앤스로픽이 저작권 관련 소송에서 합의를 통해 15억 달러를 지급한 사례가 있듯이, 이번 브리태니커의 고소 역시 AI 기업들에게 큰 압박이 될 것입니다. 저작권 보호와 AI 기술 발전 사이의 균형을 맞추기 위한 합의점은 향후 기술 업계의 표준을 결정지을 중요한 변수입니다.

지식 플랫폼의 미래는 어떻게 변할 것인가

결국 AI 시대의 지식 생산자와 플랫폼 사이에는 새로운 계약 모델이 필요할 것으로 보입니다. 데이터를 제공하는 대신 정당한 사용료를 받는 라이선스 모델이나, AI가 답변 시 원본 출처를 반드시 명시하게 만드는 기술적 가이드라인이 제시될 가능성이 높습니다. 단순히 데이터를 빨아들이는 형태의 AI는 결국 양질의 정보를 공급할 원천이 사라지게 만들 것이기 때문입니다.

출처: Encyclopedia Britannica is suing OpenAI for allegedly ‘memorizing’ its content with ChatGPT