Systems & Infrastructure Writer

AI 학습 논쟁은 더 이상 혁신 대 소유권이라는 단순한 논쟁이 아니다. 모델이 대규모로 책, 기사, 보호된 작품을 학습할 때 저작권법이 얼마나 확장 가능한지 시험하는 현실적 사례가 됐다. 중요한 것은 AI의 인상적인 성능이 아니라, 원본 자료, 사용 양상, 시장 영향까지 면밀히 살핀 후 그 복제를 공정 사용으로 방어할 수 있는지 여부이다. 시장 영향 등이 정밀히 검토되어야 한다.[1][2][3][4]

미국의 공정 사용 원칙은 슬로건이 아니라 맥락을 바탕으로 한다. 법적 분석은 사용 목적과 성격, 저작물의 성격, 사용된 양, 원본의 시장에 미치는 영향을 묻는다. 이 틀은 오래됐지만, 압력은 새롭다. 생성형 AI 시스템은 좁은 법적 시험이었던 것을 광범위한 인프라 질문으로 바꾸었는데, 이제 학습이 제품 설계의 중심에 자리잡았기 때문이다.

미국 저작권국은 정답이 일률적이지 않을 것임을 이미 시사했다. 생성형 AI 학습에 관한 보고서는 법적·기술적 배경을 논하며, 새로운 시스템 출현에 따라 관련 사실이 달라질 수 있음을 언급한다. 또한 권리자가 학습 접근 시장이 존재하거나 존재할 수 있음을 입증할 경우 라이선스가 중요한 부분임을 지적한다. 이는 사용이 원저작자가 제어해야 하는 시장의 대체물로 보일 때 공정 사용이 약해진다는 점과 연관된다.

2025년 법원 판결은 이 이슈를 이론에서 실제 소송으로 밀어넣었다. 앤트로픽(Anthropic) 관련 한 사례에서, 북부 캘리포니아의 연방 판사는 책을 이용한 학습이 법원이 매우 변형적이라고 표현한 맥락에서 공정 사용이 될 수 있다고 판결했다. 같은 사례에는 구매한 책과 불법 다운로드한 책이 모두 포함돼 있는데, 이런 세부사항이 일반론을 무너뜨린다. 데이터 출처가 바뀌면 법적 입장도 바뀐다. 깔끔한 답변을 원하는 이들이 간과하는 부분이다.

또 다른 중요한 판례는 더 엄격한 입장을 취했다. 로스 인텔리전스(Ross Intelligence)와 톰슨 로이터스(Thomson Reuters) 자료 관련 소송에서 델라웨어 법원은 AI 학습 데이터 사용과 관련해 저작권 침해를 인정했다. 이는 보편적 규칙을 제시하지 않는다. 다만 법원이 변형된 출력과 무단 입력을 구분할 의사가 있음을 보여주며, 출처도 여전히 중요하다. 단지 모델에 'AI'라는 명칭을 붙였다고 학습 데이터 출처가 무시되지는 않는다.

그래서 ‘AI 인용’이라는 표현은 오해의 소지가 있다. 출판에서 인용은 보통 출처 표시와 투명성 문제다. 하지만 학습 데이터 분쟁은 복제, 시장 대체 여부, 최종 결과물이 새롭더라도 중간 복제를 법이 허용할지 여부에 관한 것이다. 관련성은 있으나 동일하지 않다. 모델은 독창적인 출력을 생성하면서도 별도의 법적 문제를 일으키는 복제된 입력에 기반할 수 있다. 기술은 정교할 수 있으나 그 아래 법적 연결고리는 복잡할 수 있다.

시장 유인은 명확하다. 모델 개발자는 능력 향상을 위해 광범위한 데이터셋을 원한다. 권리자는 자신의 작업이 무료 인프라가 아니므로 보상을 원한다. 이 두 입장 사이에 라이선스 시장이 형성되고 있지만 불균형하다. 출처들은 뉴스, 음악, 음성 분야가 이미 라이선스가 있거나 탐색 중인 영역임을 지적한다. 이는 클라우드 계약이나 API 약관이 애플리케이션 개발에 포함되듯, 법적 허가가 학습 과정에 포함되는 미래를 시사한다.

불확실한 점은 지속 가능한 규칙의 범위다. 판례는 여전히 사실별이다. 법원은 어떤 학습 경로는 변형적이라 보고 다른 경로는 일반 복제로 볼 수 있으며, 특히 출처 데이터가 무단이거나 출력이 원본 시장에 위협이 될 때 그렇다. 다음 단계에서 중요한 증거는 마케팅 문구가 아니라 데이터셋 출처, 라이선스 기록, 출력 행태, 시장 피해 여부 증명일 것이다. 이들 사실이 명확해질 때까지 공정 사용에 관한 광범위한 주장은 대부분 추측이다.

출처로 제공된 일본 정책 자료도 같은 방향을 제시한다. AI와 저작권을 확립된 원칙이 아닌 빠르게 변하는 기술적·법적 문제로 본다. 이는 올바른 자세다. 정부는 이전 복제 형태에 맞춰진 법률보다 훨씬 빠르게 변하는 시스템을 따라잡으려 애쓰고 있다. 실제로 이는 개발자, 출판사, 사용자에게 단순한 부담을 남긴다. 즉, 데이터 출처와 부착된 권리를 알고, 모델 경계가 법적 경계라고 가정하지 말라는 것이다. 보통 그렇지 않다.