Industrial Technology Correspondent
생성형 AI 논쟁은 이제 단순히 시스템이 올바른 답변을 제공하는지를 넘어서고 있다. 더 어려운 질문은, AI가 타인의 텍스트를 참조할 때 그것이 인간의 인용과 같은 기능을 수행하는가, 아니면 문화적·법적 인용의 무게 없이 단지 언어적으로 설득력 있게 보일 뿐인가 하는 점이다. 바로 이 지점에서 기술, 저작권, 사용자 기대가 충돌한다.
미국 저작권청은 AI 관련 보고서의 여러 부분에서 현행 원칙 수준으로 논쟁을 명확히 끌어올렸다.[1][7][9] 두 번째 부문에서는 기존 저작권 규정이 생성형 AI를 다루기에 충분히 유연하다고 명시하면서, AI가 만든 결과물은 반드시 사람이 표현적 요소를 충분히 결정했을 경우에만 보호받을 수 있다고 밝혔다.[7][9] 인용 문제에서는 중요한데, 이는 기계가 생성한 텍스트 유사도가 곧 독창적 창작물이 아님을 구분하는 선을 긋기 때문이다.
뉴욕타임스와 OpenAI 간의 법적 다툼은 이 선을 더욱 분명히 했다.[2][5][8][10] 공개된 주장에 따르면, 문제는 단지 언론 기사로 훈련했다는 점에 그치지 않고 AI가 생성한 결과가 기사와 거의 동일한 구절을 포함해 원본을 대체할 가능성에 관한 것이다.[2][5][8][10] OpenAI는 이에 대해 공정 사용(fair use)을 언급하며 모델이 신문 콘텐츠의 직접 대체물이 아니라고 반박한다.[2][5][8] 법적 해석상 핵심 질문은, AI가 일부에서 원본과 매우 유사할 경우 단순 생성 및 검색 시스템인지, 아니면 타인의 콘텐츠를 배포하는 채널인지에 관한 것이다.
기술적으로는 RAG(검색 보강 생성, Retrieval-Augmented Generation)가 유익한 대안으로 평가된다.[3][11][12] 이 방식은 언어 모델에 외부 검색을 결합해 추적 가능한 출처에 기반한 답변을 생성한다.[3][11][12] 해당 시스템 설명에서는 사용자가 출처를 검증할 수 있어 신뢰를 구축할 수 있음을 강조한다.[11][12] 하지만 이것은 인간적 의미의 인용과는 다르다. RAG 시스템은 출처 표시를 하더라도 인용 관행에서 중요한 표시 및 맥락화 이유를 ‘이해’하지 못한다.
출처 표시와 인용의 혼동은 매우 흔하다. 인간은 인용을 통해 출처, 권위, 경계를 명확히 하며 이는 책임과 연결된다. 반면 AI 모델은 훈련, 검색, 생성 패턴을 결합해 출처 신호를 내보낼 수 있으나 인용 의도는 없다.[1][11][12] 이 간극은 의미적 차원에 머무르지만 산업적으로는 매우 중요하다.[1][11][12] 제품팀은 신뢰를 조성하는 인터페이스를 구축하는 과정에서 출처 목록이 이미 일종의 편집적 검증을 대체하는 것으로 기대하는 오류를 범하기 쉽다.
반면 저자, 작가, 출판사는 이러한 가정을 위험하게 여긴다.[4][6] 제출된 입장문에서는 허가받지 않은 창작물 사용이 저작자의 생계를 위협하며 단순 기술적 중간 처리로 치부할 수 없다고 주장한다.[4][6] 논쟁의 경제적 핵심은 타인의 텍스트로 모델을 학습시키는 행위가 수학적 파라미터 산출을 넘어서 라이선스, 보상, 노출 권력의 재분배를 초래한다는 데 있다. 특히 뉴스 및 전문 콘텐츠의 경우 출처의 정확한 명시가 경제적 기반과 직접 연결돼 민감하다.
하지만 정당한 재구성과 부당한 도용 경계가 정확히 어디인지는 아직 미정이다. 현 출처들은 두 가지를 보여준다. 첫째, 법원과 당국은 생성형 AI를 예외적 사례로 다루려 하지 않고, 둘째 증명 문제는 기술적으로 까다롭다.[1][7][9][10] 거의 문자 그대로 인용된 한 사례는 시스템 전체를 판단하기에 불충분하다.[2][10] 더욱 신뢰할 만한 판단을 위해서는 그러한 출력이 얼마나 빈번히 발생하는지, 어떤 질문 조건에서 나오며, 반복 재생산 가능한지에 대한 상세 데이터가 필요하다.
그래서 AI에서 ‘인용’ 문제는 제품 설계와도 직결된다. 단순히 서술만 생성하고 출처를 명확히 구분하지 않으면 출처 표시는 장식에 그칠뿐이다. 반면 검색 기반 작업을 통해 증거를 명시하고 훈련 데이터와 외부 자료를 구분할 경우, 적어도 사용자가 기대하는 인용의 기능에 근접한다.[3][11][12] 문제는 대체로 모델 자체가 아니라 검색, 표출, 라이선스, 법적 책임 관리를 통합해 사용이 쉽도록 만드는 시스템 설계에 있다. 그것이 사용자에게 간단해 보이는 시스템을 만드는 핵심 과제다.
유럽 관점에서는 단순 미·산업계 법적 분쟁을 넘는다. AI가 뉴스룸, 지식 데이터베이스, 법률 서비스, 산업 문서 체계에 도입되면 출처 처리 방식이 신뢰와 위험 관리에 결정적인 역할을 하게 된다.[3][6][7][9] 잘못된 출처 표기는 단지 스타일 문제가 아니라 프로세스, 검증 체계, 책임 문제를 야기할 수 있다. 따라서 ‘인용’이라는 화려한 용어보다 보다 실질적인 실행을 묻는 게 필요하다. 누가 출처를 제공하고 누가 검증하며, 시스템이 원문에 너무 근접하면 어떻게 대응하는가? 이러한 질문이 AI와 저작권 논쟁을 긴 시간 담론으로 만들 것이다.
참고 소스
참고 소스
본문의 작은 번호 태그는 아래 참고 소스와 연결됩니다.
- [PDF] Copyright and Artificial Intelligence, Part 2 Copyrightability Report
- OpenAI Claps Back at NYT Lawsuit
- Incorporating Legal Structure in Retrieval-Augmented Generation: A Case Study on Copyright Fair Use
- [PDF] Copyright and Artificial Intelligence, Part 3: Generative AI Training ...
- [PDF] The New York Times, OpenAI, and the Copyright Implications of AI ...
- May 3, 2024 Via E-Mail Suzanne Wilson General Counsel ...
- Copyright Office Releases Part 2 of Artificial Intelligence Report
- Stolen Stories or Fair Use? The New York Times v. OpenAI and the Limits of Machine Learning — Columbia Undergraduate Law Review
- Copyright and Artificial Intelligence | U.S. Copyright Office
- Exploring Memorization and Copyright Violation in Frontier LLMs: A Study of the New York Times v. OpenAI 2023 Lawsuit
- What Is Retrieval-Augmented Generation aka RAG - NVIDIA Blog
- Aman's AI Journal • Primers • Retrieval Augmented Generation
추천 기사
추천 기사
-
생성형 AI와 파운데이션 모델
AI가 생성하는 텍스트가 대량 공급될 때, 가치의 초점은 경험과 신뢰성으로 이동한다
저자성 연구, 신뢰성 연구, 재현성 논란 등 다양한 관점을 통해 본 AI 생성 텍스트의 가치에 대한 해설 기사.
-
생성형 AI와 파운데이션 모델
AI 기업들은 왜 벤치마크 경쟁을 멈추지 못하는가?
대규모 언어 모델의 성능 경쟁은 Stanford CRFM의 HELM이나 Stanford AI Index 등이 보여주듯 단일 벤치마크만으로는 실력을 온전히 평가하기 어려운 단계에 접어들었다. GPT-4, Claude 4, Gemini 등의 기술 보고서는 벤치마크의 활용과 실제 운용 평가 간의 괴리를 보여주며, AI 기업의
-
생성형 AI와 파운데이션 모델
오픈 소스 AI, 정의의 문제에 직면하다
이 기사는 오픈 소스 AI 논쟁을 브랜드 논란이 아닌 거버넌스와 인프라 문제로 규정한다.