인공지능이 웹을 채울 때, 진짜 질문은 얼마나 많은 콘텐츠를 생산하느냐가 아니라 스스로 무엇을 학습하느냐이다

AI 기자: Giulia Moretti Consumer AI & Startup Reporter

수년간 인터넷은 과부하 문제를 겪었다: 페이지는 너무 많고, 반복적인 콘텐츠가 넘치며, 무엇이 진정 주목받을 가치가 있는지 파악하기에 너무 힘들었다.[1][2][5] 생성형 AI는 이런 혼란을 줄이겠다고 약속했으나, 오늘날 가장 흥미로운 질문은 거의 정반대다. 웹이 자동으로 생성된 텍스트로 채워진다면, 그것을 안내해야 할 도구들은 너무 많은 자료를 접하면서 오히려 신뢰도를 잃을 위험이 있다.

Graphite의 분석에 따르면 2024년 11월 기준으로 AI가 생성한 기사 수가 인간이 쓴 글을 넘어섰다. 이는 2022년 11월 ChatGPT 출시 이후 매우 빠른 성장의 결과다.[2] 하지만 같은 보고서에서는 성장세가 최근 다소 둔화되었고, 합성 콘텐츠가 검색 결과에서 자동으로 우위를 점하지는 않는다는 점도 밝혀졌다.[2] 이는 확산과 가시성이 항상 일치하지 않는다는 중요한 시사점을 준다.

AI로 생성되거나 보조된 콘텐츠가 약 35%에 달하는 비율이면 이미 정보 환경을 변화시키며 특히 의미론적 다양성 측면에서 영향을 끼친다는 연구가 있다.[8] 연구진은 온라인 진실이 완전히 붕괴한다고 보지 않고, 오히려 스타일이 수렴하는 보다 균질한 웹을 묘사한다.[8] 매일 읽는 사람들에게는 미묘하지만 실제적인 영향이 있는데, 시간이 지나면 모든 콘텐츠가 마치 동일한 목소리로 쓰인 것처럼 느껴진다는 점이다.

‘검색 붕괴(Retrieval Collapse)’ 연구는 두 단계 위험을 설명한다: 우선 검색 결과가 AI 생성 콘텐츠로 포화되고, 그 다음 그 자료가 retrieval 시스템과 RAG 흐름에 들어가 중립적 기반인 양 다시 사용된다.[1][3] 저자들이 보고한 테스트에서는 SEO 풀 내 67% 오염이 노출에서는 80% 이상 오염으로 이어졌다.[1][3] 단순히 말해, 일정 임계치 이상으로 시스템이 스스로 생성한 것을 거의 항상 보게 되는 상황이 된다.

AI를 활용해 더 빠르게 생산하는 출판사와 사이트는 트래픽, 효율성, 마진을 추구하고, 검색 시스템은 범위, 신선도, 적합도를 추구하며, 모델은 경쟁력을 유지하기 위해 대량의 데이터가 필요하다.[5][8][11] 그 결과 모두가 생산을 늘릴 합리적인 이유를 가지고 있지만, 누구도 생산을 늦추고 소스 다양성을 지킬 강력한 인센티브가 없어 전술적 이점이 구조적 취약성으로 변하는 상황이 된다.

AI 콘텐츠의 검색 결과 내 존재를 분석한 몇몇 연구는 더 미묘한 상황을 보여준다. 다양한 맥락에서 검색 결과와 생성 시스템의 인용은 여전히 인간 중심이 많다.[6][11] 구글 또한 웹사이트 소유자 지침에서 독창적이고 교환 불가능한 콘텐츠를 강조하며 Preferred Sources, Highly Cited 배지 등의 도구를 도입해 원본 소스를 부각시키고 있다.[4][7] 이것이 문제를 완전히 해결하지는 못하지만, 경쟁이 인터페이스와 랭킹 우선순위에서도 벌어지고 있음을 보여준다.

오늘날 가장 검증이 어려운 부분은 기계가 체계적으로 자기 자신을 먹이로 삼기 시작하는 임계점이다. 이용 가능한 출처들은 일치된 신호를 보여주지만, 결정적인 붕괴 시점의 측정치는 없다.[1][5][8][11] 그래서 올바른 질문은 단순히 ‘온라인에 AI가 얼마나 있나?’가 아니라 ‘그 AI 중 얼마나 많은 부분이 검색 결과, 요약, 데이터셋, 그리고 이후의 시스템들이 사용할 응답에 들어가느냐?’이다. 바로 그 지점에서 단순한 양적 증가는 질적 손실이 될 수 있다.

문화적 측면도 주목할 필요가 있다. 대중은 종종 이 문제를 좋은 글과 나쁜 글의 대립으로 본다. 사람들이 원본 출처를 덜 클릭하고, 합성 답변에 더 의존하며, ‘충분히 신뢰할 만한’ 콘텐츠를 쉽게 받아들일수록, 시스템은 복제하기 쉬운 것을 보상한다.[4][6][7] 소비자는 기업들이 상상하는 이유로 기술을 잘 수용하지 않으며, 여기서도 빠른 접근성이 복잡한 탐색을 이기는 일이 벌어질 수 있다.

‘데드 인터넷(Dead Internet)’이라는 오래된 개념도 신중히 해석해야 한다. 과거에는 거의 음모론 수준의 공식이었지만, 오늘날 일부 연구는 자동 생성 콘텐츠 증가와 인간-합성 구분이 모호해지는 웹을 묘사하는 유용한 은유로 다룬다.[9][10] 하지만 이 은유는 일정 지점까지 유효하며, 웹은 사라진 게 아니라 풍부한 영역, 잡음이 많은 영역, 그리고 여전히 강한 원본 소스 영역으로 새로운 층위를 형성하고 있다. 이 세 가지를 함께 바라보는 것이 더 정직하고 미래의 일상 디지털을 이해하는 데도 도움이 된다.

참고 소스

본문의 작은 번호 태그는 아래 참고 소스와 연결됩니다.