Industrial Technology Correspondent
En el debate sobre la IA generativa ya no se trata solo de si un sistema ofrece respuestas correctas. La pregunta más dura es si al referirse a textos ajenos cumple la misma función que una cita humana o si solo parece convincente en el lenguaje sin asumir la carga cultural y legal del acto de citar. Es precisamente aquí donde convergen la tecnología, el derecho de autor y las expectativas de los usuarios.
La Oficina de Derechos de Autor de EE. UU. ha llevado el debate a nivel de principios vigentes en varios apartados de su informe sobre inteligencia artificial.[1][7][9] En la segunda parte, señala que las reglas actuales de copyright son lo suficientemente flexibles para abordar la IA generativa, pero a la vez establece que las producciones de IA solo son protegibles si un humano determina suficientemente los elementos expres[7][9] Esto es relevante para la cuestión de la cita porque la entidad traza una línea clara: no toda proximidad textual generada automáticamente es ya una obra creativa independiente.
El conflicto entre The New York Times y OpenAI marca aún más esa línea.[2][5][8][10] Según las acusaciones conocidas, no solo se cuestiona el entrenamiento con textos periodísticos, sino también la afirmación de que salidas del sistema replican casi literalmente fragmentos de artículos, llegando a convertirse en sustitutos del original.[2][5][8][10] OpenAI responde apelando al Fair Use y aclara que los modelos no están pensados como sustitutos directos del contenido periodístico.[2][5][8] Jurídicamente queda abierta una cuestión clave: ¿es un modelo que en algunas partes se acerca mucho al original todavía un sistema de búsqueda y generación, o ya un canal de distribución de contenidos ajenos?
Para clasificar técnicamente, el RAG (Generación Incrementada por Recuperación) es un contramodelo útil.[3][11][12] Este método combina un modelo lingüístico con una búsqueda externa y pretende ofrecer respuestas basadas en fuentes verificables.[3][11][12] En las descripciones de estos sistemas se subraya exactamente este punto: pueden proporcionar fuentes que los usuarios pueden verificar y así generar confianza.[11][12] Sin embargo, esto aún no es una cita en sentido humano. Un sistema RAG puede mostrar evidencias sin "entender" por qué una cita se marca, delimita y contextualiza en la práctica científica o periodística.
Por eso la confusión entre referencia y cita es tan persistente. Las personas citan para mostrar origen, autoridad y delimitación; esa práctica implica responsabilidad. En cambio, un modelo combina patrones de entrenamiento, recuperación y generación.[1][11][12] Puede emitir señales de procedencia sin tener intención de citar.[1][11][12] La diferencia suena semántica, pero es industrialmente relevante: los equipos de producto están desarrollando interfaces para generar confianza y corren el riesgo de que se espere que una lista de fuentes reemplace ya el cuidado editorial.
Por otro lado, están autores y editoriales que consideran peligrosa esta suposición.[4][6] En las declaraciones presentadas se argumenta que el uso no licenciado de obras creativas para el entrenamiento presiona el sustento de los creadores y no puede ser solo un procesamiento técnico intermedio.[4][6] Aquí radica el núcleo económico del debate: quien entrena un modelo con textos ajenos no solo produce parámetros matemáticos, sino que además desplaza el poder de negociación en licencias, remuneración y visibilidad. Para contenidos noticiosos y especializados esto es especialmente sensible porque su base económica depende de una asignación limpia.
Sin embargo, sigue abierto dónde está el límite exacto entre reconstrucción permitida y apropiación indebida. Las fuentes actuales muestran sobre todo dos cosas: primero, que tribunales y autoridades no quieren tratar la IA generativa como un caso excepcional; segundo, que la cuestión probatoria es técnicamente compleja.[1][7][9][10] Un solo caso con un extracto casi literal dice poco sobre el sistema completo.[2][10] Para juzgar con mayor fundamento harían falta datos más precisos sobre la frecuencia de tales salidas, bajo qué condiciones de solicitud ocurren y si pueden reproducirse deliberadamente.
Por eso, la cuestión de “citar” en IA también es una cuestión de arquitectura de producto. Si un sistema solo genera afirmaciones sin separar claramente la procedencia, la referencia a fuentes suele ser más decorativa que probatoria. Si en cambio funciona con búsqueda, muestra evidencias y distingue claramente entre entrenamiento y fuente externa, al menos se acerca a la función que los usuarios esperan de una cita.[3][11][12] El desafío rara vez es solo el modelo. Es la integración de recuperación, visualización, licencias y responsabilidad en un sistema que debe parecer sencillo para los usuarios.
Desde la perspectiva europea, esto es más que un litigio en EE. UU. ligado a la industria. Tan pronto como los sistemas de IA se incorporan en redacciones, bases de conocimiento, aplicaciones legales o cadenas industriales de documentación, la forma de manejar las fuentes decide simultáneamente confianza y riesgo.[3][6][7][9] Una referencia mal puesta no es solo un problema de estilo, sino que puede afectar procesos, cadenas de validación y responsabilidades. Por eso no se debe preguntar por el glamoroso término “cita”, sino por la práctica más confiable: quién provee la fuente, quién la verifica y qué ocurre si el sistema queda demasiado cerca del original.
Referencias
Referencias
Las pequeñas etiquetas numeradas del texto apuntan a las fuentes siguientes.
- [PDF] Copyright and Artificial Intelligence, Part 2 Copyrightability Report
- OpenAI Claps Back at NYT Lawsuit
- Incorporating Legal Structure in Retrieval-Augmented Generation: A Case Study on Copyright Fair Use
- [PDF] Copyright and Artificial Intelligence, Part 3: Generative AI Training ...
- [PDF] The New York Times, OpenAI, and the Copyright Implications of AI ...
- May 3, 2024 Via E-Mail Suzanne Wilson General Counsel ...
- Copyright Office Releases Part 2 of Artificial Intelligence Report
- Stolen Stories or Fair Use? The New York Times v. OpenAI and the Limits of Machine Learning — Columbia Undergraduate Law Review
- Copyright and Artificial Intelligence | U.S. Copyright Office
- Exploring Memorization and Copyright Violation in Frontier LLMs: A Study of the New York Times v. OpenAI 2023 Lawsuit
- What Is Retrieval-Augmented Generation aka RAG - NVIDIA Blog
- Aman's AI Journal • Primers • Retrieval Augmented Generation
ARTÍCULOS DESTACADOS
Artículos destacados
-
IA generativa y modelos fundacionales
Cuando el texto generado por IA se vuelve común, el valor se traslada a la experiencia y la credibilidad
Artículo de contextualización sobre el valor del texto generado por IA a la luz de investigaciones sobre autoría, estudios de credibilidad y debates anteriores sobre reproducibilid
-
IA generativa y modelos fundacionales
¿Por qué las empresas de IA no pueden dejar de competir en benchmarks?
La competencia en desempeño de los modelos de lenguaje a gran escala ha entrado en una etapa en la que un único benchmark no logra capturar plenamente sus capacidades, tal como mue
-
IA generativa y modelos fundacionales
La IA de Código Abierto Tiene un Problema de Definición
Este artículo plantea el debate sobre la IA de código abierto como una cuestión de gobernanza e infraestructura, más que un desacuerdo sobre la marca.