«The New York Times» demanda a OpenAI y Microsoft por copiar artículos periodísticos para entrenar sus modelos de IA

El diario The New York Times ha presentado una demanda contra OpenAI y Microsoft, alegando que la tecnología de inteligencia artificial de estas empresas copió ilegalmente millones de artículos para entrenar a ChatGPT y otros servicios de información que ahora compiten con el contenido original del periódico. La denuncia, presentada el miércoles en el Tribunal […]

Por Nicolás Aravena · Editor La Voz de Maipú 27 de diciembre de 2023 · 6 min de lectura

Sigue a La Voz de Maipú en GoogleAñádenos como fuente preferida y no te pierdas nuestras noticiasAñádenos

El diario The New York Times ha presentado una demanda contra OpenAI y Microsoft, alegando que la tecnología de inteligencia artificial de estas empresas copió ilegalmente millones de artículos para entrenar a ChatGPT y otros servicios de información que ahora compiten con el contenido original del periódico.

La denuncia, presentada el miércoles en el Tribunal Federal de Distrito de Manhattan (Nueva York), es la última de una serie de demandas que buscan limitar el presunto «scraping» (cribado) de amplias franjas de contenido de todo Internet, sin compensación a los autores o las empresas editoras, para entrenar los llamados modelos de inteligencia artificial de gran lenguaje. Actores, escritores, periodistas y otros creadores que publican sus obras en Internet temen que la IA saque partido de sus contenidos originales y ofrezca chatbots competitivos y otras fuentes de información sin la debida compensación a la fuente.

Sin embargo, la demanda del Times es particularmente significativa, ya que es la primera acción legal de un importante medio de comunicación estadounidense contra OpenAI y Microsoft, dos de las marcas de IA más reconocidas. La afirmación de alguna manera refleja los prolongados litigios que los medios de comunicación de todo el mundo han mantenido contra Facebook y Google por reproducir contenido sin compensar a las empresas editoras, lo que llevó a legislación pionera en Australia.

Según la demanda, «el uso ilegal del trabajo de The Times por parte de Microsoft y OpenAI para crear productos de inteligencia artificial que compitan con él amenaza la capacidad del diario para prestar ese servicio». El periódico explica que OpenAI y Microsoft utilizaron otras fuentes en su «copia a gran escala», pero «hicieron especial hincapié en el contenido del Times» buscando «aprovecharse de la enorme inversión del Times en su periodismo, utilizándolo para crear productos sustitutivos sin permiso ni pago».

The New York Times, uno de los principales medios de Estados Unidos, incluida la CNN, añadió código a sus sitios web a principios de este año para bloquear el rastreador web de OpenAI, GPTBot, y evitar que escanee sus plataformas en busca de contenidos.

La compañía descubrió hace meses que su trabajo se había utilizado para entrenar los grandes modelos lingüísticos de las empresas de IA. En abril, comenzó a negociar con OpenAI y Microsoft una compensación justa y los términos de un acuerdo. Sin embargo, incapaz de llegar a un entendimiento con las dos empresas tecnológicas, optó por la vía judicial. Microsoft y OpenAI argumentan que divulgar contenido del Times se encuentra dentro de los límites de un «uso justo o legítimo», ya que, independientemente de que se trate de material protegido por derechos de autor, buscan un «fin transformador».

Pero, como se explica en el texto de la demanda, «no hay nada transformador en utilizar el contenido de The Times sin pagar para crear productos que sustituyan a The Times y le roben audiencia», una suerte de sucedáneo informativo gratuito. «Dado que los resultados de los modelos GenAI de los demandados compiten con el contenido utilizado para entrenarlos y lo imitan estrechamente, copiar obras del Times con ese fin no es un uso justo».

La demanda sostiene que las herramientas de IA pueden «generar resultados que recitan el contenido del Times textualmente, lo resumen fielmente e imitan su estilo expresivo, como demuestran decenas de ejemplos. Estas herramientas también atribuyen erróneamente información falsa al Times», afirma la denuncia. Es decir, el pirateo por herramientas de IA no solo priva al diario de ingresos por suscripciones, licencias, publicidad y afiliados, subraya la demanda, sino que también incurre en el preocupante pantano de la desinformación. A menudo, el motor de búsqueda Bing de Microsoft, que se actualizó a principios de este año con la tecnología de OpenAI, «copia y categoriza» el contenido del diario para producir respuestas más largas y detalladas que los motores de búsqueda tradicionales, recuerda la demanda.

La vicepresidenta ejecutiva y consejera general de The New York Times, Diane Brayton, comunicó esta mañana a los empleados la acción judicial, asegurando que la empresa «reconoce el potencial de [la IA generativa] para el público y para el periodismo». «Pero, al mismo tiempo, creemos que el éxito de GenAI y de las empresas que la desarrollan no tiene por qué producirse a expensas de las instituciones periodísticas», según el mensaje de Brayton a la plantilla, al que tuvo acceso la CNN. «El uso de nuestro trabajo para crear herramientas GenAI debe venir con permiso y un acuerdo que refleje el valor justo de ese trabajo, como establece la ley».

Microsoft y OpenAI aún no han comentado la demanda.

Apple sigue un camino diferente

Hace años que se especula que la empresa tecnológica más grande de la Industria: Apple, está preparando su propia inteligencia artificial. Los de Cupertino saben que, como dice una popular canción «no hay que llegar primero, pero hay que saber llegar».

Quizás por ello, y conscientes que la mejor manera de entregarle contexto a los lenguajes de IA es entrenándolos con las hemerotecas de medios de comunicación, es que la empresa con sede en California ha decidido establecer colaboraciones con los medios de comunicación. Actualmente, la empresa está en negociaciones con distintos medios para utilizar sus archivos de noticias en el entrenamiento de su modelo de lenguaje.

La gigante tecnológica está dando pasos firmes hacia una revolución en inteligencia artificial, anticipándose a su posible lanzamiento en iOS 18, donde se espera que debute su propio modelo de lenguaje al estilo de ChatGPT, basándose en los conocimientos adquiridos con Siri. Sin embargo, la compañía reconoce que necesita más datos y, por ello, está en conversaciones con importantes medios de comunicación para enriquecer su modelo. Según informa The New York Times, Apple busca establecer acuerdos anuales con destacados editores para acceder a sus extensas colecciones de noticias. Se rumorea que la oferta de la empresa no será económica, dejando entrever una cifra sustancial.

El proyecto, conocido internamente como Ajax Project, abarca el desarrollo general, mientras que el modelo de lenguaje se denomina AppleGPT. Más allá de los nombres, lo crucial es lo que el usuario experimentará. Las expectativas en torno a la IA de Apple son elevadas, recordando su papel pionero con Siri, a pesar de haber estado estancada durante años antes de la popularización de modelos como ChatGPT.

Una de las consideraciones clave en Cupertino es la posibilidad de alimentar la IA con datos sobre la historia reciente. La fuente ideal para recopilar eventos diversos es el archivo de los medios de comunicación. Según The New York Times, la compañía busca acuerdos lucrativos, ofreciendo hasta 50 millones de dólares anuales a grandes editores para acceder a sus historiales de noticias.

Se menciona que Apple ha presentado una primera oferta a Condé Nast, una editorial con reconocidas publicaciones como Wired, Vogue, Vanity Fair, Glamour, GQ y The New Yorker. También se han mencionado acercamientos a NBC News y a IAC, todos ellos importantes medios estadounidenses, sugiriendo una posible concentración inicial en este territorio para la expansión de su IA.

Aunque no se tienen noticias de movimientos similares en otros países, no se descartan. Sin embargo, aún no se ha alcanzado un acuerdo con ninguna compañía, y la oferta de Apple ha dejado perplejos a los medios, que desconocen la opinión sobre la suma ofrecida y las intenciones exactas de la empresa, ya que no han revelado muchos detalles al respecto. A pesar de ello, se destaca el optimismo de algunos editores, especialmente en relación con la intención de entrenar la IA con permisos, a diferencia de lo hecho por otras empresas. Hasta el momento, no se ha cerrado un acuerdo concreto con ninguna compañía.

Únete al grupo de WhatsApp de MaipúRecibe las noticias del barrio al instante.Unirme