Publicado en Xataka
https://www.xataka.com/robotica-e-ia/openai-ha-usado-millones-textos-para-entrenar-a-chatgpt-problema-que-muchos-ellos-tienen-copyright
JAVIER PASTOR
@javipas
ChatGPT fue entrenado con una enorme cantidad de datos obtenidos de internet. No solo sitios web, sino artículos, libros, publicaciones en redes sociales o estudios académicos. El modelo de IA conversacional creado por OpenIA no tenía en cuenta la procedencia de los datos: solo veía el texto y aprendía patrones y relaciones entre palabras, frases o párrafos. ¿El problema? Que la inmensa mayoría de esos textos probablemente está protegidos por copyright. ¿Violan OpenAI y ChatGPT los derechos de autor?
¿Hubo copia de contenidos durante el entrenamiento? No hay información sobre si durante el proceso de entrenamiento, los textos usados por ChatGPT se copiaron o solo se referenciaron. Al preguntar a ChatGPT la respuesta es singular:
Durante el proceso de entrenamiento, se utiliza texto de diversas fuentes para entrenar el modelo ChatGPT. Es probable que el texto se copiara en una base de datos interna de OpenAI con el fin de entrenar el modelo. Sin embargo, el texto de entrenamiento se suele preprocesar para eliminar cualquier información sensible, como identificadores personales, texto protegido por derechos de autor, etc. Además, el texto también se utiliza para entrenar el modelo y no se almacena en una base de datos. El modelo utiliza el texto para aprender patrones y la estructura del lenguaje y, una vez terminado el entrenamiento, ya no necesita el texto.
A pesar de lo que indica ChatGPT, no es probable que se eliminara texto protegido por derechos de autor, ya que la mayor parte de su conjunto de entrenamiento es este tipo de contenido, como se puede comprobar al tratar de que ChatGPT imite cierto estilo o
¿Es la salida de ChatGPT una obra derivada? Según la Ley de Propiedad Intelectual, la obra derivada puede ser una modificación, adaptación o transformación de una obra existente, donde se garantizan los derechos de autor de la obra originaria. Los expertos indican que todo el texto generado por ChatGPT podría considerarse como una obra derivada.
Uso justo. Otro de los conceptos que se manejan en este ámbito es si OpenAI hace un uso justo o legítimo (fair use). Aun suponiendo que durante el proceso de entrenamiento de ChatGPT se copió texto y que lo generado es una obra derivada de ese texto protegido por el copyright, ¿se podría considerar que ChatGPT hace un uso legítimo de esos contenidos? Teniendo en cuenta que este modelo mezcla contenidos de todo tipo de obras, parece que no hay aquí un uso injustificado. Podría haber, eso sí, escenarios en los que se pueden infringir los derechos de autor si por ejemplo le pidiéramos a un motor basado en ChatGPT que nos escribiese la próxima novela de Harry Potter como si fuera J. K. Rowling. En ese caso, si además el fin es comercial, podría haber violación de esos términos legales.
Ya ha habido demandas. La amenaza de demandas legales es evidente para OpenAIdesde que lanzaron este tipo de productos. De hecho la empresa ha sido demandada junto a Microsoft y GitHub por violar la ley del copyright en GitHub Copilot, y también lo fueron posteriormente Stable Diffusion y Midjourney. Tanto Copilot como esas plataformas fueron entrenadas con copias no autorizadas de código o imágenes.
Ni siquiera atribuyen. Según OpenAI, el sistema en el que se basa GitHub Copilot es Codex, que "fue entrenado con decenas de millones de repositorios públicos", incluyendo código del propio GitHub. El problema, como indican en OnMSFT, es que los repos que se utilizaron suelen usar una licencia que requiere atribución cuando se usa el código de esos repositorios. Según Microsoft este es un uso justo del código, pero para programadores como Matthew Butterick está "borrando tu comunidad Open-Source".
Y mucho menos pagar. Hay otro problema aquí, y es que por ejemplo algunos medios de comunicación como The Wall Street Journal o la CNN han exigido que ya que ChatGPT hace uso de sus contenidos como parte de su entrenamiento, OpenAI debe licenciar los derechos para hacerlo adecuadamente. O lo que es lo msmo, pagar.
Bing con ChatGPT al menos da referencias. El problema de Copilot afecta desde luego a Stable Diffusion, Midjourney o DALL-E 2 en el ámbito de las imágenes, y por eso se han impulsado también demandas como lade Getty. Entre las soluciones está la atribución, y aquí tenemos un buen ejemplo en Bing con ChatGPT, que cuando contesta a nuestras preguntas a menudo ofrece referencias de las fuentes en las que se basa, algo que ChatGPT no hace.
Antes fue el copyright, ahora la privacidad. A ChatGPT le están creciendo los enanos, sobre todo porque además de los potenciales problemas por esa forma indiscriminada de entrenar sus modelos, ahora se enfrenta a problemas por sus políticas de privacidad. En concreto, por la forma en la que recolecta datos de los usuarios y si eso puede estar violando el RGPD. Italia ya ha prohibido el uso de ChatGPT por esa razón —aunque ya ha explicado cómo puede levantar la prohibición—, y España y Europa están investigando precisamente si seguir ese ejemplo.
No hay comentarios:
Publicar un comentario