¿Se ha utilizado su artículo para entrenar un modelo de inteligencia artificial?
Casi seguro
Los desarrolladores de inteligencia artificial están comprando acceso a valiosos conjuntos de datos que contienen artículos de investigación, lo que plantea preguntas incómodas sobre los derechos de autor.
Por Elizabeth Gibney
Las editoriales académicas están vendiendo a las empresas tecnológicas el acceso a artículos de investigación para entrenar modelos de inteligencia artificial (IA). Algunos investigadores han reaccionado con consternación ante este tipo de acuerdos que se producen sin consultar a los autores. Esta tendencia está suscitando dudas sobre el uso de trabajos publicados, y a veces protegidos por derechos de autor, para entrenar el creciente número de robots de inteligencia artificial que se están desarrollando.
Los expertos dicen que, si un trabajo de investigación aún no se ha utilizado para entrenar un gran modelo lingüístico (LLM), probablemente lo hará pronto. Los investigadores están estudiando métodos técnicos para que los autores puedan detectar si se está utilizando su contenido.
El mes pasado, se supo que la editorial académica británica Taylor & Francis había firmado un acuerdo con Microsoft por valor de 10 millones de dólares que permitía a la empresa tecnológica estadounidense acceder a los datos de la editorial para mejorar sus sistemas de inteligencia artificial. Y en junio, un informe de los inversores mostró que la editorial estadounidense Wiley había ganado 23 millones de dólares por permitir a una empresa anónima entrenar modelos de IA generativa en sus contenidos.
Según Lucy Lu Wang, investigadora en Inteligencia Artificial de la Universidad de Washington en Seattle, es «muy probable» que cualquier cosa que pueda leerse en línea, esté o no en un repositorio de acceso abierto, ya haya sido introducida en un LLM. «Y si un artículo ya ha sido utilizado como dato de entrenamiento en un modelo, no hay forma de eliminar ese artículo una vez que el modelo ha sido entrenado», añade.
Conjuntos de datos masivos
Los LLM se entrenan con enormes volúmenes de datos, a menudo extraídos de Internet. Obtienen patrones entre los miles de millones de fragmentos lingüísticos de los datos de entrenamiento, conocidos como tokens, que les permiten generar textos con una fluidez asombrosa.
Los modelos de IA generativa se basan en la absorción de patrones de estas masas de datos para generar textos, imágenes o códigos informáticos. Los artículos académicos son valiosos para los creadores de LLM por su extensión y su «alta densidad de información», dice Stefan Baack, que analiza conjuntos de datos de entrenamiento de IA en la Fundación Mozilla, una organización mundial sin ánimo de lucro de San Francisco (California) cuyo objetivo es mantener Internet abierto al acceso de todos.
Entrenar los modelos con un gran volumen de información científica también les proporciona una capacidad mucho mayor para razonar sobre temas científicos, afirma Wang, cocreador de S2ORC, un conjunto de datos basado en 81,1 millones de artículos académicos. El conjunto de datos se desarrolló originalmente para la minería de textos -aplicar técnicas analíticas para encontrar patrones en los datos-, pero desde entonces se ha utilizado para entrenar LLM.
La tendencia a comprar conjuntos de datos de alta calidad va en aumento. Este año, el Financial Times ha ofrecido sus contenidos al desarrollador de ChatGPT OpenAI en un lucrativo acuerdo, al igual que el foro en línea Reddit, a Google. Y dado que los editores científicos probablemente vean la alternativa de que su trabajo sea desechado sin un acuerdo, «creo que habrá más acuerdos de este tipo en el futuro», afirma Wang.
Secretos de información
Algunos desarrolladores de IA, como la Red de Inteligencia Artificial a Gran Escala, mantienen intencionadamente abiertos sus conjuntos de datos, pero muchas empresas que desarrollan modelos de IA generativa han mantenido en secreto gran parte de sus datos de entrenamiento, dice Baack. «No tenemos ni idea de lo que hay ahí», afirma. Los repositorios de código abierto como arXiv y la base de datos académica PubMed de resúmenes son fuentes «muy populares», afirma, aunque es probable que las grandes empresas tecnológicas extraigan los resúmenes de los artículos de pago de las revistas. «Siempre están a la caza de ese tipo de material», añade.
Según Yves-Alexandre de Montjoye, informático del Imperial College de Londres, es difícil demostrar que un LLM ha utilizado un documento concreto. Una forma consiste en pedir al modelo una frase inusual de un texto y ver si el resultado coincide con las siguientes palabras del original. Si es así, es una buena prueba de que el documento está en el conjunto de entrenamiento. Pero si no es así, eso no significa que no se haya utilizado el artículo, entre otras cosas porque los desarrolladores pueden programar el LLM para que filtre las respuestas y se asegure de que no coinciden demasiado con los datos de entrenamiento. «Hace falta mucho para que esto funcione», afirma.
Otro método para comprobar si los datos están en un conjunto de entrenamiento se conoce como ataque de inferencia de pertenencia. Se basa en la idea de que un modelo tendrá más confianza en sus resultados cuando vea algo que ya ha visto antes. El equipo de De Montjoye ha desarrollado una versión de esto, llamada trampa de derechos de autor, para los LLM.
Para tender la trampa, el equipo genera frases que parecen verosímiles pero que no tienen sentido, y las oculta en una obra, por ejemplo como texto blanco sobre fondo blanco o en un campo que se muestra con ancho cero en una página web. Si un LLM se muestra más «sorprendido» -una medida conocida como su perplejidad- por una frase de control no utilizada que por la oculta en el texto, «eso es una prueba estadística de que las trampas se vieron antes», afirma.
Cuestiones de derechos de autor
Aunque fuera posible demostrar que un LLM ha sido entrenado con un texto determinado, no está claro qué ocurre después. Los editores sostienen que, si los desarrolladores utilizan textos protegidos por derechos de autor en la formación y no han solicitado una licencia, eso se considera una infracción. Pero un argumento jurídico contrario afirma que los LLM no copian nada: recogen el contenido informativo de los datos de entrenamiento, que se fragmentan, y utilizan su aprendizaje para generar un nuevo texto.
Los litigios podrían ayudar a resolver esta cuestión. En un caso de derechos de autor en curso en Estados Unidos que podría sentar precedente, The New York Times ha demandado a Microsoft y a OpenAI, desarrollador de ChatGPT, en San Francisco (California). El periódico acusa a las empresas de utilizar sus contenidos periodísticos para entrenar sus modelos sin permiso.
Muchos académicos están encantados de que su trabajo se incluya en los datos de entrenamiento de LLM, sobre todo si los modelos los hacen más precisos. «A mí personalmente no me importa tener un chatbot que escriba como yo», dice Baack. Pero reconoce que su trabajo no se ve amenazado por los resultados de los LLM del mismo modo que los de otras profesiones, como artistas y escritores.
En la actualidad, los autores científicos individuales tienen poco poder si el editor de su artículo decide vender el acceso a sus obras protegidas por derechos de autor. En el caso de los artículos a disposición del público, no existe ningún medio establecido para atribuir los créditos o saber si se ha utilizado un texto.
Algunos investigadores, como de Montjoye, se sienten frustrados. «Queremos LLM, pero queremos algo que sea justo, y creo que aún no hemos inventado qué aspecto tiene esto», afirma.
*********************************
Has your paper been used to train an AI model? Almost certainly
Artificial-intelligence developers are buying access to valuable data sets that contain research papers — raising uncomfortable questions about copyright.
Academic publishers are selling access to research papers to technology firms to train artificial-intelligence (AI) models. Some researchers have reacted with dismay at such deals happening without the consultation of authors. The trend is raising questions about the use of published and sometimes copyrighted work to train the exploding number of AI chatbots in development.
Experts say that, if a research paper hasn’t yet been used to train a large language model (LLM), it probably will be soon. Researchers are exploring technical ways for authors to spot if their content being used.
Last month, it emerged that the UK academic publisher Taylor & Francis, had signed a US$10-million deal with Microsoft, allowing the US technology company to access the publisher’s data to improve its AI systems. And in June, an investor update showed that US publisher Wiley had earned $23 million from allowing an unnamed company to train generative-AI models on its content.
Anything that is available to read online — whether in an open-access repository or not — is “pretty likely” to have been fed into an LLM already, says Lucy Lu Wang, an AI researcher at the University of Washington in Seattle. “And if a paper has already been used as training data in a model, there’s no way to remove that paper after the model has been trained,” she adds.
Massive data sets
LLMs train on huge volumes of data, frequently scraped from the Internet. They derive patterns between the often billions of snippets of language in the training data, known as tokens, that allow them to generate text with uncanny fluency.
Generative-AI models rely on absorbing patterns from these swathes of data to output text, images or computer code. Academic papers are valuable for LLM builders owing to their length and “high information density”, says Stefan Baack, who analyses AI training data sets at the Mozilla Foundation, a global non-profit organization in San Francisco, California that aims to keep the Internet open for all to access.
Training models on a large body of scientific information also give them a much better ability to reason about scientific topics, says Wang, who co-created S2ORC, a data set based on 81.1 million academic papers. The data set was originally developed for text mining — applying analytical techniques to find patterns in data — but has since been used to train LLMs.
The trend of buying high-quality data sets is growing. This year, the Financial Times has offered its content to ChatGPT developer OpenAI in a lucrative deal, as has the online forum Reddit, to Google. And given that scientific publishers probably view the alternative as their work being scraped without an agreement, “I think there will be more of these deals to come,” says Wang.
Information secrets
Some AI developers, such as the Large-scale Artificial Intelligence Network, intentionally keep their data sets open, but many firms developing generative-AI models have kept much of their training data secret, says Baack. “We have no idea what is in there,” he says. Open-source repositories such as arXiv and the scholarly database PubMed of abstracts are thought to be “very popular” sources, he says, although paywalled journal articles probably have their free-to-read abstracts scraped by big technology firms. “They are always on the hunt for that kind of stuff,” he adds.
Proving that an LLM has used any individual paper is difficult, says Yves-Alexandre de Montjoye, a computer scientist at Imperial College London. One way is to prompt the model with an unusual sentence from a text and see whether the output matches the next words in the original. If it does, that is good evidence that the paper is in the training set. But if it doesn’t, that doesn’t mean that the paper wasn’t used — not least because developers can code the LLM to filter responses to ensure they don’t match training data too closely. “It takes a lot for this to work,” he says.
Another method to check whether data are in a training set is known as membership inference attack. This relies on the idea that a model will be more confident about its output when it is seeing something that it has seen before. De Montjoye’s team has developed a version of this, called a copyright trap, for LLMs.
To set the trap, the team generates sentences that look plausible but are nonsense, and hides them in a body of work, for example as white text on a white background or in a field that’s displayed as zero width on a webpage. If an LLM is more ‘surprised’ — a measure known as its perplexity — by an unused control sentence than it is by the one hidden in the text, “that is statistical evidence that the traps were seen before”, he says.
Copyright questions
Even if it were possible to prove that an LLM has been trained on a certain text, it is not clear what happens next. Publishers maintain that, if developers use copyrighted text in training and have not sought a licence, that counts as infringement. But a counter legal argument says that LLMs do not copy anything — they harvest information content from training data, which gets broken up, and use their learning to generate new text.
Litigation might help to resolve this. In an ongoing US copyright case that could be precedent-setting, The New York Times is suing Microsoft and ChatGPT’s developer OpenAI in San Francisco, California. The newspaper accuses the firms of using its journalistic content to train their models without permission.
Many academics are happy to have their work included in LLM training data — especially if the models make them more accurate. “I personally don’t mind if I have a chatbot who writes in the style of me,” says Baack. But he acknowledges that his job is not threatened by LLM outputs in the way that those of other professions, such as artists and writers, are.
Individual scientific authors currently have little power if the publisher of their paper decides to sell access to their copyrighted works. For publicly available articles, there is no established means to apportion credit or know whether a text has been used.
Some researchers, including de Montjoye, are frustrated. “We want LLMs, but we still want something that is fair, and I think we’ve not invented what this looks like yet,” he says.
doi: https://doi.org/10.1038/d41586-024-02599-9
******************************