jueves, 22 de agosto de 2024

"Basarse en los factores de impacto para evaluar a los investigadores es sencillamente acientífico"

Publicado en Ku Leuven
https://www.kuleuven.be/open-science/news/interview-toma-susi

Toma Susi, profesor de la Universidad de Viena: "Basarse en los factores de impacto para evaluar a los investigadores es sencillamente acientífico"

El Dr. Toma Susi, profesor asociado de la Universidad de Viena (Austria), calcula que el 95% de la investigación que ha llevado a cabo desde que obtuvo su doctorado en 2011 se ha publicado en Acceso Abierto.

También ha adoptado métodos de Ciencia Abierta siempre que ha podido: cuando Susi y su grupo de investigación han sido plenamente responsables de un artículo académico, normalmente han proporcionado los conjuntos de datos utilizados en un repositorio al que se puede acceder libremente y citar por separado. También suelen facilitar el código de análisis para que cualquiera pueda realizar los análisis de los datos por sí mismo.

"Estamos profundamente convencidos de la filosofía que subyace a la Ciencia Abierta: que todo en la investigación y los hallazgos científicos debe ser transparente y posible de verificar por otros", explica Susi.

La investigación de Susi se centra en el estudio y la manipulación de la estructura atómica de los materiales con ayuda de la microscopía electrónica.

"A veces queremos entender cómo una determinada modificación podría cambiar las propiedades de los materiales; otras veces intentamos comprender la interacción fundamental entre los electrones que utilizamos para obtener imágenes y los propios materiales. Es ciencia de materiales a nivel atómico".

Es imposible calibrar el impacto que la Ciencia Abierta ha tenido en la visibilidad de la investigación de Susi sobre las propiedades a escala atómica y su manipulación. "No hay ninguna prueba A/B que se pueda hacer de forma realista para averiguarlo", dice, "pero en realidad no lo hacemos por eso".

El acceso abierto, por el contrario, "probablemente nos ha dado más lectores y, a través de ello, más citas, y es muy probable que eso haya tenido un efecto positivo en mi carrera".

Para Susi, hay un argumento moral a favor de la publicación en acceso abierto. «No ha habido un solo día en mi carrera profesional en el que mi sueldo no haya sido pagado directa o indirectamente con fondos públicos», afirma. «Todo ese dinero es de los contribuyentes, por lo que hay un argumento muy claro para que el público que paga por el trabajo también pueda acceder a él. Si un artículo no es de acceso abierto, los lectores se enfrentan a enormes barreras para acceder a esa investigación».

En opinión de Susi, las desigualdades globales en los recursos bibliotecarios de las universidades hacen más urgente este argumento. «Trabajando en instituciones bien financiadas, simplemente visitamos una página web, hacemos clic y obtenemos acceso a los artículos. Pero, por supuesto, ese no es el caso de la mayor parte del mundo», afirma. «E incluso en las instituciones ricas de los países occidentales, los presupuestos de las bibliotecas se han reducido tanto que eso tampoco está ya garantizado».

Además, señala, el intercambio de ideas está en el centro mismo del descubrimiento científico. «¿Qué sentido tiene publicar?» pregunta Susi. «Para que otros científicos conozcan tu trabajo y puedan basarse en él. Es obvio que si ese trabajo está disponible abiertamente, todo este proceso es más fácil.»

Aguas turbias

En opinión de Susi, este debate ya se ha zanjado en gran medida, y la comunidad académica en general está convencida de que la publicación en acceso abierto de los resultados de la investigación académica es lo correcto.

Sus llamamientos a la comunidad académica -sobre todo en una influyente presentación en la Conferencia Europea de Ciencia Abierta de 2022 en París- para enterrar el llamado factor de impacto se han topado, sin embargo, con resistencia. «Todavía hay resistencia», dice Susi, miembro de la junta directiva de la Coalición para el Avance de la Evaluación de la Investigación, o CoARA, desde 2022. «Hay mucha gente que ha tenido mucho éxito en el sistema actual. Y cuando has crecido en algo, es como el agua en la que nadas: no ves realmente los problemas.»

Eso no significa sin embargo, por seguir con la analogía, que el agua no esté turbia. «Varios estudios han demostrado que hay poca correlación entre el factor de impacto de una revista y la calidad de un artículo individual publicado en esa revista», afirma Susi. «Incluso si los factores de impacto fueran objetivos y se calcularan de forma justa -que no lo son-, las distribuciones de citas están increíblemente sesgadas. Puede haber unos pocos artículos que se citen miles de veces, pero la mayoría de los artículos apenas reciben citas.»

Entonces, ¿por qué los investigadores y las universidades siguen confiando en esta métrica defectuosa? En una palabra, la premura de tiempo. Un comité de selección que ha recibido más de cien solicitudes para un puesto y necesita decidir a quién invita a entrevistas en persona utilizará los factores de impacto como «atajo heurístico», explica Susi. «Hemos empezado a confiar en estos simples números y no leemos el trabajo real. Pero esa siempre ha sido una forma muy poco científica de hacer las cosas».

Por muy poco científico que sea, el factor de impacto sigue impulsando la carrera de los investigadores, afirma Susi. «La mayoría de los científicos son muy inteligentes: harán lo que beneficie a sus propias carreras. El problema es que todo el sistema no está sirviendo muy bien a la ciencia en sí».

Aunque Susi ocupa un puesto de titular desde 2021 y ya no tiene que jugar al «juego de las publicaciones», como él dice, supervisa a estudiantes de doctorado e investigadores posdoctorales de la Universidad de Viena que sí lo hacen. «Es una cuestión sistémica. Mientras el sistema funcione, nunca podrás escapar de él del todo».

Pero es posible que los investigadores noveles combinen los métodos de la Open Science y, al mismo tiempo, sigan las reglas del sistema de evaluación tradicional, afirma Susi. «Sigue publicando en esas prestigiosas revistas de alto impacto, pero sé tan abierto como puedas», aconseja. «Publica los datos, publica el código; y asegúrate de que sea de Acceso Abierto, ya sea a través de un preprint o de un Article Processing Charge si tienes financiación disponible para pagarlo».

Y continúa: «Es un momento muy bueno para que los jóvenes empiecen a preguntarse: 'Vale, ¿cómo estoy contribuyendo a la ciencia abierta? ¿Cómo se verá esto en mi CV cuando me evalúen dentro de unos años?». Porque vamos hacia un mundo en el que la Ciencia Abierta será cada vez más importante».

«Esto no tiene sentido»

Si su consejo a los investigadores noveles hace hincapié en el pragmatismo, su consejo para los investigadores senior que forman parte de los comités de contratación y los comités de evaluación es no andarse con rodeos cuando se menciona el factor de impacto de un candidato. «Basta con levantar la mano y señalar que eso no tiene sentido. Insista en que tenemos que evaluar las contribuciones de los candidatos por sus propios méritos».

«Si eres la única persona progresista en ese panel de contratación, quizá no marque la diferencia. Pero concientizar sobre esto una y otra vez forma parte de un largo proceso de cambio cultural que llevará tiempo. Depende de todos los que somos conscientes de estas cuestiones llevar esta conciencia a todos los contextos en los que estamos presentes».

Entonces, ¿cómo se recompensan las buenas prácticas de investigación; cómo se selecciona al mejor candidato si el factor de impacto no es el adecuado? Por desgracia, no hay una respuesta directa que funcione para todas las disciplinas y en todas las circunstancias, explica Susi.

«La ciencia y la academia es un ámbito muy, muy amplio de la empresa humana, y hay que ver qué se está tratando de evaluar. Por ejemplo, ¿se trata de decidir a quién contratar o qué proyecto financiar?

Una institución que quiera contratar al mejor candidato posible para una cátedra podría, por ejemplo, dar mucha importancia a la investigación previa de los solicitantes. «¿Cuáles son las aportaciones de esta persona a este campo concreto? Tal vez haya publicado algunos artículos interesantes, tal vez haya creado un código de investigación de libre acceso, tal vez haya proporcionado un conjunto de datos de referencia que utilizan miles de personas en este campo...». Estas dos últimas no se reflejarían en las métricas de publicación tradicionales, pero son contribuciones vitales para el avance de ese campo. Así que tenemos que empezar a considerar de forma más holística cómo ha contribuido esta persona a la investigación en su campo. ¿Cuál ha sido su contribución individual y única? De este modo, se puede encontrar a las personas que mejor se ajustan al perfil buscado».

En última instancia, dar más importancia a la ciencia abierta en la evaluación consiste en garantizar que los incentivos profesionales individuales de los investigadores estén en consonancia con lo que hace avanzar la ciencia, observa Susi. «Si lo que te hace avanzar en el sistema actual es publicar el mayor número de artículos lo más rápido posible, en lugar de publicar lenta y cuidadosamente tus métodos y datos, eso no es bueno para la ciencia».

«Tenemos que asegurarnos de que el trabajo que se recompensa es el que establece una base científica sólida en la que otros puedan apoyarse. Cuando unimos ambas cosas, el cambio sistémico se hace posible. Porque todos los agentes individuales estarán motivados por su propio interés para hacer cosas que beneficien a la ciencia y la investigación». No es fácil llegar hasta ahí. Pero es un futuro por el que merece la pena trabajar».

*********************************************

University of Vienna professor Toma Susi: “Relying on impact factors to assess researchers is simply non-scientific”

Dr. Toma Susi, an associate professor at the University of Vienna in Austria, estimates that 95% of the research he has conducted since obtaining his PhD in 2011 has been published Open Access.

He has also embraced Open Science methods whenever he could: when Susi and his research group have been fully responsible for a scholarly article, they have typically provided the used datasets in a repository that can be freely accessed and separately cited. They also usually make the analysis code available so that anyone can run the analyses on the data themselves.

“We're deeply convinced of the philosophy behind Open Science – that everything in scientific research and findings should be transparent and possible to verify by others,” Susi explains.

Susi’s research focuses on the study and manipulation of the atomic structure of materials with the aid of electron microscopy. “Sometimes we want to understand how a certain modification might change the materials’ properties; sometimes we try to understand the fundamental interaction between the electrons that we use for imaging and the materials themselves. It's atomic-level material science.”

It is impossible to gauge the impact Open Science has had on the visibility of Susi’s research into atomic-scale properties and their manipulation. “There is no A/B testing one can realistically do to find that out,” he says, “but that’s not really why we do it.”

Embracing Open Access, conversely, “has probably given us more readers and, through that, more citations, and that has very likely had a positive effect on my career”.

For Susi, there is a moral case in favour of Open Access publishing. “There's not a day in my professional career where my salary hasn't been directly or indirectly paid by public funds,” he says. “All that money is taxpayer money, and so there’s a very clear argument for the public that pays for the work to also be able to access the work. If an article is not Open Access, readers face huge barriers in accessing that research.”

Global inequities in universities’ library resources lend extra urgency to this argument in Susi’s view. “Working at well-funded institutions, we simply visit a web page, click through and obtain access to the papers. But of course, that's not the case for most of the world,” he says. “And even at wealthy institutions in Western countries, library budgets have become so squeezed that that’s no longer guaranteed either.”

In addition, he notes, exchange of ideas lies at the very heart of scientific discovery. “What is the point of publishing?” Susi asks. “It's to let other scientists know about your work so they can build upon it. It makes obvious sense that if that work is openly available, this whole process is easier.”

Muddy waters

In Susi’s view, this debate has now largely been settled, with the academic community at large convinced that open-access publication of academic research findings is the right thing to do.

His calls on the academic community – notably in an influential presentation at the 2022 Open Science European Conference in Paris – to bury the so-called impact factor have been met with resistance however. “There is still pushback,” says Susi, a member of the steering board of the Coalition for Advancing Research Assessment, or CoARA, since 2022. “There are many people who have been very successful in the current system. And when you've grown up in something, it's like the water you're swimming in – you don't really see the problems.”

That does not mean however, to continue the analogy, that the water is not murky. “Several studies have demonstrated that there is little correlation between the impact factor of a journal and the quality of one individual article published in that journal,” Susi says. “Even if impact factors were objective and fairly calculated – which they're not – citation distributions are incredibly skewed. You can have a few articles that are cited thousands of times, but most articles hardly receive any citations.”

So, why do researchers and universities continue to rely on this flawed metric? In a word, time pressures. A selection committee that has received more than a hundred applications for a position and needs to decide whom to invite for in-person interviews will use impact factors as a “heuristic shortcut”, Susi explains. “We've started to rely on these simple numbers and we don’t read the actual work. But that has always been a very non-scientific way of doing things.”

As unscientific as it might be, the impact factor continues to propel the careers of individual researchers, Susi says. “Most scientists are very smart – they will do what benefits their own careers. The problem is that the whole system is not serving science itself very well.”

Even though Susi has held a tenured position since 2021 and no longer has to play the “publication game”, as he puts it, he oversees PhD students and postdoctoral researchers at the University of Vienna who do. “It's a systemic issue. As long as the system is running, you never can really fully escape it.”

But it is possible for junior researchers to combine Open Science methods while also playing by the rules of the traditional assessment system, Susi says. “Keep publishing in those prestigious, high-impact journals but be as open as you can be,” he advises. “Publish the data, publish the code; and make sure that it's Open Access, either through a preprint or an Article Processing Charge if you have funding available to pay for it.”

He continues: “It is a very good time for young people to start to ask themselves: ‘Okay, how am I contributing to Open Science? How will this look on my CV when I'm evaluated in a few years’ time?’ Because we are moving towards a world in which Open Science will become more and more important.”

“This is nonsense”

If his advice to junior researchers emphasises pragmatism, his advice for senior researchers on hiring committees and evaluation committees is to not mince words when an applicant’s impact factor is mentioned. “Just raise your hand and point out that this is nonsense. Insist that we have to evaluate candidates’ contributions on their own merit.”

“If you're the only progressive person on that hiring panel, maybe it won't make a difference. But raising awareness of this again and again is part of a long process of cultural change that will take time. It's up to all of us who are aware of these issues to bring this awareness into all the contexts in which we are present.”

So, how do you reward good research practices; how do you select the best candidate if the impact factor is not fit for purpose? Unfortunately, there is no straightforward answer that works for every discipline and under all circumstances, Susi explains.

“Science and scholarship is a very, very broad area of human enterprise, and you have to look at what you’re trying to evaluate. For instance, are you trying to decide whom to hire, or are you trying to decide which project to fund?”

An institution looking to hire the best possible candidate for a professorship might for instance place significant weight on applicants’ prior research. “What are the contributions this person has made to this particular field? Maybe they've published a few nice papers; maybe they created an open-access research code; maybe they provided a reference data set that thousands of people in the field are using? The latter two would not be reflected in traditional publication metrics, yet they are vital contributions to the advancement of that field. And so we need to start looking more holistically at how has this person contributed to the research in their area? What has been their individual, unique contribution? In this way, you can then find the people that best match the profile you are looking for.”

Ultimately, giving more emphasis to Open Science in assessment is about ensuring that researchers’ individual career incentives are aligned with what advances science, Susi observes. “If what gets you ahead in the current system is publishing as many papers as quickly as possible, rather than slowly and carefully publishing your methods and data, that's not good for science.”

“We have to make sure that the work that gets rewarded is work that establishes a solid scientific foundation that others can build and rely on. When we bring those two together, systemic change becomes possible. Because all individual actors will be motivated out of self-interest to do things that benefit science and research. How we get there is not entirely straightforward. But it is a future worth working for.”

martes, 20 de agosto de 2024

Manifiesto por las métricas socioterritoriales de la ciencia la tecnología y la innovación

Compartimos este Manifiesto que consideramos es de su interés:

Manifiesto por las métricas socioterritoriales de la ciencia la tecnología y la innovación

http://eprints.rclis.org/45961/

Versión en: español, portugués e inglés...

Saludes.

Alejandro Uribe Tirado PhD en Documentación Científica Profesor / Investigador - Escuela Interamericana de Bibliotecología Sublíneas: ALFIN, Altmetrics, Ciencia Abierta, Open Access, TIC, E-learning y G.del Conocimiento Coord. Grupo de Investigación "Información, Conocimiento y Sociedad" EIB Comisión Ciencia Abierta UdeA Integrante de COLAV, RedÍconos, Repositorio E-lis, Ciencia Abierta como Bien Común-Grupo CLACSO y Grupo E-Infosfera UGR

Universidad de Antioquia (Blq. 12-304 / +57-604 2195930) Medellín-Colombia

auribe.bibliotecologia.udea@gmail.com alejandro.uribe2@udea.edu.co - grupoinformacionconocimientoysociedad@udea.edu.co inv.auribe@ugr.es*** https://www.facebook.com/groups/accesoabiertoyaltmetrics/ https://www.facebook.com/groups/cienciaabierta.ciencia2.0yuniversidad/ https://twitter.com/alejouribet http://alfincolombia.blogspot.com http://alfiniberoamerica.blogspot.com *** https://bit.ly/2OPk74l - https://www.directorioexit.info/ficha525 (Currículo)

https://bit.ly/3xKmLPR - https://bit.ly/3xKDqDd (Grupos de Investigación)

https://bit.ly/3vwQeuc (Cursos curriculares en Moodle) *** https://bit.ly/42N5oLD - http://bit.ly/3zhwGvY (Publicaciones en acceso abierto) http://bit.ly/1HffALS (G. Scholar) http://bit.ly/1I4NNPl (Research Gate) http://orcid.org/0000-0002-0381-1269 (ORCID / ResearcherID) http://www.redalyc.org/autor.oa?id=597 (Autores RedAlyc) https://alpha.openalex.org/works?filter=authorships.author.id%3AA4355967528 (OpenAlex)

¿Se ha utilizado su artículo para entrenar un modelo de inteligencia artificial? Casi seguro

Publicado en Nature
https://www.nature.com/articles/d41586-024-02599-9

¿Se ha utilizado su artículo para entrenar un modelo de inteligencia artificial?

Casi seguro

Los desarrolladores de inteligencia artificial están comprando acceso a valiosos conjuntos de datos que contienen artículos de investigación, lo que plantea preguntas incómodas sobre los derechos de autor.

Por Elizabeth Gibney

Las editoriales académicas están vendiendo a las empresas tecnológicas el acceso a artículos de investigación para entrenar modelos de inteligencia artificial (IA). Algunos investigadores han reaccionado con consternación ante este tipo de acuerdos que se producen sin consultar a los autores. Esta tendencia está suscitando dudas sobre el uso de trabajos publicados, y a veces protegidos por derechos de autor, para entrenar el creciente número de robots de inteligencia artificial que se están desarrollando.

Los expertos dicen que, si un trabajo de investigación aún no se ha utilizado para entrenar un gran modelo lingüístico (LLM), probablemente lo hará pronto. Los investigadores están estudiando métodos técnicos para que los autores puedan detectar si se está utilizando su contenido.

El mes pasado, se supo que la editorial académica británica Taylor & Francis había firmado un acuerdo con Microsoft por valor de 10 millones de dólares que permitía a la empresa tecnológica estadounidense acceder a los datos de la editorial para mejorar sus sistemas de inteligencia artificial. Y en junio, un informe de los inversores mostró que la editorial estadounidense Wiley había ganado 23 millones de dólares por permitir a una empresa anónima entrenar modelos de IA generativa en sus contenidos.

Según Lucy Lu Wang, investigadora en Inteligencia Artificial de la Universidad de Washington en Seattle, es «muy probable» que cualquier cosa que pueda leerse en línea, esté o no en un repositorio de acceso abierto, ya haya sido introducida en un LLM. «Y si un artículo ya ha sido utilizado como dato de entrenamiento en un modelo, no hay forma de eliminar ese artículo una vez que el modelo ha sido entrenado», añade.

Conjuntos de datos masivos

Los LLM se entrenan con enormes volúmenes de datos, a menudo extraídos de Internet. Obtienen patrones entre los miles de millones de fragmentos lingüísticos de los datos de entrenamiento, conocidos como tokens, que les permiten generar textos con una fluidez asombrosa.

Los modelos de IA generativa se basan en la absorción de patrones de estas masas de datos para generar textos, imágenes o códigos informáticos. Los artículos académicos son valiosos para los creadores de LLM por su extensión y su «alta densidad de información», dice Stefan Baack, que analiza conjuntos de datos de entrenamiento de IA en la Fundación Mozilla, una organización mundial sin ánimo de lucro de San Francisco (California) cuyo objetivo es mantener Internet abierto al acceso de todos.

Entrenar los modelos con un gran volumen de información científica también les proporciona una capacidad mucho mayor para razonar sobre temas científicos, afirma Wang, cocreador de S2ORC, un conjunto de datos basado en 81,1 millones de artículos académicos. El conjunto de datos se desarrolló originalmente para la minería de textos -aplicar técnicas analíticas para encontrar patrones en los datos-, pero desde entonces se ha utilizado para entrenar LLM.

La tendencia a comprar conjuntos de datos de alta calidad va en aumento. Este año, el Financial Times ha ofrecido sus contenidos al desarrollador de ChatGPT OpenAI en un lucrativo acuerdo, al igual que el foro en línea Reddit, a Google. Y dado que los editores científicos probablemente vean la alternativa de que su trabajo sea desechado sin un acuerdo, «creo que habrá más acuerdos de este tipo en el futuro», afirma Wang.

Secretos de información

Algunos desarrolladores de IA, como la Red de Inteligencia Artificial a Gran Escala, mantienen intencionadamente abiertos sus conjuntos de datos, pero muchas empresas que desarrollan modelos de IA generativa han mantenido en secreto gran parte de sus datos de entrenamiento, dice Baack. «No tenemos ni idea de lo que hay ahí», afirma. Los repositorios de código abierto como arXiv y la base de datos académica PubMed de resúmenes son fuentes «muy populares», afirma, aunque es probable que las grandes empresas tecnológicas extraigan los resúmenes de los artículos de pago de las revistas. «Siempre están a la caza de ese tipo de material», añade.

Según Yves-Alexandre de Montjoye, informático del Imperial College de Londres, es difícil demostrar que un LLM ha utilizado un documento concreto. Una forma consiste en pedir al modelo una frase inusual de un texto y ver si el resultado coincide con las siguientes palabras del original. Si es así, es una buena prueba de que el documento está en el conjunto de entrenamiento. Pero si no es así, eso no significa que no se haya utilizado el artículo, entre otras cosas porque los desarrolladores pueden programar el LLM para que filtre las respuestas y se asegure de que no coinciden demasiado con los datos de entrenamiento. «Hace falta mucho para que esto funcione», afirma.

Otro método para comprobar si los datos están en un conjunto de entrenamiento se conoce como ataque de inferencia de pertenencia. Se basa en la idea de que un modelo tendrá más confianza en sus resultados cuando vea algo que ya ha visto antes. El equipo de De Montjoye ha desarrollado una versión de esto, llamada trampa de derechos de autor, para los LLM.

Para tender la trampa, el equipo genera frases que parecen verosímiles pero que no tienen sentido, y las oculta en una obra, por ejemplo como texto blanco sobre fondo blanco o en un campo que se muestra con ancho cero en una página web. Si un LLM se muestra más «sorprendido» -una medida conocida como su perplejidad- por una frase de control no utilizada que por la oculta en el texto, «eso es una prueba estadística de que las trampas se vieron antes», afirma.

Cuestiones de derechos de autor

Aunque fuera posible demostrar que un LLM ha sido entrenado con un texto determinado, no está claro qué ocurre después. Los editores sostienen que, si los desarrolladores utilizan textos protegidos por derechos de autor en la formación y no han solicitado una licencia, eso se considera una infracción. Pero un argumento jurídico contrario afirma que los LLM no copian nada: recogen el contenido informativo de los datos de entrenamiento, que se fragmentan, y utilizan su aprendizaje para generar un nuevo texto.

Los litigios podrían ayudar a resolver esta cuestión. En un caso de derechos de autor en curso en Estados Unidos que podría sentar precedente, The New York Times ha demandado a Microsoft y a OpenAI, desarrollador de ChatGPT, en San Francisco (California). El periódico acusa a las empresas de utilizar sus contenidos periodísticos para entrenar sus modelos sin permiso.

Muchos académicos están encantados de que su trabajo se incluya en los datos de entrenamiento de LLM, sobre todo si los modelos los hacen más precisos. «A mí personalmente no me importa tener un chatbot que escriba como yo», dice Baack. Pero reconoce que su trabajo no se ve amenazado por los resultados de los LLM del mismo modo que los de otras profesiones, como artistas y escritores.

En la actualidad, los autores científicos individuales tienen poco poder si el editor de su artículo decide vender el acceso a sus obras protegidas por derechos de autor. En el caso de los artículos a disposición del público, no existe ningún medio establecido para atribuir los créditos o saber si se ha utilizado un texto.

Algunos investigadores, como de Montjoye, se sienten frustrados. «Queremos LLM, pero queremos algo que sea justo, y creo que aún no hemos inventado qué aspecto tiene esto», afirma.

*********************************

NEWS
14 August 2024

Has your paper been used to train an AI model? Almost certainly

Artificial-intelligence developers are buying access to valuable data sets that contain research papers — raising uncomfortable questions about copyright.

By Elizabeth Gibney

Academic publishers are selling access to research papers to technology firms to train artificial-intelligence (AI) models. Some researchers have reacted with dismay at such deals happening without the consultation of authors. The trend is raising questions about the use of published and sometimes copyrighted work to train the exploding number of AI chatbots in development.

Experts say that, if a research paper hasn’t yet been used to train a large language model (LLM), it probably will be soon. Researchers are exploring technical ways for authors to spot if their content being used.

Last month, it emerged that the UK academic publisher Taylor & Francis, had signed a US$10-million deal with Microsoft, allowing the US technology company to access the publisher’s data to improve its AI systems. And in June, an investor update showed that US publisher Wiley had earned $23 million from allowing an unnamed company to train generative-AI models on its content.

Anything that is available to read online — whether in an open-access repository or not — is “pretty likely” to have been fed into an LLM already, says Lucy Lu Wang, an AI researcher at the University of Washington in Seattle. “And if a paper has already been used as training data in a model, there’s no way to remove that paper after the model has been trained,” she adds.

Massive data sets

LLMs train on huge volumes of data, frequently scraped from the Internet. They derive patterns between the often billions of snippets of language in the training data, known as tokens, that allow them to generate text with uncanny fluency.

Generative-AI models rely on absorbing patterns from these swathes of data to output text, images or computer code. Academic papers are valuable for LLM builders owing to their length and “high information density”, says Stefan Baack, who analyses AI training data sets at the Mozilla Foundation, a global non-profit organization in San Francisco, California that aims to keep the Internet open for all to access.

Training models on a large body of scientific information also give them a much better ability to reason about scientific topics, says Wang, who co-created S2ORC, a data set based on 81.1 million academic papers. The data set was originally developed for text mining — applying analytical techniques to find patterns in data — but has since been used to train LLMs.

The trend of buying high-quality data sets is growing. This year, the Financial Times has offered its content to ChatGPT developer OpenAI in a lucrative deal, as has the online forum Reddit, to Google. And given that scientific publishers probably view the alternative as their work being scraped without an agreement, “I think there will be more of these deals to come,” says Wang.

Information secrets

Some AI developers, such as the Large-scale Artificial Intelligence Network, intentionally keep their data sets open, but many firms developing generative-AI models have kept much of their training data secret, says Baack. “We have no idea what is in there,” he says. Open-source repositories such as arXiv and the scholarly database PubMed of abstracts are thought to be “very popular” sources, he says, although paywalled journal articles probably have their free-to-read abstracts scraped by big technology firms. “They are always on the hunt for that kind of stuff,” he adds.

Proving that an LLM has used any individual paper is difficult, says Yves-Alexandre de Montjoye, a computer scientist at Imperial College London. One way is to prompt the model with an unusual sentence from a text and see whether the output matches the next words in the original. If it does, that is good evidence that the paper is in the training set. But if it doesn’t, that doesn’t mean that the paper wasn’t used — not least because developers can code the LLM to filter responses to ensure they don’t match training data too closely. “It takes a lot for this to work,” he says.

Another method to check whether data are in a training set is known as membership inference attack. This relies on the idea that a model will be more confident about its output when it is seeing something that it has seen before. De Montjoye’s team has developed a version of this, called a copyright trap, for LLMs.

To set the trap, the team generates sentences that look plausible but are nonsense, and hides them in a body of work, for example as white text on a white background or in a field that’s displayed as zero width on a webpage. If an LLM is more ‘surprised’ — a measure known as its perplexity — by an unused control sentence than it is by the one hidden in the text, “that is statistical evidence that the traps were seen before”, he says.

Copyright questions

Even if it were possible to prove that an LLM has been trained on a certain text, it is not clear what happens next. Publishers maintain that, if developers use copyrighted text in training and have not sought a licence, that counts as infringement. But a counter legal argument says that LLMs do not copy anything — they harvest information content from training data, which gets broken up, and use their learning to generate new text.

Litigation might help to resolve this. In an ongoing US copyright case that could be precedent-setting, The New York Times is suing Microsoft and ChatGPT’s developer OpenAI in San Francisco, California. The newspaper accuses the firms of using its journalistic content to train their models without permission.

Many academics are happy to have their work included in LLM training data — especially if the models make them more accurate. “I personally don’t mind if I have a chatbot who writes in the style of me,” says Baack. But he acknowledges that his job is not threatened by LLM outputs in the way that those of other professions, such as artists and writers, are.

Individual scientific authors currently have little power if the publisher of their paper decides to sell access to their copyrighted works. For publicly available articles, there is no established means to apportion credit or know whether a text has been used.

Some researchers, including de Montjoye, are frustrated. “We want LLMs, but we still want something that is fair, and I think we’ve not invented what this looks like yet,” he says.

doi: https://doi.org/10.1038/d41586-024-02599-9

******************************

Boletín SciELO-México