Publicado en NWO
https://www.nwo.nl/en/cases/open-science-helps-to-assess-the-value-of-ai-tools-and-data
La ciencia abierta ayuda a evaluar el valor de las herramientas y los datos de IA
10 de julio de 2025
Hoy en día, no sólo los científicos especializados en IA, sino casi todos los estudiantes e investigadores utilizan herramientas de IA en sus investigaciones. ¿Hasta qué punto se ajusta este uso a los principios de la ciencia abierta? ¿Puede la ciencia abierta ayudar a mejorar el uso que hacemos de las herramientas de IA?
Autor: Malou van Hintum
Los científicos especializados en IA fueron de los primeros en adoptar el código abierto y la publicación abierta, junto con otros informáticos", afirma Antal van den Bosch, catedrático de Lenguaje, Comunicación y Computación de la Universidad de Utrecht. Tomemos como ejemplo la publicación abierta: se está dando un impulso masivo para que las revistas sean de acceso abierto. En nuestro campo, esto es así desde el cambio de milenio".
Añade que la mayoría de las empresas de IA «publican como locas»: No suelen publicar sus productos estrella como código abierto, pero sí las versiones antiguas, los modelos reducidos o los componentes. Cuando el chatbot chino Deepseek lanzó sus modelos más pequeños y ligeros, éstos eran en gran parte de código abierto. El modelo más grande, que pueden rentabilizar, es de «código abierto», lo que significa que puede descargarse y utilizarse en su forma original. Lo mismo ocurre con todos los modelos LLaMA (modelos lingüísticos) de Meta”, prosigue Van den Bosch: El software que crean los propios investigadores de IA sigue principios científicos abiertos que van más allá de FAIR (Findable, Accessible, Interoperable y Reusable). Si te interesa la ciencia abierta, ven y echa un vistazo a nuestro trabajo".
Realidad: nadie conoce realmente los datos
Eso es sólo una parte de la historia. Van den Bosch también reconoce que todo el mundo fuera de su «microburbuja», como él la llama, utiliza herramientas de IA desarrolladas por grandes empresas tecnológicas. Si nos fijamos en los chatbots y los modelos de aprendizaje automático de las grandes tecnológicas utilizados por investigadores que no son especialistas en IA, las cosas parecen mucho menos JUSTAS. Y esto se debe principalmente a los datos utilizados para entrenar estas herramientas de IA.
Por ejemplo, no está nada claro con qué datos se han entrenado chatbots tan populares como ChatGPT. Esto tiene poco que ver con los principios FAIR de la ciencia abierta (los datos deben ser localizables, accesibles, interoperables y reutilizables). Sin embargo, los investigadores que quieran utilizar la IA en su trabajo deben conocer las características de los datos que introducen en estas herramientas. Pero no pueden saberlo a menos que utilicen datos recogidos por ellos mismos.
Error (1): Todo el mundo lo hace
Curtis Sharma (TU Delft) dirige el proyecto Skills for the European Open Science Commons (Skills4EOSC), una red paneuropea de centros de competencia que forman a investigadores y administradores de datos en ciencia abierta y FAIR.
Sharma sólo utiliza las herramientas de IA incluidas en el software de PDF al que está suscrito. Dejo que esas herramientas procesen los PDF que yo mismo he seleccionado, en un entorno controlado. Quizá espero demasiado, pero no creo que existan herramientas realmente fiables. Incluso las versiones de pago pueden ser menos fiables que Wikipedia. Después de un tiempo, a menudo acaban dando vueltas en círculo. Las uso muy poco".
Aun así, estas herramientas se utilizan mucho, y Sharma entiende por qué: El gran problema es la presión para utilizarlas, simplemente porque todo el mundo lo hace. Ahorran tiempo y a menudo se sienten validados por los resultados". Y eso es un gran escollo, porque que un resultado coincida con tus expectativas no significa que sea correcto o cierto. En un mundo ideal, todos los modelos se entrenarían con datos FAIR. Pero ese mundo no existe y probablemente nunca existirá.
El gran problema es la presión para utilizarlos.
Curtis Sharma
Necesidad: metadatos exhaustivos
Muchos investigadores que utilizan la IA trabajan con datos recogidos por otros, lo que significa que sólo pueden ser transparentes en cuanto a la calidad y la imparcialidad de los conjuntos de datos en cuestión. Sharma: "Eso significa que los metadatos -datos sobre los datos- deben ser lo más detallados posible, incluyendo cualquier vulnerabilidad o sesgo ético. Como no podemos empezar a investigar con datos FAIR, debemos ser lo más transparentes posible sobre lo que estamos haciendo". Por ejemplo, no se puede afirmar que no hay sesgos a menos que se pueda demostrar. En otras palabras: no encontrar sesgos no significa que no existan".
En curso: Las 10 mejores prácticas de datos FAIR para la IA
Skills4EOSC está elaborando actualmente una lista de las 10 mejores prácticas de datos FAIR para la IA (a Top 10 list of FAIR data practices for AI). Cabría esperar que el entrenamiento de modelos con datos FAIR figurara en la lista, pero no hubo suficiente acuerdo al respecto, explica Sharma. No porque los investigadores piensen que no es importante -de hecho lo es-, sino porque algunos valoran más la calidad de los datos, que se refiere a su adecuación a un fin específico. Para ellos, esto es más importante que su carácter FAIR, ya que se considera demasiado restrictivo. Otros consideran poco práctica la formación de modelos a partir de datos FAIR, ya que FAIR no significa necesariamente abierto, cuando el objetivo es la accesibilidad al público más amplio posible.
Bono: principios FAIRER para la IA
Sharma quiere ampliar los principios FAIR para la IA a FAIRER: añadir Ética (incluida la transparencia) y Reproducibilidad, un principio que refuerza la integridad científica. Pensemos en las actuales crisis de reproducibilidad en psicología, medicina y economía", afirma. Los principios FAIR actuales no llegan lo suficientemente lejos". El auge de la IA y el dominio de las grandes tecnologías no hacen sino aumentar la presión sobre los investigadores para que obtengan éxitos rápidos. Muévete rápido, rompe cosas y discúlpate después", resume Sharma esta mentalidad, que no encaja con la investigación FAIRER. Además, los modelos de IA suelen trabajar con enormes conjuntos de datos, lo que puede crear una falsa sensación de fiabilidad. Pero, ¿está justificada esa confianza?
Error (2): La correlación es suficiente
Cynthia Liem, que investiga la validación y fiabilidad de la IA en la Universidad Técnica de Delft, habla de la investigación basada en datos: En todo el movimiento de la IA vemos la misma creencia: más mediciones significan más datos, lo que nos permite hacer las cosas de forma más eficiente y eficaz. En Silicon Valley, todo gira en torno a la escala, la abstracción y ser el más grande. Sólo quieren predicciones que coincidan con una fórmula de éxito probada, no les interesa nada más. Desde un punto de vista hipercapitalista estadounidense, eso tiene sentido. Pero científicamente, es mucho más complejo. Si encuentras una correlación sin una relación causal claramente defendible, ¿puedes realmente incluirla en tus conclusiones?".
Eso puede ser aceptable cuando se crea un producto. Pero si tu objetivo es comprender, explicar e interpretar un fenómeno en relación con la teoría científica, no es aceptable'.
En todo el movimiento de la IA vemos la misma creencia: más mediciones significan más datos, lo que nos permite hacer las cosas de forma más eficiente y eficaz.
Cynthia Liem
Mirando al futuro: ciencia más lenta, más reflexión
Hay desarrolladores e ingenieros de código abierto que ya reflexionan sobre esto. Sharma lo comprobó cuando visitó la conferencia de código abierto FOSDEM 2023, un evento no comercial para desarrolladores e ingenieros. Hubo animados debates sobre si los ingenieros deberían centrarse sólo en el aspecto técnico de su trabajo o considerar también sus implicaciones sociales. Al final, la mayoría estuvo de acuerdo -por razones éticas y de acuerdo con el principio de interoperabilidad- en que es esencial tener en cuenta el impacto social", afirma Sharma. Ignorarlo es una especie de pensamiento aislado, y eso no es buena ciencia".
Las 10 mejores prácticas FAIR de Skills4EOSC para la IA incluirán el requisito de que todas las consideraciones y análisis éticos se documenten durante el desarrollo del modelo. Sharma: "Sí, una mayor reflexión ralentiza el proceso científico, pero ¿es eso realmente malo? Tenemos que replantearnos qué entendemos por progreso científico".
/////////////////////////
Open science helps to assess the value of AI tools and data
10 July 2025
Not only AI scientists, but almost all students and researchers today use AI tools in their research. To what extent is this use compliant with the principles of open science? And can open science help improve how we use AI tools?
Author: Malou van Hintum
‘AI scientists were among the first to embrace open source and open publication, along with other computer scientists,’ says Antal van den Bosch, faculty professor of Language, Communication and Computation at Utrecht University. ‘Take open publishing as an example: there’s a massive push underway to make journals open access. In our field, we’ve had that since the turn of the millennium.’
He adds that most AI companies ‘are publishing like crazy’: ‘They usually don’t release their flagship products as open source, but older versions, slimmed-down models, or components often are. When Chinese AI-chatbot Deepseek released its smaller, lighter models, these were largely open source. The largest model, which they can monetise, is “open weight” – meaning it can be downloaded and used in its trained form. The same goes for all of Meta’s LLaMA models (language models),’ Van den Bosch continues: ’The software AI researchers create themselves, follows scientific open principles that go beyond FAIR (Findable, Accessible, Interoperable, and Reusable). ‘If you’re interested in open science, just come and take a look at our work.’
Fact: no one really knows the dataThat’s only part of the story. Van den Bosch also recognises that everyone outside his ‘microbubble’, as he calls it, uses AI tools developed by big tech companies. If we look at chatbots and machine learning models from big tech used by researchers who aren’t AI specialists, things look far less FAIR. And that’s mainly due to the data used to train these AI tools.
For instance, it’s entirely unclear what data popular chatbots like ChatGPT have been trained on. This has little to do with the FAIR principles of open science (data should be findable, accessible, interoperable, and reusable). Yet researchers who want to use AI in their work must understand the characteristics of the data they feed into these tools. But they can’t know this unless they’re using data they’ve collected themselves.
Pitfall (1): ‘Everyone else is doing it’
Curtis Sharma (TU Delft) is the project lead at Skills for the European Open Science Commons (Skills4EOSC), a pan-European network of competence centres training researchers and data stewards in open and FAIR science. Sharma only uses the AI tools included in the PDF software he subscribes to. ‘I let those tools process PDFs I’ve selected myself — in a controlled environment. Maybe I expect too much, but I don’t think there are any truly reliable tools out there. Even paid versions can be less reliable than Wikipedia. After a while, they often just end up going in circles. I use them very sparingly.’
Still, these tools are widely used, and Sharma understands why: ‘The big issue is the pressure to use them, simply because everyone else does. They save time and often feel validated by the results.’ And that’s a major pitfall because if an outcome matches your expectations doesn’t mean it’s correct or true. In an ideal world, all models would be trained on FAIR data. But that world doesn’t exist, and likely never will.
The big issue is the pressure to use them.Curtis Sharma
Necessity: extensive metadataMany researchers using AI work with data collected by others meaning they can only be transparent about the quality and FAIRness of those datasets concerned. Sharma: ‘That means metadata — data about the data — needs to be as detailed as possible, including any vulnerabilities or ethical biases. Because we can’t start research with FAIR data, we should be as transparent as possible about what we are doing.’ For example, you can’t claim there’s no bias unless you can prove it. In other words: not finding bias doesn’t mean it isn’t there.’
In progress: Top 10 FAIR data practices for AISkills4EOSC is currently developing a Top 10 list of FAIR data practices for AI
. You’d expect the training of models on FAIR data to be in the list — but there wasn’t quite enough agreement on that, Sharma explains. Not because researchers think it’s not important — they actually do — but because some value data quality more, which relates to how well the data fits a specific purpose. They see that as more important than its FAIRness, as this is considered too restrictive. Others find training models on FAIR data impractical, as FAIR does not necessarily mean open — where accessibility to the widest possible audience is the goal.
Bonus: FAIRER principles for AISharma wants to extend the FAIR principles for AI to FAIRER: adding Ethics (including transparency) and Reproducibility, a principle that strengthens scientific integrity. ‘Think of the current reproducibility crises in psychology, medicine, economics,’ he says. ‘The current FAIR principles therefore don’t reach far enough.’ The rise of AI and the dominance of big tech are only increasing the pressure on researchers to produce quick successes. ‘Move fast, break things, and apologise later,’ is how Sharma summarises that mindset — one that’s at odds with FAIRER research. What’s more, AI models often work with enormous datasets, which can create a false sense of reliability. But is that trust justified?
Pitfall (2): ‘Correlation is good enough’Cynthia Liem, who researches AI validation and reliability at TU Delft, says of data-driven research: ‘Across the AI movement we see the same belief — more measurements mean more data, which lets us do things more efficiently and effectively. In Silicon Valley, it’s all about scale, abstraction, and being the biggest. They just want predictions that match a proven success formula — they’re not really interested in anything else. From a hyper-capitalist American standpoint, that makes sense. But scientifically, it’s much more complex. If you find a correlation without a clearly defensible causal link, can you really include that in your conclusions?’
‘That may be acceptable when you're building a product. But if your goal is to understand, explain, and interpret a phenomenon in relation to scientific theory, it’s not acceptable.’
Across the AI movement we see the same belief — more measurements mean more data, which lets us do things more efficiently and effectively.Cynthia Liem
Looking ahead: slower science, more reflectionThere are open-source developers and engineers who already reflect on this. Sharma saw that when he visited the 2023 FOSDEM Open Source conference — a non-commercial event for developers and engineers. There were lively debates about whether engineers should just focus on the technical side of their work or also consider its societal implications. ‘In the end, the majority agreed — for ethical reasons and in line with the principle of interoperability — that considering societal impact is essential,’ Sharma says. ‘Ignoring it is a kind of siloed thinking, and that’s not good science.’
Skills4EOSC’s Top 10 FAIR practices for AI will include the requirement that all ethical considerations and analyses need to be documented during model development. Sharma: ‘Yes, more reflection slows down the scientific process, but is that really a bad thing? We need to rethink what we mean by scientific progress.’
