Mostrando entradas con la etiqueta Principios FAIR. Mostrar todas las entradas
Mostrando entradas con la etiqueta Principios FAIR. Mostrar todas las entradas

viernes, 24 de octubre de 2025

Ciencia abierta con ética para la IA - Principios FAIRER para Datos abiertos

Publicado en NWO
https://www.nwo.nl/en/cases/open-science-helps-to-assess-the-value-of-ai-tools-and-data 



La ciencia abierta ayuda a evaluar el valor de las herramientas y los datos de IA


10 de julio de 2025


Hoy en día, no sólo los científicos especializados en IA, sino casi todos los estudiantes e investigadores utilizan herramientas de IA en sus investigaciones. ¿Hasta qué punto se ajusta este uso a los principios de la ciencia abierta? ¿Puede la ciencia abierta ayudar a mejorar el uso que hacemos de las herramientas de IA?


Autor: Malou van Hintum


Los científicos especializados en IA fueron de los primeros en adoptar el código abierto y la publicación abierta, junto con otros informáticos", afirma Antal van den Bosch, catedrático de Lenguaje, Comunicación y Computación de la Universidad de Utrecht. Tomemos como ejemplo la publicación abierta: se está dando un impulso masivo para que las revistas sean de acceso abierto. En nuestro campo, esto es así desde el cambio de milenio".


Añade que la mayoría de las empresas de IA «publican como locas»: No suelen publicar sus productos estrella como código abierto, pero sí las versiones antiguas, los modelos reducidos o los componentes. Cuando el chatbot chino Deepseek lanzó sus modelos más pequeños y ligeros, éstos eran en gran parte de código abierto. El modelo más grande, que pueden rentabilizar, es de «código abierto», lo que significa que puede descargarse y utilizarse en su forma original. Lo mismo ocurre con todos los modelos LLaMA (modelos lingüísticos) de Meta”, prosigue Van den Bosch: El software que crean los propios investigadores de IA sigue principios científicos abiertos que van más allá de FAIR (Findable, Accessible, Interoperable y Reusable). Si te interesa la ciencia abierta, ven y echa un vistazo a nuestro trabajo".


Realidad: nadie conoce realmente los datos


Eso es sólo una parte de la historia. Van den Bosch también reconoce que todo el mundo fuera de su «microburbuja», como él la llama, utiliza herramientas de IA desarrolladas por grandes empresas tecnológicas. Si nos fijamos en los chatbots y los modelos de aprendizaje automático de las grandes tecnológicas utilizados por investigadores que no son especialistas en IA, las cosas parecen mucho menos JUSTAS. Y esto se debe principalmente a los datos utilizados para entrenar estas herramientas de IA.


Por ejemplo, no está nada claro con qué datos se han entrenado chatbots tan populares como ChatGPT. Esto tiene poco que ver con los principios FAIR de la ciencia abierta (los datos deben ser localizables, accesibles, interoperables y reutilizables). Sin embargo, los investigadores que quieran utilizar la IA en su trabajo deben conocer las características de los datos que introducen en estas herramientas. Pero no pueden saberlo a menos que utilicen datos recogidos por ellos mismos.


Error (1): Todo el mundo lo hace


Curtis Sharma (TU Delft) dirige el proyecto Skills for the European Open Science Commons (Skills4EOSC), una red paneuropea de centros de competencia que forman a investigadores y administradores de datos en ciencia abierta y FAIR.


Sharma sólo utiliza las herramientas de IA incluidas en el software de PDF al que está suscrito. Dejo que esas herramientas procesen los PDF que yo mismo he seleccionado, en un entorno controlado. Quizá espero demasiado, pero no creo que existan herramientas realmente fiables. Incluso las versiones de pago pueden ser menos fiables que Wikipedia. Después de un tiempo, a menudo acaban dando vueltas en círculo. Las uso muy poco".


Aun así, estas herramientas se utilizan mucho, y Sharma entiende por qué: El gran problema es la presión para utilizarlas, simplemente porque todo el mundo lo hace. Ahorran tiempo y a menudo se sienten validados por los resultados". Y eso es un gran escollo, porque que un resultado coincida con tus expectativas no significa que sea correcto o cierto. En un mundo ideal, todos los modelos se entrenarían con datos FAIR. Pero ese mundo no existe y probablemente nunca existirá.


El gran problema es la presión para utilizarlos.


Curtis Sharma


Necesidad: metadatos exhaustivos


Muchos investigadores que utilizan la IA trabajan con datos recogidos por otros, lo que significa que sólo pueden ser transparentes en cuanto a la calidad y la imparcialidad de los conjuntos de datos en cuestión. Sharma: "Eso significa que los metadatos -datos sobre los datos- deben ser lo más detallados posible, incluyendo cualquier vulnerabilidad o sesgo ético. Como no podemos empezar a investigar con datos FAIR, debemos ser lo más transparentes posible sobre lo que estamos haciendo". Por ejemplo, no se puede afirmar que no hay sesgos a menos que se pueda demostrar. En otras palabras: no encontrar sesgos no significa que no existan".


En curso: Las 10 mejores prácticas de datos FAIR para la IA


Skills4EOSC está elaborando actualmente una lista de las 10 mejores prácticas de datos FAIR para la IA (a Top 10 list of FAIR data practices for AI). Cabría esperar que el entrenamiento de modelos con datos FAIR figurara en la lista, pero no hubo suficiente acuerdo al respecto, explica Sharma. No porque los investigadores piensen que no es importante -de hecho lo es-, sino porque algunos valoran más la calidad de los datos, que se refiere a su adecuación a un fin específico. Para ellos, esto es más importante que su carácter FAIR, ya que se considera demasiado restrictivo. Otros consideran poco práctica la formación de modelos a partir de datos FAIR, ya que FAIR no significa necesariamente abierto, cuando el objetivo es la accesibilidad al público más amplio posible.


Bono: principios FAIRER para la IA


Sharma quiere ampliar los principios FAIR para la IA a FAIRER: añadir Ética (incluida la transparencia) y Reproducibilidad, un principio que refuerza la integridad científica. Pensemos en las actuales crisis de reproducibilidad en psicología, medicina y economía", afirma. Los principios FAIR actuales no llegan lo suficientemente lejos". El auge de la IA y el dominio de las grandes tecnologías no hacen sino aumentar la presión sobre los investigadores para que obtengan éxitos rápidos. Muévete rápido, rompe cosas y discúlpate después", resume Sharma esta mentalidad, que no encaja con la investigación FAIRER. Además, los modelos de IA suelen trabajar con enormes conjuntos de datos, lo que puede crear una falsa sensación de fiabilidad. Pero, ¿está justificada esa confianza?


Error (2): La correlación es suficiente


Cynthia Liem, que investiga la validación y fiabilidad de la IA en la Universidad Técnica de Delft, habla de la investigación basada en datos: En todo el movimiento de la IA vemos la misma creencia: más mediciones significan más datos, lo que nos permite hacer las cosas de forma más eficiente y eficaz. En Silicon Valley, todo gira en torno a la escala, la abstracción y ser el más grande. Sólo quieren predicciones que coincidan con una fórmula de éxito probada, no les interesa nada más. Desde un punto de vista hipercapitalista estadounidense, eso tiene sentido. Pero científicamente, es mucho más complejo. Si encuentras una correlación sin una relación causal claramente defendible, ¿puedes realmente incluirla en tus conclusiones?".


Eso puede ser aceptable cuando se crea un producto. Pero si tu objetivo es comprender, explicar e interpretar un fenómeno en relación con la teoría científica, no es aceptable'.


En todo el movimiento de la IA vemos la misma creencia: más mediciones significan más datos, lo que nos permite hacer las cosas de forma más eficiente y eficaz.

Cynthia Liem


Mirando al futuro: ciencia más lenta, más reflexión


Hay desarrolladores e ingenieros de código abierto que ya reflexionan sobre esto. Sharma lo comprobó cuando visitó la conferencia de código abierto FOSDEM 2023, un evento no comercial para desarrolladores e ingenieros. Hubo animados debates sobre si los ingenieros deberían centrarse sólo en el aspecto técnico de su trabajo o considerar también sus implicaciones sociales. Al final, la mayoría estuvo de acuerdo -por razones éticas y de acuerdo con el principio de interoperabilidad- en que es esencial tener en cuenta el impacto social", afirma Sharma. Ignorarlo es una especie de pensamiento aislado, y eso no es buena ciencia".


Las 10 mejores prácticas FAIR de Skills4EOSC para la IA incluirán el requisito de que todas las consideraciones y análisis éticos se documenten durante el desarrollo del modelo. Sharma: "Sí, una mayor reflexión ralentiza el proceso científico, pero ¿es eso realmente malo? Tenemos que replantearnos qué entendemos por progreso científico".



/////////////////////////

Open science helps to assess the value of AI tools and data

  • 10 July 2025

Not only AI scientists, but almost all students and researchers today use AI tools in their research. To what extent is this use compliant with the principles of open science? And can open science help improve how we use AI tools?

Author: Malou van Hintum

‘AI scientists were among the first to embrace open source and open publication, along with other computer scientists,’ says Antal van den Bosch, faculty professor of Language, Communication and Computation at Utrecht University. ‘Take open publishing as an example: there’s a massive push underway to make journals open access. In our field, we’ve had that since the turn of the millennium.’  

He adds that most AI companies ‘are publishing like crazy’: ‘They usually don’t release their flagship products as open source, but older versions, slimmed-down models, or components often are. When Chinese AI-chatbot Deepseek released its smaller, lighter models, these were largely open source. The largest model, which they can monetise, is “open weight” – meaning it can be downloaded and used in its trained form. The same goes for all of Meta’s LLaMA models (language models),’ Van den Bosch continues: ’The software AI researchers create themselves, follows scientific open principles that go beyond FAIR (Findable, Accessible, Interoperable, and Reusable). ‘If you’re interested in open science, just come and take a look at our work.’

Fact: no one really knows the data  

That’s only part of the story. Van den Bosch also recognises that everyone outside his ‘microbubble’, as he calls it, uses AI tools developed by big tech companies. If we look at chatbots and machine learning models from big tech used by researchers who aren’t AI specialists, things look far less FAIR. And that’s mainly due to the data used to train these AI tools.

For instance, it’s entirely unclear what data popular chatbots like ChatGPT have been trained on. This has little to do with the FAIR principles of open science (data should be findable, accessible, interoperable, and reusable). Yet researchers who want to use AI in their work must understand the characteristics of the data they feed into these tools. But they can’t know this unless they’re using data they’ve collected themselves.  

Pitfall (1): ‘Everyone else is doing it’

Curtis Sharma (TU Delft) is the project lead at Skills for the European Open Science Commons (Skills4EOSC), a pan-European network of competence centres training researchers and data stewards in open and FAIR science. Sharma only uses the AI tools included in the PDF software he subscribes to. ‘I let those tools process PDFs I’ve selected myself — in a controlled environment. Maybe I expect too much, but I don’t think there are any truly reliable tools out there. Even paid versions can be less reliable than Wikipedia. After a while, they often just end up going in circles. I use them very sparingly.’  

Still, these tools are widely used, and Sharma understands why: ‘The big issue is the pressure to use them, simply because everyone else does. They save time and often feel validated by the results.’ And that’s a major pitfall because if an outcome matches your expectations doesn’t mean it’s correct or true. In an ideal world, all models would be trained on FAIR data. But that world doesn’t exist, and likely never will.

The big issue is the pressure to use them.

Curtis Sharma

Necessity: extensive metadata  

Many researchers using AI work with data collected by others meaning they can only be transparent about the quality and FAIRness of those datasets concerned. Sharma: ‘That means metadata — data about the data — needs to be as detailed as possible, including any vulnerabilities or ethical biases. Because we can’t start research with FAIR data, we should be as transparent as possible about what we are doing.’ For example, you can’t claim there’s no bias unless you can prove it. In other words: not finding bias doesn’t mean it isn’t there.’

In progress: Top 10 FAIR data practices for AI  

Skills4EOSC is currently developing a Top 10 list of FAIR data practices for AI

. You’d expect the training of models on FAIR data to be in the list — but there wasn’t quite enough agreement on that, Sharma explains. Not because researchers think it’s not important — they actually do — but because some value data quality more, which relates to how well the data fits a specific purpose. They see that as more important than its FAIRness, as this is considered too restrictive. Others find training models on FAIR data impractical, as FAIR does not necessarily mean open — where accessibility to the widest possible audience is the goal.  

Bonus: FAIRER principles for AI

Sharma wants to extend the FAIR principles for AI to FAIRER: adding Ethics (including transparency) and Reproducibility, a principle that strengthens scientific integrity. ‘Think of the current reproducibility crises in psychology, medicine, economics,’ he says. ‘The current FAIR principles therefore don’t reach far enough.’ The rise of AI and the dominance of big tech are only increasing the pressure on researchers to produce quick successes. ‘Move fast, break things, and apologise later,’ is how Sharma summarises that mindset — one that’s at odds with FAIRER research. What’s more, AI models often work with enormous datasets, which can create a false sense of reliability. But is that trust justified?  

Pitfall (2): ‘Correlation is good enough’

Cynthia Liem, who researches AI validation and reliability at TU Delft, says of data-driven research: ‘Across the AI movement we see the same belief — more measurements mean more data, which lets us do things more efficiently and effectively. In Silicon Valley, it’s all about scale, abstraction, and being the biggest. They just want predictions that match a proven success formula — they’re not really interested in anything else. From a hyper-capitalist American standpoint, that makes sense. But scientifically, it’s much more complex. If you find a correlation without a clearly defensible causal link, can you really include that in your conclusions?’

‘That may be acceptable when you're building a product. But if your goal is to understand, explain, and interpret a phenomenon in relation to scientific theory, it’s not acceptable.’   

Across the AI movement we see the same belief — more measurements mean more data, which lets us do things more efficiently and effectively.

Cynthia Liem

Looking ahead: slower science, more reflection

There are open-source developers and engineers who already reflect on this. Sharma saw that when he visited the 2023 FOSDEM Open Source conference — a non-commercial event for developers and engineers. There were lively debates about whether engineers should just focus on the technical side of their work or also consider its societal implications. ‘In the end, the majority agreed — for ethical reasons and in line with the principle of interoperability — that considering societal impact is essential,’ Sharma says. ‘Ignoring it is a kind of siloed thinking, and that’s not good science.’

Skills4EOSC’s Top 10 FAIR practices for AI will include the requirement that all ethical considerations and analyses need to be documented during model development. Sharma: ‘Yes, more reflection slows down the scientific process, but is that really a bad thing? We need to rethink what we mean by scientific progress.’

viernes, 21 de octubre de 2022

La difícil coexistencia entre los derechos de propiedad intelectual y la ciencia abierta

Publicado en Blok de Bid
https://www.ub.edu/blokdebid/es/node/1228


La difícil coexistencia entre los derechos de propiedad intelectual y la ciencia abierta

Asunción Esteve Pardo 
Profesora agregada
Facultat d'Informació i Mitjans Audiovisuals
Universitat de Barcelona (UB)

Cueva, Javier de la; Méndez, Eva (2022). Open science and intellectual property rights: how can they better interact?: state of art and reflections: report of study. [Luxembourg]: Publications Office of the European Union. 139 p. Disponible en: <https://ec.europa.eu/info/publications/open-science-and-intellectual-property-rights_lt>. [Consulta: 05/10/2022].

Este informe, presentado en abril de 2022 a la Dirección General para la Investigación e Innovación de la Comisión Europea, es un estudio sobre el valor de los derechos exclusivos de propiedad intelectual sobre los resultados de la investigación (las patentes, el copyright, las marcas y los secretos industriales) y su efecto sobre el desarrollo de la ciencia abierta. Sus autores son Javier de la Cueva, abogado especializado en propiedad intelectual y Eva Méndez, profesora del Departamento de Biblioteconomía y Documentación de la Universidad Carlos III y, actualmente, vicerrectora adjunta de Política Científica de esta universidad en el ámbito de la ciencia abierta.

El objetivo del informe es aportar recomendaciones para garantizar la coexistencia entre el reconocimiento de estos derechos de propiedad intelectual y el acceso a la ciencia abierta, dentro del marco establecido por la legislación. La idea que subyace en el informe es que la ciencia debe ser «as open as possible, as closed as necessary» y tiene como finalidad aportar medidas concretas para hacer posible que la ciencia sea lo suficientemente abierta sin impedir que tenga ciertos límites legítimos. 

Los autores tienen una reconocida trayectoria profesional que avala un sólido conocimiento de la importancia de este tema. No obstante, desde el punto de vista legal, se advierte una aproximación a los derechos de propiedad intelectual un tanto sesgada que responde al posicionamiento crítico de un sector de la doctrina española e internacional. Las fuentes bibliográficas que emplean los autores son, principalmente, publicaciones sobre los temas que abordan, así como informes y declaraciones institucionales de la Comisión Europea, la UNESCO y otras instancias relacionadas con la ciencia y la difusión del conocimiento, relacionadas con la protección de los derechos de propiedad intelectual y el impulso a la ciencia abierta. 

El informe cuenta con una completa introducción, que presenta sus objetivos y adelanta sus resultados, y se estructura en seis secciones. La primera sección describe, como punto de partida, el derecho a la ciencia como un derecho fundamental. Al respecto cabe objetar, que como los mismos autores señalan, la Carta de los Derechos Fundamentales de la Unión Europea no reconoce expresamente este derecho con carácter fundamental, ya que su art. 13 se refiere a la libertad de las artes y de las ciencias. Es el deber de los poderes públicos, reconocido en varias Constituciones europeas, de fomentar el acceso de los ciudadanos a la ciencia, lo que justifica que los gobiernos adopten medidas para facilitar que la ciencia financiada con fondos públicos sea lo suficientemente abierta. 

En la segunda sección, los autores describen el desarrollo de la noción de ciencia abierta y el papel que han desempeñado la Comisión Europea e instituciones como la OCDE y la UNESCO para lograr su implantación y desarrollo en Europa. También se describen los resultados que ha logrado la implantación de la ciencia abierta en relación con el acceso abierto a las publicaciones y a los datos científicos, y los nuevos criterios para evaluar la calidad de las publicaciones.

La tercera sección del informe se centra en la descripción de los derechos de propiedad intelectual. Esta sección dedica un primer apartado a la justificación y origen de los derechos de propiedad intelectual, con base en teorías filosóficas (Locke, Kant, Hegel). Se echa en falta en el informe la cita a grandes juristas (como Gierke o Kohler) que fundamentaron la teoría de los derechos sobre los bienes inmateriales y justificaron su protección por derechos de propiedad. A continuación, el informe expone los pros y contras que comporta el reconocimiento de los derechos de propiedad intelectual sobre los resultados científicos y pone énfasis en la dificultad de comprobar si el reconocimiento de estos derechos alcanza su objetivo de promover la creación e innovación. En esta misma sección, se expone el contenido y duración del copyright y se propone la creación de una organización que ostente la titularidad de los derechos de copyright de autores científicos en aras de divulgar el conocimiento de sus aportaciones. Se describe también, de forma muy sucinta, en qué consiste el derecho de patente sobre las invenciones técnicas y los requisitos para su concesión, así como los efectos de las patentes sobre la innovación y explica la dificultad de comprobar si estos derechos cumplen su finalidad de impulsar la innovación y el desarrollo tecnológico. Finalmente, se descarta que los derechos de marca puedan suponer un obstáculo al acceso a la ciencia y se pone de relieve la clara incompatibilidad entre los secretos industriales y la ciencia abierta.  

La cuarta sección del informe expone medidas concretas para lograr una mejor interacción entre la ciencia abierta y los derechos de propiedad intelectual. En concreto, las vías que propone el informe son: (1) el acceso abierto a las publicaciones científicas mediante un cambio en el modelo de oligopolio que caracteriza actualmente a los grandes grupos editoriales; (2) la utilización de los datos científicos conforme a los denominados principios FAIR –findable, accesible, interoperable y reusable– para facilitar su reutilización y difusión por la comunidad científica; (3) la implantación del modelo de las licencias libres, inicialmente empleada en el software, para la libre difusión de las creaciones científicas con el fin de evitar la restricción que les impone, por defecto, el copyright. El último apartado de esta sección se centra en la descripción de los derechos de propiedad intelectual sobre el interfaz, el análisis de los enlaces como posible infracción del copyright sobre el contenido enlazado y la nueva excepción de «minería de textos y de datos» a los derechos de copyright, introducida por la Directiva 2019/790 de derechos de autor y derechos afines en el mercado único digital. 

La quinta sección del informe describe la dificultad de concretar en qué consiste el lema de que la ciencia abierta deber ser «as open as possible, as closed as necessary». Distingue entre los límites a la información científica que surgen por la propia naturaleza de la información (la que afecta a la intimidad, el honor de las personas, los secretos de seguridad nacional, etc.) y los límites a la información científica que imponen los titulares de derechos de propiedad intelectual y secretos industriales. También señala el informe cómo las licencias Creative Commons permiten una graduación entre el uso más libre o más cerrado de obras protegidas por copyright, mientras que este modelo de licencias no existe en el caso de las patentes. Concluye el informe que la ciencia abierta no comporta una apertura indiscriminada, pero que las razones que justifican sus límites deben ser razonables.  

El informe concluye con un resumen de sus resultados y recomendaciones, expuestos de forma clara y concisa. 

En su conjunto, el informe aporta una visión completa de los diferentes derechos de propiedad intelectual y su incidencia como posibles restricciones a la ciencia abierta. En algunas ocasiones, el informe incurre en cierta imprecisión –por ejemplo, al explicar la protección de las bases de datos por derechos de propiedad intelectual– o emplea términos del lenguaje de programación que dificultan la comprensión de algunos apartados. También hay que señalar que algunas recomendaciones del informe son demasiado amplias o poco realistas –como ocurre con la propuesta de ciertos cambios legislativos en el marco de la Unión Europea o la creación de la oficina Free Intellectual Property Rights and Open Science­ por organizaciones europeas–. Pero el informe logra su objetivo de plasmar la difícil coexistencia entre el reconocimiento de los derechos de propiedad intelectual y el desarrollo de la ciencia abierta. 

 

[PREPRINT] Descifrando el futuro del acceso Diamante: debate sobre los estándares de calidad para la recomunalización de las publicaciones académicas

Preprint disponible en  ZENODO https://zenodo.org/records/17552531 Publicado el 7 de noviembre de 2025 | Versión v1 Descifrando el futuro de...