Mostrando entradas con la etiqueta Ética. Mostrar todas las entradas
Mostrando entradas con la etiqueta Ética. Mostrar todas las entradas

viernes, 24 de octubre de 2025

Ciencia abierta con ética para la IA - Principios FAIRER para Datos abiertos

Publicado en NWO
https://www.nwo.nl/en/cases/open-science-helps-to-assess-the-value-of-ai-tools-and-data 



La ciencia abierta ayuda a evaluar el valor de las herramientas y los datos de IA


10 de julio de 2025


Hoy en día, no sólo los científicos especializados en IA, sino casi todos los estudiantes e investigadores utilizan herramientas de IA en sus investigaciones. ¿Hasta qué punto se ajusta este uso a los principios de la ciencia abierta? ¿Puede la ciencia abierta ayudar a mejorar el uso que hacemos de las herramientas de IA?


Autor: Malou van Hintum


Los científicos especializados en IA fueron de los primeros en adoptar el código abierto y la publicación abierta, junto con otros informáticos", afirma Antal van den Bosch, catedrático de Lenguaje, Comunicación y Computación de la Universidad de Utrecht. Tomemos como ejemplo la publicación abierta: se está dando un impulso masivo para que las revistas sean de acceso abierto. En nuestro campo, esto es así desde el cambio de milenio".


Añade que la mayoría de las empresas de IA «publican como locas»: No suelen publicar sus productos estrella como código abierto, pero sí las versiones antiguas, los modelos reducidos o los componentes. Cuando el chatbot chino Deepseek lanzó sus modelos más pequeños y ligeros, éstos eran en gran parte de código abierto. El modelo más grande, que pueden rentabilizar, es de «código abierto», lo que significa que puede descargarse y utilizarse en su forma original. Lo mismo ocurre con todos los modelos LLaMA (modelos lingüísticos) de Meta”, prosigue Van den Bosch: El software que crean los propios investigadores de IA sigue principios científicos abiertos que van más allá de FAIR (Findable, Accessible, Interoperable y Reusable). Si te interesa la ciencia abierta, ven y echa un vistazo a nuestro trabajo".


Realidad: nadie conoce realmente los datos


Eso es sólo una parte de la historia. Van den Bosch también reconoce que todo el mundo fuera de su «microburbuja», como él la llama, utiliza herramientas de IA desarrolladas por grandes empresas tecnológicas. Si nos fijamos en los chatbots y los modelos de aprendizaje automático de las grandes tecnológicas utilizados por investigadores que no son especialistas en IA, las cosas parecen mucho menos JUSTAS. Y esto se debe principalmente a los datos utilizados para entrenar estas herramientas de IA.


Por ejemplo, no está nada claro con qué datos se han entrenado chatbots tan populares como ChatGPT. Esto tiene poco que ver con los principios FAIR de la ciencia abierta (los datos deben ser localizables, accesibles, interoperables y reutilizables). Sin embargo, los investigadores que quieran utilizar la IA en su trabajo deben conocer las características de los datos que introducen en estas herramientas. Pero no pueden saberlo a menos que utilicen datos recogidos por ellos mismos.


Error (1): Todo el mundo lo hace


Curtis Sharma (TU Delft) dirige el proyecto Skills for the European Open Science Commons (Skills4EOSC), una red paneuropea de centros de competencia que forman a investigadores y administradores de datos en ciencia abierta y FAIR.


Sharma sólo utiliza las herramientas de IA incluidas en el software de PDF al que está suscrito. Dejo que esas herramientas procesen los PDF que yo mismo he seleccionado, en un entorno controlado. Quizá espero demasiado, pero no creo que existan herramientas realmente fiables. Incluso las versiones de pago pueden ser menos fiables que Wikipedia. Después de un tiempo, a menudo acaban dando vueltas en círculo. Las uso muy poco".


Aun así, estas herramientas se utilizan mucho, y Sharma entiende por qué: El gran problema es la presión para utilizarlas, simplemente porque todo el mundo lo hace. Ahorran tiempo y a menudo se sienten validados por los resultados". Y eso es un gran escollo, porque que un resultado coincida con tus expectativas no significa que sea correcto o cierto. En un mundo ideal, todos los modelos se entrenarían con datos FAIR. Pero ese mundo no existe y probablemente nunca existirá.


El gran problema es la presión para utilizarlos.


Curtis Sharma


Necesidad: metadatos exhaustivos


Muchos investigadores que utilizan la IA trabajan con datos recogidos por otros, lo que significa que sólo pueden ser transparentes en cuanto a la calidad y la imparcialidad de los conjuntos de datos en cuestión. Sharma: "Eso significa que los metadatos -datos sobre los datos- deben ser lo más detallados posible, incluyendo cualquier vulnerabilidad o sesgo ético. Como no podemos empezar a investigar con datos FAIR, debemos ser lo más transparentes posible sobre lo que estamos haciendo". Por ejemplo, no se puede afirmar que no hay sesgos a menos que se pueda demostrar. En otras palabras: no encontrar sesgos no significa que no existan".


En curso: Las 10 mejores prácticas de datos FAIR para la IA


Skills4EOSC está elaborando actualmente una lista de las 10 mejores prácticas de datos FAIR para la IA (a Top 10 list of FAIR data practices for AI). Cabría esperar que el entrenamiento de modelos con datos FAIR figurara en la lista, pero no hubo suficiente acuerdo al respecto, explica Sharma. No porque los investigadores piensen que no es importante -de hecho lo es-, sino porque algunos valoran más la calidad de los datos, que se refiere a su adecuación a un fin específico. Para ellos, esto es más importante que su carácter FAIR, ya que se considera demasiado restrictivo. Otros consideran poco práctica la formación de modelos a partir de datos FAIR, ya que FAIR no significa necesariamente abierto, cuando el objetivo es la accesibilidad al público más amplio posible.


Bono: principios FAIRER para la IA


Sharma quiere ampliar los principios FAIR para la IA a FAIRER: añadir Ética (incluida la transparencia) y Reproducibilidad, un principio que refuerza la integridad científica. Pensemos en las actuales crisis de reproducibilidad en psicología, medicina y economía", afirma. Los principios FAIR actuales no llegan lo suficientemente lejos". El auge de la IA y el dominio de las grandes tecnologías no hacen sino aumentar la presión sobre los investigadores para que obtengan éxitos rápidos. Muévete rápido, rompe cosas y discúlpate después", resume Sharma esta mentalidad, que no encaja con la investigación FAIRER. Además, los modelos de IA suelen trabajar con enormes conjuntos de datos, lo que puede crear una falsa sensación de fiabilidad. Pero, ¿está justificada esa confianza?


Error (2): La correlación es suficiente


Cynthia Liem, que investiga la validación y fiabilidad de la IA en la Universidad Técnica de Delft, habla de la investigación basada en datos: En todo el movimiento de la IA vemos la misma creencia: más mediciones significan más datos, lo que nos permite hacer las cosas de forma más eficiente y eficaz. En Silicon Valley, todo gira en torno a la escala, la abstracción y ser el más grande. Sólo quieren predicciones que coincidan con una fórmula de éxito probada, no les interesa nada más. Desde un punto de vista hipercapitalista estadounidense, eso tiene sentido. Pero científicamente, es mucho más complejo. Si encuentras una correlación sin una relación causal claramente defendible, ¿puedes realmente incluirla en tus conclusiones?".


Eso puede ser aceptable cuando se crea un producto. Pero si tu objetivo es comprender, explicar e interpretar un fenómeno en relación con la teoría científica, no es aceptable'.


En todo el movimiento de la IA vemos la misma creencia: más mediciones significan más datos, lo que nos permite hacer las cosas de forma más eficiente y eficaz.

Cynthia Liem


Mirando al futuro: ciencia más lenta, más reflexión


Hay desarrolladores e ingenieros de código abierto que ya reflexionan sobre esto. Sharma lo comprobó cuando visitó la conferencia de código abierto FOSDEM 2023, un evento no comercial para desarrolladores e ingenieros. Hubo animados debates sobre si los ingenieros deberían centrarse sólo en el aspecto técnico de su trabajo o considerar también sus implicaciones sociales. Al final, la mayoría estuvo de acuerdo -por razones éticas y de acuerdo con el principio de interoperabilidad- en que es esencial tener en cuenta el impacto social", afirma Sharma. Ignorarlo es una especie de pensamiento aislado, y eso no es buena ciencia".


Las 10 mejores prácticas FAIR de Skills4EOSC para la IA incluirán el requisito de que todas las consideraciones y análisis éticos se documenten durante el desarrollo del modelo. Sharma: "Sí, una mayor reflexión ralentiza el proceso científico, pero ¿es eso realmente malo? Tenemos que replantearnos qué entendemos por progreso científico".



/////////////////////////

Open science helps to assess the value of AI tools and data

  • 10 July 2025

Not only AI scientists, but almost all students and researchers today use AI tools in their research. To what extent is this use compliant with the principles of open science? And can open science help improve how we use AI tools?

Author: Malou van Hintum

‘AI scientists were among the first to embrace open source and open publication, along with other computer scientists,’ says Antal van den Bosch, faculty professor of Language, Communication and Computation at Utrecht University. ‘Take open publishing as an example: there’s a massive push underway to make journals open access. In our field, we’ve had that since the turn of the millennium.’  

He adds that most AI companies ‘are publishing like crazy’: ‘They usually don’t release their flagship products as open source, but older versions, slimmed-down models, or components often are. When Chinese AI-chatbot Deepseek released its smaller, lighter models, these were largely open source. The largest model, which they can monetise, is “open weight” – meaning it can be downloaded and used in its trained form. The same goes for all of Meta’s LLaMA models (language models),’ Van den Bosch continues: ’The software AI researchers create themselves, follows scientific open principles that go beyond FAIR (Findable, Accessible, Interoperable, and Reusable). ‘If you’re interested in open science, just come and take a look at our work.’

Fact: no one really knows the data  

That’s only part of the story. Van den Bosch also recognises that everyone outside his ‘microbubble’, as he calls it, uses AI tools developed by big tech companies. If we look at chatbots and machine learning models from big tech used by researchers who aren’t AI specialists, things look far less FAIR. And that’s mainly due to the data used to train these AI tools.

For instance, it’s entirely unclear what data popular chatbots like ChatGPT have been trained on. This has little to do with the FAIR principles of open science (data should be findable, accessible, interoperable, and reusable). Yet researchers who want to use AI in their work must understand the characteristics of the data they feed into these tools. But they can’t know this unless they’re using data they’ve collected themselves.  

Pitfall (1): ‘Everyone else is doing it’

Curtis Sharma (TU Delft) is the project lead at Skills for the European Open Science Commons (Skills4EOSC), a pan-European network of competence centres training researchers and data stewards in open and FAIR science. Sharma only uses the AI tools included in the PDF software he subscribes to. ‘I let those tools process PDFs I’ve selected myself — in a controlled environment. Maybe I expect too much, but I don’t think there are any truly reliable tools out there. Even paid versions can be less reliable than Wikipedia. After a while, they often just end up going in circles. I use them very sparingly.’  

Still, these tools are widely used, and Sharma understands why: ‘The big issue is the pressure to use them, simply because everyone else does. They save time and often feel validated by the results.’ And that’s a major pitfall because if an outcome matches your expectations doesn’t mean it’s correct or true. In an ideal world, all models would be trained on FAIR data. But that world doesn’t exist, and likely never will.

The big issue is the pressure to use them.

Curtis Sharma

Necessity: extensive metadata  

Many researchers using AI work with data collected by others meaning they can only be transparent about the quality and FAIRness of those datasets concerned. Sharma: ‘That means metadata — data about the data — needs to be as detailed as possible, including any vulnerabilities or ethical biases. Because we can’t start research with FAIR data, we should be as transparent as possible about what we are doing.’ For example, you can’t claim there’s no bias unless you can prove it. In other words: not finding bias doesn’t mean it isn’t there.’

In progress: Top 10 FAIR data practices for AI  

Skills4EOSC is currently developing a Top 10 list of FAIR data practices for AI

. You’d expect the training of models on FAIR data to be in the list — but there wasn’t quite enough agreement on that, Sharma explains. Not because researchers think it’s not important — they actually do — but because some value data quality more, which relates to how well the data fits a specific purpose. They see that as more important than its FAIRness, as this is considered too restrictive. Others find training models on FAIR data impractical, as FAIR does not necessarily mean open — where accessibility to the widest possible audience is the goal.  

Bonus: FAIRER principles for AI

Sharma wants to extend the FAIR principles for AI to FAIRER: adding Ethics (including transparency) and Reproducibility, a principle that strengthens scientific integrity. ‘Think of the current reproducibility crises in psychology, medicine, economics,’ he says. ‘The current FAIR principles therefore don’t reach far enough.’ The rise of AI and the dominance of big tech are only increasing the pressure on researchers to produce quick successes. ‘Move fast, break things, and apologise later,’ is how Sharma summarises that mindset — one that’s at odds with FAIRER research. What’s more, AI models often work with enormous datasets, which can create a false sense of reliability. But is that trust justified?  

Pitfall (2): ‘Correlation is good enough’

Cynthia Liem, who researches AI validation and reliability at TU Delft, says of data-driven research: ‘Across the AI movement we see the same belief — more measurements mean more data, which lets us do things more efficiently and effectively. In Silicon Valley, it’s all about scale, abstraction, and being the biggest. They just want predictions that match a proven success formula — they’re not really interested in anything else. From a hyper-capitalist American standpoint, that makes sense. But scientifically, it’s much more complex. If you find a correlation without a clearly defensible causal link, can you really include that in your conclusions?’

‘That may be acceptable when you're building a product. But if your goal is to understand, explain, and interpret a phenomenon in relation to scientific theory, it’s not acceptable.’   

Across the AI movement we see the same belief — more measurements mean more data, which lets us do things more efficiently and effectively.

Cynthia Liem

Looking ahead: slower science, more reflection

There are open-source developers and engineers who already reflect on this. Sharma saw that when he visited the 2023 FOSDEM Open Source conference — a non-commercial event for developers and engineers. There were lively debates about whether engineers should just focus on the technical side of their work or also consider its societal implications. ‘In the end, the majority agreed — for ethical reasons and in line with the principle of interoperability — that considering societal impact is essential,’ Sharma says. ‘Ignoring it is a kind of siloed thinking, and that’s not good science.’

Skills4EOSC’s Top 10 FAIR practices for AI will include the requirement that all ethical considerations and analyses need to be documented during model development. Sharma: ‘Yes, more reflection slows down the scientific process, but is that really a bad thing? We need to rethink what we mean by scientific progress.’

domingo, 7 de septiembre de 2025

REVISTAS DEPREDADORAS rastreadas por IA: Cientos de revistas científicas son cuestionadas por IA, revela estudio

Publicado en La Jornada
https://www.jornada.com.mx/noticia/2025/09/03/ciencias/cientos-de-revistas-cientificas-son-cuestionadas-por-ia-revela-estudio



Cientos de revistas científicas son cuestionadas por IA, revela estudio

03 de septiembre de 2025 

Madrid. Una plataforma de inteligencia artificial (IA) que busca revistas científicas cuestionables marcó más de mil 400 como “potencialmente problemáticas” en una lista de casi 15 mil 200 cabeceras de acceso abierto en Internet.

El estudio, publicado en Science Advances, liderado por la Universidad de Colorado en Boulder, aborda una tendencia alarmante en el mundo de la investigación.

Daniel Acuña, autor principal del estudio y profesor asociado del Departamento de Ciencias de la Computación, recibe recordatorios varias veces a la semana en su correo electrónico: estos mensajes de spam provienen de personas que se hacen pasar por editores de revistas científicas, generalmente de las que Acuña nunca ha oído hablar, y que ofrecen publicar sus artículos por una tarifa elevada.

A estas publicaciones a veces se las denomina revistas “depredadoras”. Se dirigen a los científicos, convenciéndolos de pagar cientos o incluso miles de dólares para publicar sus investigaciones sin una verificación adecuada.

“Ha habido un esfuerzo creciente entre científicos y organizaciones para verificar estas revistas”, afirmó Acuña. Pero es como jugar a la estrategia de golpear topos. Atrapas a uno y luego aparece otro, generalmente de la misma empresa. Simplemente crean un nuevo sitio web y le dan un nuevo nombre.

La nueva herramienta de IA de su grupo filtra automáticamente las revistas científicas, evaluando sus sitios web y otros datos en línea según ciertos criterios: ¿Tienen las revistas un consejo editorial con investigadores consolidados? ¿Contienen sus sitios web muchos errores gramaticales? Acuña enfatiza que la herramienta no es perfecta. En última instancia, cree que los expertos humanos, no las máquinas, deberían tomar la decisión final sobre la reputación de una revista.

Pero en una época en la que figuras prominentes cuestionan la legitimidad de la ciencia, frenar la proliferación de publicaciones cuestionables se ha vuelto más importante que nunca, afirmó.

“En ciencia, no se empieza desde cero. Se construye sobre la base de la investigación de otros”, dijo Acuña. “Así que, si los cimientos de esa torre se derrumban, todo se derrumba”.

La extorsión

Cuando los científicos envían un nuevo estudio a una publicación prestigiosa, éste suele someterse a una práctica llamada revisión por pares. Expertos externos leen el estudio y evalúan su calidad; o al menos, ese es el objetivo.

Un número creciente de empresas ha intentado eludir este proceso para obtener beneficios. En 2009, Jeffrey Beall, bibliotecario de la Universidad de Colorado, acuñó el término “revistas depredadoras” para describir estas publicaciones.

A menudo, se dirigen a investigadores fuera de Estados Unidos y Europa, como en China, India e Irán, países donde las instituciones científicas pueden ser jóvenes y la presión y los incentivos para que los investigadores publiquen son altos.

“Dicen: ‘Si pagas 500 o mil dólares, revisaremos tu artículo”’, explicó Acuña. “En realidad, no ofrecen ningún servicio. Simplemente toman el PDF y lo publican en su sitio web”.

Diversos grupos han intentado frenar esta práctica. Entre ellos se encuentra una organización sin fines de lucro llamada Directorio de Revistas de Acceso Abierto (DOAJ). Desde 2003, voluntarios han marcado miles de revistas como sospechosas basándose en seis criterios. (Las publicaciones de renombre, por ejemplo, suelen incluir una descripción detallada de sus políticas de revisión por pares en sus sitios web).

Pero seguir el ritmo de la proliferación de estas publicaciones ha sido una tarea abrumadora para los humanos.

Para acelerar el proceso, Acuña y sus colegas recurrieron a la IA. El equipo entrenó su sistema con los datos del DOAJ y luego le pidió a la inteligencia artificial que examinara una lista de casi 15 mil 200 revistas de acceso abierto en Internet.

De estas publicaciones, la IA marcó inicialmente más de mil 400 como potencialmente problemáticas.

Acuña y sus colegas pidieron a expertos humanos que revisaran un subconjunto de las revistas sospechosas. La IA cometió errores, según los humanos, marcando aproximadamente 350 publicaciones como cuestionables cuando probablemente eran legítimas. Esto aún dejaba más de mil revistas que los investigadores identificaron como cuestionables. “Creo que esto debería usarse como ayuda para preseleccionar un gran número de revistas”, expuso. “Pero el análisis final debería ser realizado por profesionales humanos”.

No es una caja negra

Acuña añadió que los investigadores no querían que su sistema fuera una “caja negra” como otras plataformas de IA.

“Con ChatGPT, por ejemplo, a menudo no se entiende por qué sugiere algo”, indicó Acuña. “Intentamos que el nuestro fuera lo más interpretable posible”.

El equipo descubrió, por ejemplo, que las revistas cuestionables publicaban una cantidad inusualmente alta de artículos. También incluían autores con más afiliaciones que las revistas más legítimas, y autores que citaban su propia investigación, en lugar de la de otros científicos, con una frecuencia inusualmente alta.

miércoles, 6 de agosto de 2025

LATINDEX publica nueva versión de su metodología de postulación al Catálogo 2.0

Publicado en Latindex
https://latindex.org/latindex/noticia/368





Latindex publica nueva versión de su metodología de postulación al Catálogo 2.0

Ya está disponible para consulta la versión revisada de la metodología https://www.latindex.org/latindex/postulacion/postulacionCatalogo, la cual incorpora, entre otras, las siguientes precisiones:


  1. Requisito de postulación 5. La exigencia de indización en DOAJ o SciELO para las revistas que aplican cargos de cualquier naturaleza, se extiende ahora a revistas editadas por instituciones privadas y editores independientes. También se agregó lo siguiente: "Asimismo, incluye aquellas que establecen tarifas diferenciadas, como pagos por revisión acelerada, límites en la cantidad de autores o beneficios económicos para ciertas empresas. Las revistas no deberán ocultar o minimizar información sobre cargos o tarifas asociados a la publicación; deben explicar para qué son las tarifas y en qué momento del proceso se cobrarán. Las revistas que no cobren cargos de ningún tipo también deberán declararlo, así como informar si piensan establecer cargos a futuro".

  2. Característica 16. Se aclara la forma como se considera una autoría externa: "Sí un artículo tiene uno o varios autores de la institución editora de la revista y uno o varios autores de otras instituciones, se contabiliza como externo."

  3. Característica 18. Se toma ahora como referencia de índices sospechosos el siguiente: https://www.predatoryjournals.org/home en lugar de las listas de Beall.

  4. Característica 16. Se enlazan desde el texto los sitios de COPE e ICJME y se agrega la Declaración de Heredia sobre el uso de la inteligencia artificial en los textos científicos.


La nueva versión tiene fecha de 18 de junio de 2025.


La nota informativa que se preparó esta disponible en: https://latindex.org/latindex/noticia/368

martes, 1 de julio de 2025

ARTÍCULO: IA Generativa y Acceso Abierto: un nuevo paradigma económico

Generative AI and Open Access Publishing: A New Economic Paradigm


Leo S. Lo

LIBRARY TRENDS, Vol. 73, No. 3, 2025 (“Generative AI and Libraries: Applications and Ethics, Part I,” edited by Melissa A. Wong), pp. 160–176. © 2025 The Board of Trustees, University of Illinois   

Resumen
La integración de la inteligencia artificial generativa (IA) en la publicación académica presenta tanto oportunidades como retos para el acceso abierto. La IA puede agilizar los flujos de trabajo, reducir los costes y mejorar la visibilidad de la investigación, lo que puede hacer que el acceso abierto sea más sostenible desde el punto de vista financiero. Sin embargo, las mismas capacidades de la IA también suscitan preocupación por la exclusividad y la creación de un sistema escalonado que limita el acceso al conocimiento. Los editores se enfrentan a una decisión estratégica entre abrazar el acceso abierto y aprovechar la IA para contenidos y servicios exclusivos. Las bibliotecas desempeñan un papel crucial a la hora de defender el acceso abierto y el uso ético de la IA, adquirir experiencia e influir en el desarrollo de políticas. Equilibrar los beneficios de la IA con los principios de equidad e inclusión requiere la colaboración entre las partes interesadas. Trabajando juntos, editores, bibliotecarios y responsables políticos pueden aprovechar el poder de la IA para democratizar el acceso al conocimiento, respetando al mismo tiempo las normas éticas y fomentando una comunidad académica más inclusiva y equitativa.
  

Abstract
The integration of generative artificial intelligence (AI) in scholarly publishing presents both opportunities and challenges for open access. AI can streamline workflows, reduce costs, and enhance the discoverability of research, potentially making open access more financially sustainable. However, the same AI capabilities also raise concerns about exclusivity and the creation of a tiered system that limits access to knowledge. Publishers face a strategic decision be tween embracing open access and leveraging AI for proprietary content and services. Libraries play a crucial role in advocating for open access and ethical AI use, building expertise, and influencing policy development. Balancing the benefits of AI with the principles of equity and inclusivity requires collaboration among stakeholders. By working together, publishers, librarians, and policymakers can harness the power of AI to democratize access to knowledge while upholding ethical standards, fostering a more inclusive and equitable academic community.

ARGENTINA: elecciones legislativas y geopolítica digital (Uranio, Centros de datos, China...)

Publicado en  dpl news https://dplnews.com/elecciones-legislativas-de-argentina-un-suceso-de-geopolitica-digital/ Cómo las elecciones legisl...