Publicado en blog Impact of Social Sciences (London School of Economics-LSE)
https://blogs.lse.ac.uk/impactofsocialsciences/2024/09/25/if-generative-ai-accelerates-science-peer-review-needs-to-catch-up/
Simone Ragavooloo
25 de septiembre de 2024
Si la IA generativa acelera la ciencia, la revisión por pares debe ponerse al día
Cada vez hay más estudios que demuestran el uso generalizado de la IA generativa en las publicaciones de investigación. Ante el consiguiente aumento del número de publicaciones, Simone Ragavooloo argumenta que los editores y revisores deberían adoptar herramientas de IA para realizar el trabajo pesado de la revisión estadística y metodológica y permitirles centrarse en áreas que requieren experiencia humana.
La inteligencia artificial está transformando la ciencia y la edición científica debe seguir el ritmo de este cambio. El informe Top 10 Emerging Technologies of 2024 del Foro Económico Mundial destaca los miles de millones de fondos que se están invirtiendo en IA sólo en el ámbito de los descubrimientos científicos.
La IA ya se aplica ampliamente en la investigación, desde el descubrimiento de nuevas familias de antibióticos hasta el estudio de innumerables fenómenos sociales y culturales. El Consejo de Asesores sobre Ciencia y Tecnología del Presidente de Estados Unidos (PCAST) ha declarado que «la IA tiene el potencial de transformar todas las disciplinas científicas y muchos aspectos de la forma en que hacemos ciencia». El potencial transformador de la IA no sólo reside en cómo investigamos, sino en cuánta investigación científica producimos, como se reconoce en el informe de la OCDE 2023 Artificial Intelligence in Science: «aumentar la productividad de la investigación podría ser el más valioso económica y socialmente de todos los usos de la IA». Por favor denos unos días más para intentar tener una opinión más consolidada
Los editores deben ahora adaptarse e innovar como lo hicieron durante el paso de lo impreso a lo digital a finales del siglo XX. Sin embargo, la revisión por pares supone un reto para estas visiones. Se calcula que en 2020 se dedicarán 100 millones de horas a la revisión por pares, una cifra que podría aumentar exponencialmente si no se apoya a los revisores. Dado que algunos ya consideran que el sistema actual funciona al límite de su capacidad, Lisa Messeri y M. J. Crockett afirman que una «ciencia a gran escala» basada en la inteligencia artificial podría provocar una «ilusión de comprensión», en la que un aumento significativo de la productividad y los resultados científicos no se viera correspondido por la perspicacia y el criterio humanos.
Una de las respuestas es combinar lo similar con lo similar. Para liberar la experiencia de los revisores humanos, necesitamos desarrollar y confiar más en las herramientas de revisión por pares y de integridad de la investigación basadas en IA para que hagan el trabajo pesado. El primer paso es evitar que la ciencia fraudulenta o simplemente «mala» entre en el proceso de revisión por pares. La situación de la integridad de la investigación es análoga al uso que hacen la ciberseguridad y el sector financiero de la IA para combatir el fuego con fuego. Estas aplicaciones ponen de relieve la capacidad de la IA para procesar grandes cantidades de datos e identificar anomalías a un ritmo que no puede igualar la detección humana. De hecho, ya existen herramientas de IA en la integridad de la investigación, AIRA de Frontiers se puso en línea ya en 2018 y ahora se une a una serie de herramientas de IA que abordan diversos aspectos del fraude en la investigación. La Asociación Internacional de Editores Científicos, Técnicos y Médicos (STM) creó recientemente el Centro de Integridad STM para agregar y aprovechar estas innovaciones tecnológicas en los editores de investigación.
Por muy positivas que sean estas medidas de las editoriales para proteger la integridad de la investigación, el mayor reto al que se enfrentan las editoriales en relación con la IA no son las prácticas malignas de unos pocos, sino la adopción positiva de herramientas de IA para hacer avanzar y agilizar la investigación por parte de muchos.
Entonces, ¿qué hay que hacer? Las editoriales deben superar las limitaciones iniciales de la IA y los primeros grandes modelos lingüísticos (incluidos los datos disponibles para entrenar estos LLM) y aprovechar el potencial de la revisión por pares basada en la IA. Los datos abiertos son un primer ejemplo de esta tendencia. Los datos abiertos, un principio básico del movimiento de la ciencia abierta, permiten a la IA en el descubrimiento científico establecer la conexión entre los datos interoperables producidos por diferentes equipos de investigación. A medida que los datos científicos obtenidos mediante IA se hacen más grandes y complejos, la tarea clave de los revisores de detectar errores metodológicos y estadísticos en las presentaciones se vuelve más exigente. Una situación que a menudo se ve agravada por la falta de formación y conocimientos estadísticos avanzados de algunos investigadores. Por lo tanto, la combinación de IA con ciencia abierta/datos abiertos tiene el potencial de aumentar los descubrimientos científicos y la innovación, pero también crea combinaciones más complejas de datos y más riesgo de que se introduzcan fallos en los conjuntos de datos.
Por poner un ejemplo real, un equipo científico líder produjo datos originales con buena intención, utilizando el aprendizaje automático para identificar microbiomas asociados al cáncer. El escrutinio por pares posterior a la publicación identificó problemas con los datos y señaló la «avalancha» de estudios posteriores que utilizaron estos datos creyéndolos sólidos. A ello siguieron retractaciones e investigaciones relacionadas. Desde el punto de vista del editor y de la revisión por pares, la pregunta es cómo se pudo evitar que los datos entraran en el registro científico. A este respecto, todavía nos encontramos en un periodo de transición, en el que los investigadores y editores siguen aprendiendo de este tipo de incidentes y adaptando las metodologías de investigación y los protocolos de revisión por pares a medida que se generaliza el uso de la IA y los LLM en la investigación.
Las editoriales tienen la escala y la experiencia tecnológica para experimentar y desarrollar herramientas en este ámbito. A medida que aumentan las aplicaciones de la IA en la investigación científica, no es deseable ni factible confiar en un pequeño grupo de revisores estadísticos para hacer el trabajo pesado con datos cada vez más complejos producidos a un ritmo más rápido. Las herramientas de los editores deberían ayudar tanto a los autores como a los revisores detectando automáticamente y con precisión errores o anomalías estadísticas, sugiriendo métodos estadísticos apropiados y proporcionando un análisis preliminar de los datos de los investigadores. Si logramos esto, incluso con grandes conjuntos de datos generados por IA, el proceso de revisión seguirá siendo sólido pero racionalizado, liberando a los revisores humanos para que se centren en otros aspectos críticos del manuscrito.
Hay dos cosas claras. En primer lugar, la revisión por pares no puede mantenerse en su estado actual a medida que la IA aumenta la producción científica. En segundo lugar, a medida que crece el volumen de la investigación, la colaboración, así como la innovación, son esenciales para proteger el discurso científico y la integridad del registro científico. ¿Qué aspecto tiene la cooperación entre publicaciones e investigaciones, desde la mesa del laboratorio hasta la página del editor, y cómo podemos impulsarla? ¿Podemos desarrollar herramientas de inteligencia artificial lo suficientemente avanzadas como para detectar grandes volúmenes de datos defectuosos antes de que se incorporen al registro científico? ¿Cómo funcionaría un sistema de alerta para todos los editores (similar a las alertas de ciberseguridad) para compartir información que impida la difusión de datos y análisis erróneos?
La IA en la ciencia y la edición se encuentra en sus primeras fases, pero ya es una realidad que hay que abordar y seguir desarrollando. Juntos debemos abrir el camino hacia el potencial de la IA en la innovación científica.
Sobre la autora
Simone Ragavooloo
Simone Ragavooloo es experta en integridad de la investigación y asesora del Comité de Ética de las Publicaciones (COPE). Su trabajo se centra en ayudar a los editores a formular y aplicar políticas que promuevan la integridad de la investigación y eleven las normas éticas de publicación. Es una firme defensora del papel fundamental que desempeñan los editores en la formulación de políticas y la influencia en la conducta ética dentro de la comunidad investigadora. Simone ha ocupado puestos relacionados en BMJ y Springer Nature y actualmente aporta su experiencia en Frontiers como Directora de Cartera de Integridad de la Investigación.
****************
Simone Ragavooloo
September 25th, 2024
If generative AI accelerates science, peer review needs to catch up
Studies have increasingly shown the widespread use of generative AI in research publications. Faced with the consequent uptick in the number of publications, Simone Ragavooloo argues that editors and reviewers should embrace AI tools to undertake the heavy lifting of statistical and methodological review and to allow them to focus on areas that require human expertise.
Artificial Intelligence is transforming science and science publishing must keep pace with this change. The World Economic Forum’s Top 10 Emerging Technologies of 2024 report highlights the billions of funding being ploughed into AI in scientific discovery alone.
AI is now already widely applied in research, from discovering new families of antibiotics to studying myriad social and cultural phenomena. The United States’ President’s Council of Advisors on Science and Technology (PCAST) has stated “AI has the potential to transform every scientific discipline and many aspects of the way we conduct science.” AI’s transformative potential lies not only in how we do research, but in how much scientific research we produce, as recognised in the OECD’s 2023 Artificial Intelligence in Science report: “raising the productivity of research could be the most economically and socially valuable of all the uses of AI”.
Publishers must now adapt and innovate just as they did during the shift from print to digital at the end of the 20th century. However, peer review presents a challenge to these visions. 100 million hours were estimated to be spent on peer review in 2020, a figure that could rise exponentially if reviewers are not supported. Given that the current system is already viewed by some as working at capacity, Lisa Messeri and M J. Crockett have argued an AI-enabled ‘science-at-volume’ could lead to the ‘illusion of understanding’, whereby a significant escalation in scientific productivity and output is not matched by human insight and judgement.
One answer is to meet like with like. To free up human reviewer expertise, we need to develop and trust more in AI-enabled peer review and research integrity tools to do the heavy lifting. Preventing fraudulent and plain, old ‘bad’ science entering the peer review process is the first step. The situation in research integrity is analogous here with cyber security’s and the finance sector’s use of AI to fight fire with fire. These applications highlight AI’s capability to process vast amounts of data and identify anomalies at a rate that cannot be matched by human detection. Indeed, AI-tools in research integrity already exist, Frontiers’ AIRA came online as early as 2018 and is now joined by an array of AI-tools tackling various aspects of research fraud. The International Association of Scientific, Technical and Medical Publishers (STM) recently created the STM Integrity Hub to aggregate and harness such technological innovations across research publishers.
Positive as these steps are by publishers to protect research integrity, the greatest challenge facing publishers in relation to AI is not malign practices by the few, but the positive adoption of AI tools to advance and expediate research by the many.
So, what is to be done? Publishers need to get past initial limitations with AI and early large language models (including the data available to train these LLMs) and realise the potential of AI-enabled peer review. Open data is an early example of this trend. A core tenet of the open science movement, open data enables AI-in-scientific-discovery to make the connection between interoperable data produced by different research teams. As AI-enabled scientific data becomes bigger and more complex, the key reviewer task of spotting methodological and statistical errors in submissions becomes more demanding. A situation that is often exacerbated by the lack of advanced statistical training and expertise for some researchers. The combination of AI with open science/open data therefore has the potential to increase scientific discovery and innovation, but it also creates more complex combinations of data and more risk of flaws being introduced to datasets.
To give a real-world example, a-leading science team produced original data with good intent, using machine-learning to identify microbiomes associated with cancer. Post-publication peer scrutiny identified problems with the data and pointed to the “flurry” of subsequent studies that used this data believing it to be sound. Retractions and related investigations followed. From a publisher and peer review perspective, the question is how the data could have been prevented from entering the scientific record? In this respect, we are all still in the transitional period, where researchers and publishers continue to learn from such incidents and adapt research methodologies and peer-review protocols as the use of AI and LLMs in research becomes widespread.
Publishers have the scale and technological expertise to experiment and develop tools in this space. As more applications of AI in scientific research come online, it is neither desirable nor feasible to rely on a small pool of statistical reviewers to do the heavy lifting with evermore complex data produced at a faster rate. Publishers’ tools should assist both authors and reviewers by automatically and accurately detecting statistical errors or anomalies, suggesting appropriate statistical methods, and providing a preliminary analysis of researchers’ data. If we can achieve this, then even with big, AI-generated datasets, the review process will remain robust but streamlined, freeing up human reviewers to focus on other critical aspects of the manuscript.
Two things are clear. First, peer review cannot be sustained in its current state as AI increases science output. Second, as the volume of research grows, collaboration, as well as innovation, is essential to protect scientific discourse and the integrity of the scientific record. What does cross-publishing, cross-research cooperation look like, from the lab bench to publisher’s page and how do we drive it forward? Can we develop AI tools advanced enough to catch faulty big data before it enters the scientific record? How would a publisher-wide alert system (not dissimilar to cyber security alerts) work, to share intelligence that stops flawed data and analysis from spreading?
AI in science and publishing is in its early stages, but it is already a reality that needs to be addressed and further developed. Together, we should provide an open path forward to the potential of AI in scientific innovation.
About the author
Simone Ragavooloo
Simone Ragavooloo is an experienced Research Integrity expert and advisor for the Committee on Publication Ethics (COPE). Her work is focused on supporting publishers to form and implement policies that advance research integrity and elevate publication ethics standards. She is a vocal proponent of the critical role publishers play in shaping policy and influencing ethical conduct within the research community. Simone has held related positions at BMJ and Springer Nature and currently contributes her expertise at Frontiers as Research Integrity Portfolio Manager.
No hay comentarios:
Publicar un comentario