miércoles, 22 de enero de 2025

¿Puede utilizarse la IA para evaluar la calidad de la investigación?

Publicado en Nature
https://www.nature.com/articles/d41586-024-02989-z 




¿Puede utilizarse la IA para evaluar la calidad de la investigación?


Cada vez se tienen más en cuenta los chatbots y otras herramientas, pero el poder de las personas sigue considerándose una opción más segura.


Por Jackson Ryan


¿Generan los cirujanos de ardillas más impacto de citas? La pregunta parece ridícula, o quizá el comienzo de un chiste malo. Pero la pregunta, formulada por el científico de datos Mike Thelwall, no era una broma. Era una prueba. Thelwall, que trabaja en la Universidad de Sheffield (Reino Unido), había estado evaluando la capacidad de los grandes modelos lingüísticos (LLM) para valorar artículos académicos según los criterios del Marco de Excelencia Investigadora (REF), la auditoría nacional de calidad de la investigación del Reino Unido. Tras dotar a una versión personalizada de ChatGPT de los criterios del REF, introdujo en el modelo 51 de sus propios trabajos de investigación y quedó sorprendido por la capacidad del chatbot para producir informes plausibles. «No hay nada en los informes que indique que no están escritos por un experto humano», afirma. «Es un logro asombroso». 


Sin embargo, el artículo de la ardilla realmente echó por tierra el modelo. Thelwall había creado el artículo a partir de uno de sus propios manuscritos rechazados sobre si los cirujanos masculinos generan más citas que las cirujanas, y para que no tuviera sentido sustituyó «masculino» por «ardilla», «femenino» por «humano» y cualquier referencia al género la cambió por «especie» en todo el artículo. Su modelo ChatGPT no pudo determinar que los «cirujanos de ardillas» no eran reales durante la evaluación, y el chatbot obtuvo una puntuación alta.


Thelwall también descubrió que el modelo no tenía mucho éxito a la hora de aplicar una puntuación basada en las directrices de la REF a los 51 artículos evaluados. Concluyó que, por mucho que el modelo pudiera producir informes que parecieran auténticos, no era capaz de evaluar la calidad. 


El rápido auge de la inteligencia artificial generativa (IA), como ChatGPT, y de los generadores de imágenes, como DALL-E, ha suscitado un debate cada vez más intenso sobre el lugar que podría ocupar la IA en la evaluación de la investigación. El estudio de Thelwall1, publicado en mayo, es sólo una pieza de un rompecabezas que académicos, instituciones de investigación y financiadores intentan recomponer. Llega en un momento en que los investigadores también se enfrentan a las muchas otras formas en que la IA está afectando a la ciencia y a las directrices en desarrollo que están surgiendo en torno a su uso. Sin embargo, estos debates rara vez se han centrado en orientar el uso de la IA para evaluar la calidad de la investigación. «Esa es la próxima frontera», afirma Gitanjali Yadav, bióloga estructural del Instituto Nacional de Investigación del Genoma Vegetal de la India, en Nueva Delhi, y miembro del grupo de trabajo sobre IA de la Coalition for Advancing Research Assessment, una iniciativa mundial para mejorar las prácticas de evaluación de la investigación.


En particular, el auge de la IA también coincide con crecientes llamamientos a replantearse cómo se evalúan los resultados de la investigación. En la última década, se ha pedido que se abandonen las métricas basadas en la publicación, como los factores de impacto de las revistas y los recuentos de citas, que han demostrado ser propensos a la manipulación y el sesgo. Integrar la IA en este proceso en un momento así brinda la oportunidad de incorporarla a nuevos mecanismos para comprender y medir la calidad y el impacto de la investigación. Pero también plantea importantes cuestiones sobre si la IA puede ayudar plenamente a la evaluación de la investigación, o si tiene el potencial de exacerbar los problemas e incluso crear otros nuevos. 


Evaluaciones de calidad


La calidad de la investigación es difícil de definir, aunque existe un consenso general en que la investigación de buena calidad se sustenta en la honestidad, el rigor, la originalidad y el impacto. Existe una amplia variedad de mecanismos para evaluar estos rasgos, cada uno de los cuales opera en distintos niveles del ecosistema de la investigación. El grueso de la evaluación de la calidad de la investigación tiene lugar en el proceso de revisión por pares, que es, en muchos casos, la primera revisión externa de calidad que se realiza sobre un nuevo trabajo científico. Muchas revistas utilizan desde hace tiempo un conjunto de herramientas de IA para complementar este proceso. Hay IA para emparejar manuscritos con revisores adecuados, algoritmos que detectan el plagio y comprueban si hay fallos estadísticos, y otras herramientas destinadas a reforzar la integridad detectando la manipulación de datos.


Más recientemente, el auge de la IA generativa ha dado lugar a una avalancha de investigaciones dirigidas a explorar hasta qué punto un LLM podría ser capaz de ayudar a la revisión por pares, y si los científicos confiarían en esas herramientas para hacerlo. Algunas editoriales permiten que la IA ayude en la preparación de manuscritos, si se informa adecuadamente, pero no permiten su uso en la revisión por pares. Aun así, los académicos confían cada vez más en la capacidad de estas herramientas, sobre todo las basadas en el procesamiento del lenguaje natural y los LLM. 





Un estudio publicado en julio de este año2 y dirigido por Weixin Liang, estudiante de doctorado de informática en el laboratorio de James Zou, científico de datos biomédicos de la Universidad de Stanford (California), evaluó la capacidad de un LLM, GPT-4, para proporcionar comentarios sobre manuscritos. En el estudio, se pidió a los investigadores que subieran un manuscrito y que su modelo de IA lo evaluara. A continuación, los investigadores completaron una encuesta en la que evaluaban los comentarios y los comparaban con los de los revisores humanos. Recibieron 308 respuestas, y más de la mitad calificaron las revisiones generadas por la IA de «útiles» o «muy útiles». Pero la encuesta reveló algunos problemas: a veces era genérica y no ofrecía reseñas en profundidad. 


Zou cree que esto no excluye necesariamente el uso de tales herramientas en determinadas situaciones. Un ejemplo concreto que menciona es el de los investigadores noveles que trabajan en el primer borrador de un artículo. Podrían subir un borrador a un LLM a medida y recibir comentarios sobre deficiencias o errores en su borrador. Pero dada la naturaleza laboriosa y algo repetitiva de la revisión por pares, a algunos académicos les preocupa que pueda haber una tendencia a apoyarse en los resultados de un sistema de IA generativa capaz de entregar informes. «No hay ningún tipo de gloria o financiación asociada a la revisión por pares. Simplemente se considera un deber científico», afirma Elizabeth Gadd, responsable de cultura y evaluación de la investigación en la Universidad de Loughborough (Reino Unido). Ya hay pruebas de que los revisores utilizan ChatGPT y otros chatbots en cierta medida, a pesar de las normas establecidas por algunos editores de revistas.


Thelwall cree que la IA podría ayudar más a los revisores a evaluar la calidad de la investigación, pero hay motivos para ir despacio. «Necesitamos muchas pruebas», afirma. «Y no sólo pruebas técnicas, sino también pragmáticas, en las que ganemos confianza en que si proporcionamos la IA a los revisores, por ejemplo, éstos no abusarán de ella».


Yadav ve grandes ventajas en la IA como herramienta de ahorro de tiempo y ha estado trabajando con ella para ayudar a evaluar rápidamente las imágenes de la vida salvaje obtenidas con cámaras de campo en la India, pero considera que la revisión por pares es demasiado importante para la comunidad científica como para cederla a los robots. «Personalmente, estoy totalmente en contra de que la revisión por pares la realice la IA», afirma.


Ahorro en calidad


Uno de los beneficios más discutidos del uso de la IA es la idea de que podría liberar tiempo. Esto es especialmente evidente en los sistemas institucionales y nacionales de evaluación de la investigación, algunos de los cuales han incorporado la IA. En Australia, por ejemplo, el Consejo Nacional de Salud e Investigación Médica (NHMRC) ya utiliza la IA a través de «un modelo híbrido que combina técnicas de aprendizaje automático y optimización matemática» para identificar a los revisores humanos adecuados para evaluar las propuestas de subvención. El sistema ayuda a eliminar uno de los cuellos de botella administrativos del proceso de evaluación, pero ahí acaba el uso de la IA. Un portavoz del NHMRC afirma que la agencia «no utiliza inteligencia artificial, en ninguna de sus formas, para ayudar directamente en la evaluación de la calidad de la investigación». 


Sin embargo, incluso el uso de la IA para este tipo de apoyo administrativo podría suponer un importante ahorro de recursos, especialmente en el caso de grandes evaluaciones nacionales como la REF. Según Thelwall, este ejercicio es conocido por la increíble cantidad de tiempo que consume a los investigadores. Más de 1.000 académicos ayudan a evaluar la calidad de la investigación en la REF y tardan alrededor de medio año en hacerlo.


«Si pudiéramos automatizar las evaluaciones», afirma Thelwall, “supondría un enorme aumento de la productividad”. Y el potencial de ahorro es enorme: se calcula que la última edición de la REF, en 2021, costó unos 471 millones de libras (618 millones de dólares). 


Tim Fowler, director ejecutivo de la Comisión de Educación Terciaria del gobierno, ha descrito la evaluación de los investigadores neozelandeses, el Fondo de Investigación Basada en el Rendimiento, como un ejercicio «agotador». En él, los académicos presentan carpetas para su evaluación, lo que supone una carga extrema para ellos y para las instituciones. En abril, el gobierno lo suprimió y se ha encargado a un grupo de trabajo que presente un nuevo plan antes de febrero de 2025.  


Estos ejemplos sugieren el gran potencial de la IA para crear más eficiencia, al menos en los grandes sistemas y procesos burocráticos de evaluación. Al mismo tiempo, la tecnología se está desarrollando a medida que evolucionan y se matizan las perspectivas sobre lo que constituye la calidad de la investigación. «La definición de la calidad de la investigación a principios del siglo XX no es la misma que ahora», afirma Marnie Hughes-Warrington, Vicerrectora Adjunta de Investigación y Empresa de la Universidad de Australia Meridional, en Adelaida. Hughes-Warrington es miembro del grupo de transición Excellence in Research Australia, que estudia el futuro del ejercicio de evaluación del país después de que una revisión realizada en 2021 concluyera que suponía una carga importante para las universidades. Hughes-Warrington afirma que la comunidad investigadora reconoce cada vez más la necesidad de evaluar más «resultados de investigación no tradicionales», como documentos políticos, obras creativas o exposiciones, y de ir más allá hasta llegar a las repercusiones sociales y económicas. 


Dado que las conversaciones se producen paralelamente al auge de la IA, tiene sentido que las nuevas herramientas puedan encajar en los métodos revisados de evaluación de la calidad de la investigación. Por ejemplo, Hughes-Warrington señala cómo ya se utiliza la IA para detectar la manipulación de imágenes en revistas o para sintetizar datos de sistemas utilizados para identificar de forma exclusiva a investigadores y documentos. Aplicar este tipo de métodos sería coherente con la misión de instituciones como universidades y organismos nacionales. «¿Por qué las organizaciones, movidas por la curiosidad y la investigación, no aplicarían nuevas formas de hacer las cosas?», afirma. 


Sin embargo, Hughes-Warrington también destaca dónde la incorporación de la IA encontrará resistencia. Hay que tener en cuenta la privacidad, los derechos de autor y la seguridad de los datos, superar los sesgos inherentes a las herramientas y tener en cuenta el contexto en el que se llevan a cabo las evaluaciones de la investigación, como las diferencias de impacto entre disciplinas, instituciones y países. 


Gadd no está en contra de la incorporación de la IA y afirma que cada vez aparece con más frecuencia en los debates sobre la calidad de la investigación. Pero advierte de que los investigadores ya son una de las profesiones más evaluadas del mundo. «Mi opinión general al respecto es que evaluamos demasiado», afirma. «¿Estamos pensando en utilizar la IA para resolver un problema que es de nuestra propia cosecha?».


Después de ver cómo las evaluaciones basadas en la bibliometría pueden dañar el sector, con métricas como los factores de impacto de las revistas mal utilizados como sustituto de la calidad y que han demostrado obstaculizar a los investigadores noveles y la diversidad, Gadd está preocupada por cómo podría aplicarse la IA, especialmente si los modelos se entrenan con estas mismas métricas. También afirma que las decisiones que implican la asignación de ascensos, financiación u otras recompensas siempre necesitarán la participación humana en mucha mayor medida. «Hay que ser muy cauteloso», afirma, a la hora de pasar a la tecnología “para tomar decisiones que van a afectar a vidas humanas”.


****************************

  • NATURE INDEX

  • 18 September 2024

Can AI be used to assess research quality?


Chatbots and other tools are increasingly being considered, but people power is still seen as a safer option.

Do squirrel surgeons generate more citation impact? The question seems ludicrous, or perhaps the start of a bad joke. But the question, posed by data scientist, Mike Thelwall, was not a joke. It was a test. Thelwall, who works at the University of Sheffield, UK, had been assessing the ability of large language models (LLMs) to evaluate academic papers against the criteria of the research excellence framework (REF), the United Kingdom’s national audit of research quality. After giving a custom version of ChatGPT the REF’s criteria, he fed 51 of his own research works into the model and was surprised by the chatbot’s capability to produce plausible reports. “There’s nothing in the reports themselves to say that it’s not written by a human expert,” he says. “That’s an astonishing achievement.”  

However, the squirrel paper really threw the model. Thelwall had created the paper by taking one of his own rejected manuscripts on whether male surgeons generate more citation impacts than female surgeons, and to make it nonsensical he replaced ‘male’ with ‘squirrel’, ‘female’ with ‘human’ and any references to gender he switched to ‘species’ throughout the paper. His ChatGPT model could not determine that ‘squirrel surgeons’ were not a real thing during evaluation and the chatbot scored the paper highly.

Thelwall also found that the model was not particularly successful at applying a score based on REF guidelines to the 51 papers that were assessed. He concluded that as much as the model could produce authentic-sounding reports, it wasn’t capable of evaluating quality.  

The rapid rise of generative artificial intelligence (AI) such as ChatGPT and image generators such as DALL-E has led to increasing discussion about where AI might fit into research evaluation. Thelwall’s study1, published in May, is just one piece of a puzzle that academics, research institutions and funders are trying to piece together. It comes as researchers also grapple with the many other ways that AI is affecting science and the developing guidelines that are springing up around its use. These discussions, however, have rarely focused on providing a steer on how AI might be used in assessing research quality. “That is the next frontier,” says Gitanjali Yadav, a structural biologist at India’s National Institute of Plant Genome Research in New Delhi, and member of the AI working group at the Coalition for Advancing Research Assessment, a global initiative to improve research assessment practice.

Notably, the AI boom also coincides with growing calls to rethink how research outputs are evaluated. Over the past decade, there have been calls to move away from publication-based metrics such as journal impact factors and citation counts, which have shown to be prone to manipulation and bias. Integrating AI into this process at such a time provides an opportunity to incorporate it in new mechanisms for understanding, and measuring, the quality and impact of research. But it also raises important questions about whether AI can fully aid research evaluation, or whether it has the potential to exacerbate issues and even create further problems.  

Quality assessments

Research quality is difficult to define, although there is a general consensus that good quality research is underpinned by honesty, rigour, originality and impact. There’s a wide variety of mechanisms, each operating at different levels of the research ecosystem, to assess these traits, and myriad ways to do so. The bulk of research-quality assessment happens in the peer-review process, which is, in many cases, the first external quality review performed on a new piece of science. Many journals have been using a suite of AI tools to supplement this process for some time. There’s AI to match manuscripts with suitable reviewers, algorithms that detect plagiarism and check for statistical flaws, and other tools aimed at strengthening integrity by catching data manipulation.   

More recently, the rise of generative AI has seen a rush of research aimed at exploring how well an LLM might be able to aid peer review — and whether scientists would trust those tools to do so. Some publishers allow AI to assist in manuscript preparation, if adequately disclosed, but do not allow its use in peer review. Even so, there’s a growing belief among academics in the ability of these tools, particularly those based on natural language processing and LLMs.  



Five proportion bars showing the responses to a survey of researchers who used an AI tool to generate feedback on research manuscripts.

Source: Ref. 2

A study published in July this year2, led by computer science PhD student, Weixin Liang, in the lab of biomedical data scientist, James Zou, at Stanford University in California, assessed the capability of one LLM, GPT-4, to provide feedback on manuscripts. The study asked researchers to upload a manuscript and have it assessed by their AI model. Researchers then completed a survey evaluating the feedback and how it compared with human reviewers. It received 308 responses, with more than half describing the AI-generated reviews as “helpful” or “very helpful”. But the study did highlight some problems with that feedback: it was sometimes generic and struggled to provide in-depth critiques.   

Zou thinks this doesn’t necessarily preclude the use of such tools in certain situations. One particular example he mentions is early-career researchers working on the first draft of a paper. They could upload a draft to a bespoke LLM and receive commentary about deficiencies or errors in their draft. But given the laborious and somewhat repetitive nature of peer review, some academics worry that there could be a tendency to lean on the outputs from a generative AI system capable of delivering reports. “There’s no kind of glory or funding associated with peer review. It’s just seen as a scientific duty,” says Elizabeth Gadd, head of research culture and assessment at Loughborough University, UK. There is already evidence that peer reviewers are using ChatGPT and other chatbots to some extent, despite the rules put in place by some journal publishers.

Thelwall believes there’s more that AI could do in helping peer reviewers to evaluate research quality, but there is reason to move slowly. “We just need lots of testing,” he says. “And not just technical testing, but also pragmatic testing, where we gain confidence that if we provide the AI to the reviewers, for example, that they won’t abuse it.”

Yadav sees great benefit in AI as a time-saving tool and has been working with it to help rapidly assess wildlife imagery from field-based cameras in India, but she sees peer review as too important to the scientific community to hand over to the bots. “I’m personally absolutely against peer review being done by AI,” she says.

Quality savings

One of the most discussed benefits of using AI is the idea that it could free up time. This is particularly apparent in institutional and national systems of evaluating research — some of which have incorporated AI. For instance, one funder in Australia, the National Health and Medical Research Council (NHMRC), already uses AI through “a hybrid model combining machine learning and mathematical optimisation techniques” to identify suitable human peer reviewers to judge grant proposals. The system helps to remove one of the administrative bottlenecks in the evaluation process, but it’s where the AI use ends. An NHMRC spokesperson says the agency “does not use artificial intelligence, in any form, to directly assist with research quality evaluation” itself.  

Even using AI for such administrative support could be a major resource saving, however, especially for large national assessments such as the REF. Thelwall says the exercise is known for its incredible drain on researchers’ time. More than 1,000 academics help to assess research quality in the REF and it takes them about half a year to get it done.

“If we can automate evaluations”, says Thelwall, then “it would be a massive productivity boost”. And there’s potential for huge savings: the most recent REF, in 2021, was estimated to have cost around £471 million (US$618 million).  

Similarly, New Zealand’s assessment of researchers, the Performance Based Research Fund, has previously been described by Tim Fowler, chief executive of the government’s Tertiary Education Commission, as a “backbreaking” exercise. In it, academics submit portfolios for assessment, placing an extreme burden on them and institutions. In April, the government scrapped it and a working group has been charged with delivering a new plan by February 2025.

These examples suggest AI’s major potential to create more efficiency, at least for large, bureaucratic, assessment systems and processes. At the same time, the technology is developing as perspectives on what constitutes research quality are evolving and becoming more nuanced. “How you might have defined research quality in the early twentieth century is not how you define it now,” says Marnie Hughes-Warrington, deputy vice-chancellor of research and enterprise at the University of South Australia in Adelaide. Hughes-Warrington is a member of the Excellence in Research Australia transition group, which is considering the future of the country’s assessment exercise after a review in 2021 found that it placed a significant burden on universities. She says the research community is increasingly recognizing the need to assess more “non-traditional research outputs” — such as policy documents, creative works, exhibitions — and then beyond to social and economic impacts.  

As the conversations are happening alongside the AI boom, it makes sense that new tools could fit into revised methods of research-quality evaluation. For instance, Hughes-Warrington points to how AI is already being used to detect image manipulation in journals or to synthesize data from systems used to uniquely identify researchers and documents. Applying these kinds of methods would be consistent with the mission of institutions such as universities and national bodies. “Why wouldn’t organizations, driven by curiosity and research, implement new ways of doing things?” she says.

However, Hughes-Warrington also highlights where incorporating AI will meet resistance. There’s privacy, copyright and data-security concerns to acknowledge, inherent biases in the tools to overcome and a need to consider the context in which research assessments take place, such as how impacts will differ across disciplines, institutions and countries.  

Gadd isn’t against incorporating AI and says she is noticing it appear more often in discussions around research quality. But she warns that researchers are already one of the most assessed professions in the world. “My own general view on this is that we assess too much,” she said. “Are we looking at using AI to solve a problem that’s of our own making?”

Having seen how bibliometrics-based assessments can damage the sector, with metrics such as journal impact factors misused as a substitute for quality and shown to hinder early-career researchers and diversity, Gadd is concerned about how AI might be implemented, especially if models are trained on these same metrics. She also says decisions involving allocation of promotions, funding or other rewards will always need human involvement to a far greater extent. “You have to be very cautious”, she says, about shifting to technology “to make decisions which are going to affect lives”.  

Gadd has worked extensively in developing SCOPE, a framework for responsible research evaluation by the International Network of Research Management Societies, a global organization that brings research management societies together to coordinate activities and share knowledge in the field. She says one of the key principles of the scheme is to “evaluate only where necessary” and, in that perhaps, there is a lesson for how we should think about incorporating AI. “If we evaluated less, we could do it to a higher standard,” she says. “Maybe” AI can support that process, but a “lot of the arguments and worries we’re having about AI, we had about bibliometrics.”

Nature 633, S18-S20 (2024)

doi: https://doi.org/10.1038/d41586-024-02989-z

This article is part of Nature Index 2024 Artificial intelligence, an editorially independent supplement. Advertisers have no influence over the content. For more information about Nature Index, see the homepage.

References
  1. Thelwall, M. J. Data Inform. Sci. 9, 1–21 (2024).
    Article  Google Scholar 

  2. Liang, W. et al. NEJM AI https://doi.org/10.1056/AIoa2400196 (2024).
    Article  Google Scholar 

Download references


No hay comentarios:

Publicar un comentario

U.S.A.: la Universidad de Columbia capitula

  Publicado en  sinpermiso https://sinpermiso.info/textos/la-universidad-de-columbia-capitula-dossier La Universidad de Columbia capitula. D...