jueves, 23 de enero de 2025

¿Es la IA la respuesta a los problemas de la revisión por pares, o el problema en sí mismo?

Publicado en The Scholarly Kitchen

https://scholarlykitchen.sspnet.org/2024/09/24/guest-post-is-ai-the-answer-to-peer-review-problems-or-the-problem-itself/


Guest Post - ¿Es la IA la respuesta a los problemas de la revisión por pares, o el problema en sí mismo?

Por Christopher Leonard

24 de septiembre de 2024


Nota del editor: El artículo de hoy es de Christopher Leonard. Chris trabaja en Cactus Communications como Director de Soluciones de Producto.


La revisión por pares, un proceso popularizado durante la expansión de la publicación de revistas académicas en la posguerra, está luchando por mantenerse al día con el enorme volumen de investigación que publicamos hoy en día. Un proceso que a finales de la década de 1950 funcionaba para conseguir que dos o tres colegas debidamente cualificados emitieran un juicio y sugirieran mejoras sobre una producción mundial de 100.000 artículos, ahora, como era de esperar, tiene dificultades, ya que hemos superado la barrera de los cinco millones de artículos anuales publicados.

Y no son solo los revisores los que tienen problemas con todas estas invitaciones y demandas de su tiempo. Una rápida búsqueda en Twitter/X revela que muchos editores se lamentan de haber enviado más de 20 invitaciones a revisores y no haber recibido ninguna aceptación, lo que significa un rechazo a regañadientes tras muchas semanas de espera para el desafortunado autor.

¿Cómo hemos llegado hasta aquí? Bueno, el sistema actual de utilizar las publicaciones para adjudicar la promoción profesional es sin duda una parte del problema - pero vamos a dejar la revolución en ese campo para otro post y otro día. La ampliación del grupo de revisores es otro remedio sencillo que podríamos aplicar (por ejemplo, flexibilizar los criterios sobre las cualificaciones que debe tener un revisor, además de formar e invitar a una gama más amplia de revisores), pero eso sólo funcionaría de forma limitada y durante un tiempo limitado.

Dado que vivimos en la era de la inteligencia artificial, no cabe duda de que hay una forma de utilizar las diversas herramientas de que disponemos para acelerar el proceso de revisión por pares y, de paso, resolver algunos de los problemas relacionados con la parcialidad y la calidad. El lenguaje y el procesamiento de textos es lo que mejor hace la actual gama de grandes modelos lingüísticos, así que ¿es buena idea incluir los LLM (Large Language Models) en el proceso de revisión por pares? ¿Recuperarían así los investigadores parte de los 15.000 años-persona que se calcula que dedican al año a la revisión por pares para poder dedicarse más a la investigación?

Para responder a esta pregunta, primero voy a dar un paso atrás y definir lo que entendemos por revisión por pares. Puede interpretarse de muchas maneras, pero a efectos de este análisis, defino la revisión por pares como una de las partes finales del proceso de calidad y validación de los manuscritos de investigación académica. Una lista parcial de áreas en las que es posible aumentar la calidad de un manuscrito académico incluye:


  1. Generación de ideas

  2. Experimentación y redacción de un artículo

  3. Presentación a una revista

  4. Evaluación de la integridad de la investigación

  5. Informes de revisión por pares

  6. Revisión posterior a la publicación


He desglosado así el proceso por dos razones. En primer lugar, muestra que incluso antes de llegar a la generación formal de informes de revisión por pares, hay muchas otras oportunidades para aumentar la calidad del artículo, de modo que no estamos enviando basura a los revisores, sino más bien presentaciones de alta calidad que merecen su valioso tiempo. En segundo lugar, a medida que pasamos de los puntos 1 a 6, se observa una tendencia dual en la que la utilidad de la IA es fuerte y disminuye a medida que aumenta la necesidad de la intervención humana.




Si me perdonas las generalizaciones y las libertades que me he tomado con el proceso, ahora tenemos un marco para debatir dónde puede ser útil la IA hoy, antes de debatir dónde podría ser útil mañana.


Utilización de la IA en la actualidad


  1. Generación de ideas. Cualquiera que haya pasado algún tiempo jugando con ChatGPT será consciente de su capacidad para asociar dos ideas de varias maneras interesantes, como se demuestra en la siguiente captura de pantalla



Pedir a ChatGPT4o que conecte dos conceptos dispares.


Ésta y otras LLM son herramientas que pueden utilizar los investigadores que buscan un nuevo ángulo para un problema de investigación. Media hora en ChatGPT puede dar lugar a muchas sugerencias y, aunque probablemente no deberían utilizarse por sí solas, son útiles para desencadenar ideas que permitan salir de un callejón sin salida o tomar nuevas direcciones de investigación. Más ideas conducen a mejores ideas y a mejores artículos.


  1. Experimentación y redacción. Aunque el concepto de utilizar la IA para la experimentación puede estar todavía muy lejos (aunque Sakana AI está demostrando que el tiempo puede no estar muy lejos), la inteligencia artificial puede ayudar en la fase de redacción. Escribir un artículo académico es difícil para los hablantes nativos de inglés; para la mayoría de los investigadores del mundo, para quienes el inglés es una segunda lengua, es aún más difícil. Hay muchas herramientas disponibles para ayudar a los autores a mejorar su lenguaje, gramática y otros aspectos de sus comunicaciones escritas, durante el proceso de autoría. Herramientas como Paperpal para Word incluso se sitúan junto al manuscrito y ofrecen ayuda en contexto. Escribir mejor conduce a escribir mejor.  


  1. Envío a la revista. En el momento de presentar un manuscrito, se realizan una serie de comprobaciones para asegurarse de que cumple todos los criterios necesarios. La información sobre la extensión del título, las autocitas, la presencia de declaraciones de financiación y si todas las figuras y tablas están citadas en el texto son tareas mundanas en las que AI destaca ampliamente y de las que los revisores pueden liberarse fácilmente, lo que les permite centrarse en el contenido del artículo.


  1. Integridad de la investigación. La evaluación de los artículos en relación con una serie de cuestiones de integridad de la investigación se ha convertido en un gran problema (en parte gracias a la propia IA, por supuesto). Pero, de nuevo, muchas comprobaciones de los trabajos de investigación pueden automatizarse, por ejemplo, para determinar cárteles de citas, posibles ventas de autoría, manipulación de cifras y plagio a la antigua usanza. Aunque existen muchos servicios para detectar posibles problemas, no estamos en el punto en el que la IA pueda determinar definitivamente la existencia de un problema de integridad en la investigación. Aquí se requiere la intervención humana para analizar cada bandera roja y emitir un juicio sobre si se trata de un problema grave que requiere un rechazo de escritorio, o una infracción menor que puede ser ignorada o abordada con una revisión.


  1. Revisión por pares. Todos estos pasos muestran cómo la IA puede ayudar a mejorar el contenido y la estructura de los artículos *antes* de que lleguen a la fase de revisión por pares. Esta es la etapa en la que el uso de la IA se vuelve más controvertido, y la abordo a continuación.


  1. Revisión por pares posterior a la publicación. Si todo lo demás ha ido bien, esto no debería ser necesario y, dado que la IA ha hecho todo lo que ha podido hasta este punto, cualquier cosa que quede pendiente sólo podrá ser encontrada por expertos humanos. Se trata de una comprobación importante, aunque esperemos que poco necesaria, de todo el proceso.  



Generación de informes de revisión por pares en la actualidad


Como espero haber ilustrado, el uso de la IA en la revisión por pares se sitúa en el punto en el que la IA es útil, pero la supervisión humana sigue siendo necesaria. Si se introduce un manuscrito en la mayoría de los LLM más populares de hoy en día y se dice «escriba un informe de revisión por pares de este manuscrito», se obtendrá algo parecido a un informe de revisión por pares: un resumen del artículo, algunos de sus puntos fuertes, algunos puntos débiles/áreas de mejora y una recomendación general sobre si aceptar/revisiones menores/revisiones mayores/rechazar. 

Sorprendente.

Pero si rascamos bajo la superficie, no todo es lo que parece. El manuscrito se evalúa como una entidad en sí misma - hay poca o ninguna comparación con la literatura anterior, hay poca o ninguna evaluación de la novedad, las referencias sugeridas son propensas a las alucinaciones, y hay una tendencia deprimente a calificar todo como una revisión menor. 

PERO, hay *algo* ahí. Los LLM tienen la capacidad de detectar problemas que los revisores humanos a veces pasan por alto. Los LLM no se obsesionan con un aspecto del artículo y vuelven a él una y otra vez, y son rápidos. El mejor uso actual de los LLM en la revisión por pares podría ser su utilización por parte del editor para cotejar los informes de revisión por pares humanos y asegurarse de que no se ha pasado nada por alto o se ha restado importancia antes de consultar con el revisor. Para ello se necesitan indicaciones más inteligentes que «escriba un informe de revisión por pares», pero no deja de ser una forma sencilla de comprobar las revisiones antes de devolvérselas al autor. En este sentido, nos encontramos en la Fase 4 de la transición de 5 fases para acabar con la dependencia de los humanos para la revisión por pares.

Generar un informe LLM y pedir a un revisor que lo edite es un enfoque más arriesgado. Es probable que el revisor acepte cualquier cosa que el LLM haya generado en lugar de ser suficientemente crítico. Una mezcla de revisiones humanas y controles de IA parece, por tanto, la mejor manera de incorporar la IA a la revisión por pares en la actualidad.


Generación de informes de revisión inter pares mañana

¿Adónde nos lleva todo esto? Predecir el futuro es un juego de tontos, pero ya que me han pedido que escriba esto, ahí va:

Es probable que las objeciones al uso de la IA para crear un informe de revisión por pares desaparezcan en el próximo año. Las preocupaciones sobre la privacidad (en torno al trabajo no publicado que se utiliza para entrenar el modelo, y que potencialmente aparece en las respuestas) ya se pueden abordar con el uso de API o el uso juicioso de LLM. Es probable que el conocimiento de la bibliografía anterior y las medidas de novedad se resuelvan con grafos de conocimiento y la próxima generación de LLM. Es muy posible que ChatGPT 5 y Claude 4 nos sorprendan por cuestiones de contenido y estructura del mismo modo que lo hizo ChatGPT3 a finales de 2022. Dado que sólo llevamos dos años de revolución de los LLM, merece la pena imaginarse lo que nos depararán los próximos cinco años. 

Estamos en un futuro lejano, en el año 2026. Seguimos animando a los autores a que escriban ellos mismos los manuscritos, no a que utilicen la función de «artículo instantáneo» de Claude 4 (en mi imaginación) para convertir los datos en un manuscrito. Una vez escrito el artículo, puede ser analizado por el bot (todavía imaginario) ChatGPT5 Peer Reviewer, que no sólo relaciona la investigación con artículos anteriores (evaluando la novedad y proporcionando las referencias que falten cuando sea necesario), sino que también pule el lenguaje, la estructura, las tablas y las figuras para que se ajusten al nivel que se podría ver en The Lancet o Nature hoy en día. Un gran artículo (o tan bueno como permitan los datos) ya está listo para su presentación. ¿Y después?

¿Lo enviarán a una revista que cobra $x000 por un APC? ¿O lo enviarán a un servidor de preimpresos que lleva incorporada la funcionalidad de crear tres informes de revisión por pares para cada envío de forma instantánea, asignar una puntuación a cada revisión y publicar el artículo, la puntuación y las revisiones? Los lectores pueden incluso generar su propio informe para destacar sus propias áreas de interés y la relación del artículo con su propio trabajo. 

Entonces, ¿qué papel desempeñan las revistas en este escenario? Tenemos un poco de tiempo para averiguarlo, pero probablemente no tanto como crees.


Christopher Leonard

Chris Leonard lleva 25 años trabajando en el ámbito de las comunicaciones académicas y sigue aprendiendo. Actualmente trabaja en Cactus Communications como Director de Soluciones de Producto, y tiene un interés muy específico en la revisión por pares y la IA. Dirige el boletín Scalene, que documenta la naturaleza cambiante de las interacciones entre los seres humanos, el proceso de revisión por pares y la IA.



************************************************************



    Guest Post — Is AI the Answer to Peer Review Problems, or the Problem Itself?

 

Editor’s Note: Today’s post is by Christopher Leonard. Chris works at Cactus Communications as Director of Product Solutions.

Peer review, a process popularized during the post-war expansion of academic journals publishing, is struggling to keep up with the sheer volume of research we publish today. A process that worked for getting two or three suitably qualified peers to pass judgement and suggest improvements on a worldwide output of 100,000 papers in the late 1950s is, unsurprisingly, struggling as we have now surpassed the five million annual published papers mark.

Given that each paper is typically reviewed by at least two reviewers (and more for papers that are rejected and resubmitted elsewhere), then each and every one of the estimated eight to nine million active researchers in the world could be expected to provide at least one peer review report each year. Which sounds manageable, but of course only a fraction of all researchers are asked to review, compounding the problem on the shoulders of active reviewers who get invitations to review every few weeks (if not every few days). This is not only unfair to those reviewers, but inequitable in terms of the lack of opportunity for those who are not invited. 

And it’s not just reviewers who are struggling with all these invitations and demands on their time. A quick trawl on Twitter/X reveals many publishing editors bemoaning the fact that they’ve sent out 20+ reviewer invitations and not had any acceptances, meaning a reluctant desk rejection after many weeks of waiting for the unlucky author.

How did we get here? Well, the current system of using publications to adjudicate career advancement is certainly a part of the problem — but let’s save revolution in that arena for another post and another day. Expansion of the reviewer pool is another simple remedy that we could apply (e.g., relaxing the criteria for what qualifications a peer reviewer must have, plus training and inviting a wider range of reviewers), but that would only work in a limited way and for a limited time.  

Since we’re living in the age of AI, surely there is a way to use the various tools at our disposal to speed up the peer review process — and, while we’re at it, to address some of the other problems around bias and quality. Language and text processing are what the current range of large language models do best, so is it a good idea to include LLMs (Large Language Models) in the peer review process? Would doing so also give researchers back some of the estimated 15 thousand person years per year spent on peer review so they can do more actual research?

In order to answer that question, I’m first going to take a step back and define what we mean by peer review. It can be construed in many ways, but for the purposes of this analysis, I’m defining peer review as one of the final parts of the quality and validation process for academic research manuscripts. A partial list of areas where it is possible to increase quality of an academic manuscript includes:   

  1. Idea generation

  2. Experimentation and writing a paper

  3. Submission to a journal

  4. Research integrity evaluation

  5. Peer review reports

  6. Post-publication review

I’ve broken the process down like this for two reasons. First, it shows that even before we get to formal peer review report generation, there are many other opportunities to increase the quality of the paper, so that we’re not sending junk out to reviewers, but rather high-quality submissions that deserve their valuable time. Second, as we move from items 1 to 6, there is a dual trend where the usefulness of AI is strong and tails off as the necessity for human input increases.

Diagram showing increasing and decreasing value of AI in the research workflow

If you’ll forgive the generalizations and liberties I’ve taken with the process, we now have a framework for discussing where AI can be useful today, before we discuss where it might be useful tomorrow.

Using AI Today

  1. Idea generation. Anyone who has spent some time playing with ChatGPT will be aware of its capability for associating two ideas in a number of interesting ways, as demonstrated in the screenshot below.  

Text of ChatGPT output showing suggestionsAsking ChatGPT4o to connect two disparate concepts.

This, and other LLMs, are tools that can be used by researchers looking for a new angle on a research problem. Half an hour spent on ChatGPT could spawn many suggestions, and although they probably shouldn’t be used on their own, they are helpful for triggering thoughts for getting out of a dead end, or for new research directions. More ideas hopefully lead to better ideas, and better resulting papers.

  1. Experimentation and writing. While the concept of using AI for experimentation may still be some way off (although Sakana AI are showing that time may not be far away), artificial intelligence can help with the writing stage. Authoring an academic paper is hard for native English speakers; for the majority of the world’s researchers, for whom English is a second language, it’s even harder. Many tools are available to help authors improve their language, grammar, and other aspects of their written communications, during the authoring process. Tools like Paperpal for Word even sit alongside the manuscript and give in context help. Better writing leads to better papers.  

  2. Journal submission. At the point of submitting a manuscript, a variety of checks are performed to ensure the manuscript fulfils all of the criteria for a full submission. Information about length of title, self-citations, presence of funding statements, and whether all figures and tables are cited in the text are mundane tasks that AI largely excels at and peer reviewers can be easily relieved of, allowing them to focus on the content of the paper.

  3. Research integrity. Evaluating papers for a range of research integrity issues has become a big problem (partly thanks to AI itself, of course). But again, many checks on research papers can be automated — for example, to determine citation cartels, possible authorship sales, figure manipulation, and good old-fashioned plagiarism. While many services exist to flag potential problems, we’re not at the point where AI can definitively determine the existence of a research integrity problem. Human intervention is required here to analyze each red flag and pass judgement on whether this is a serious problem which requires a desk reject, or a minor infringement that can be ignored or addressed with a revision.  

  4. Peer review. All of the steps outlined above show how AI can help improve the content and structure of papers *before* they even reach the peer review stage. This is the stage where the use of AI becomes more controversial, and I address it below.

  5. Post-publication peer review. If everything else has gone well, this shouldn’t be necessary — and, given that AI has done all it can to this point, anything which remains can only be found by human experts. This is an important, but hopefully infrequently needed, check on the whole process.  

Peer review report generation today

As I hope I have illustrated, the use of AI in peer review sits at the points where AI is useful, but human oversight is still a requirement. If you feed a manuscript into most of the popular LLMs today and say ‘write a peer review report of this manuscript’ it will return something which looks like a peer review report: a summary of the paper, some of its strengths, some weaknesses/areas for improvement, and an overall recommendation about whether to accept/minor revisions/major revisions/reject. Amazing!

But scratch beneath the surface, and all is not as it seems. The manuscript is evaluated as an entity in itself — there is little or no comparison with previous literature, there is little or no evaluation of novelty, suggested references are prone to hallucinations, and there is a depressing tendency to rate everything as a minor revision. 

BUT, there is *something* there. LLMs have an ability to spot problems human reviewers sometimes miss or gloss over. LLMs don’t get fixated on one aspect of the paper and keep coming back to it, and LLMs are quick. The best use of LLMs in peer review today could be their use by the editor to cross-check human peer review reports and make sure nothing has been missed or downplayed before querying with the reviewer. This requires smarter prompting than just ‘write a peer review report’, but is still a simple way to check the reviews before they are returned to the author. In this sense we are kind of at Phase 4 in the 5-phase transition to ending dependence on humans for peer review.

Generating an LLM report and asking a reviewer to edit it is a more risky approach. The reviewer is likely to accept whatever the LLM has generated rather than being sufficiently critical. A mix of human reviews and AI checks therefore seems the best way to incorporate AI into peer review today.   

Peer review report generation tomorrow

Where is this all leading? Predicting the future is a fool’s game, but since I was asked to write this, here goes:

The objections to using AI alone to create a peer review report are likely to disappear over the next year or so. Privacy concerns (around the unpublished work being used to train the model, and potentially appearing in answers) can already be addressed with use of APIs or judicious use of LLMs. Knowledge of the previous literature and measures of novelty are likely to be solved with knowledge graphs and the next generation of LLMs. ChatGPT 5 and Claude 4 may well amaze us for content and structure issues in the way ChatGPT3 did at the end of 2022. Given that we are only two years into the LLM revolution, what the next five years have in store is worth playing out in your head.  

It is the distant future — the year 2026. We are still encouraging authors to write manuscripts themselves, not to use the ‘instant article’ feature in Claude 4 (in my imagination) to turn data into a manuscript. Once they have written their paper, it can be analyzed using the (still imaginary) ChatGPT5 Peer Reviewer bot, which not only links the research to previous papers (assessing novelty and providing missing references where necessary), but also polishes the language, structure, tables, and figures so that they match the standard you might see in The Lancet or Nature today. One great paper (or as good as the data allows) is now ready for submission. Then what?

Will they submit it to a journal that charges $x000 for an APC? Or will they submit to a preprint server which has inbuilt functionality to create three peer review reports for each submission instantly, assign a score to each review, and publish the paper, score, and reviews? Heck, readers can even generate their own report to highlight their own areas of interest and how the article relates to their own work.  

So, what role is there for journals in this scenario? We have a little time to figure that out, but probably not as much time as you think.

Christopher Leonard

Chris Leonard has worked in scholarly communications for 25 years and is still learning. He currently works at Cactus Communications as Director of Product Solutions, and has a very specific interest in peer review and AI. He runs the Scalene newsletter, which documents the changing nature of interactions between humans, the peer review process, and AI.

**********

No hay comentarios:

Publicar un comentario

Google presenta una IA cocientífica

Publicado en  La Jornada https://www.jornada.com.mx/noticia/2025/02/20/ciencia-y-tecnologia/google-presenta-una-ia-cocientifica-5676 Google ...