Boletín SciELO-México: Lecciones de los 30 años de arXiv compartiendo información

martes, 24 de agosto de 2021

Lecciones de los 30 años de arXiv compartiendo información

Publicado en Nature
https://www.nature.com/articles/s42254-021-00360-z

Lecciones de los 30 años de arXiv compartiendo información

Paul Ginsparg

Desde el lanzamiento de arXiv hace 30 años, los modos de difusión de la información en la sociedad han cambiado drásticamente, y no siempre para mejor. Paul Ginsparg, fundador de arXiv, analiza cómo la experiencia académica con los preprints en línea puede seguir informando sobre el intercambio de información en general.

Hace treinta años, cuando se lanzó arXiv, muchos se sentían optimistas sobre el potencial de Internet para fomentar una ciudadanía mejor informada y nivelar el campo de juego entre los que tienen y los que no tienen información. Con nuevas plataformas como arXiv, el mundo académico abrió el camino. Pero ahora, esos ideales originales parecen esquivos, con una polarización política tan exacerbada por las cámaras de eco de la información que ya ni siquiera hay acuerdo sobre lo que constituye una evidencia objetiva. Con lo que está en juego, tal vez en el mundo académico podamos retomar el liderazgo que teníamos hace 30 años y restaurar algunas de esas expectativas, modelando cómo se puede compartir la información de forma responsable y productiva.

En sus primeros años, arXiv había implementado formas de control de calidad tanto higiénicas como relacionadas con el contenido, estas últimas se volvieron cada vez más importantes a medida que aumentaba la visibilidad de arXiv para el público en general (véase el Cuadro 1 para más información sobre la historia de arXiv). En este contexto, el término "higiénico" se refiere a los aspectos superficiales -el texto debe ser extraíble; las referencias, los autores y el resumen deben estar incluidos; no debe haber números de línea o marcas de agua que distraigan, etc.-, controles que pueden automatizarse directamente. En cuanto al contenido, arXiv aplicó en sus inicios una forma de control de calidad mínimo, empleando a un grupo de científicos en activo para que echaran un vistazo a los envíos entrantes (normalmente basándose sólo en el título y el resumen) y juzgaran rápidamente sólo si tenían un interés plausible para la comunidad investigadora a la que iban dirigidos. Esta supervisión tenía por objeto proteger a los lectores de contenidos fuera de tema y mantener la coherencia con las normas académicas mínimas. También preveía el riesgo siempre presente de que elementos nefastos no actuaran necesariamente en el mejor interés de la sociedad, un riesgo que en años posteriores quizá no fue tomado suficientemente en serio por las empresas de medios sociales, como demuestran los daños sociales de alto riesgo facilitados por la desinformación que fluye libremente.

Pero arXiv funciona con un trabajo diario implacable, por lo que en los últimos años la moderación humana se ha complementado con un marco de aprendizaje automático que he creado para marcar y retener los envíos potencialmente problemáticos para un examen humano adicional1. Los procesos automatizados no se toman vacaciones, ni se enferman, ni se distraen, ni están demasiado ocupados, y pueden evaluar exhaustivamente el contenido del texto completo, incluyendo la comprobación de cada nuevo envío entrante con toda la base de datos posterior para detectar duplicaciones o solapamientos excesivos de texto, en milisegundos. Gran parte del esfuerzo humano interno se dirige ahora a mediar y adjudicar los diversos descuidos humanos y robóticos a escala.

De los peligros para la salud a los salvavidas

A pesar de las primeras dudas de que la distribución de preimpresos fuera relevante fuera de la física de altas energías, su historia ha sido un crecimiento continuo en nuevos campos, catalizado por picos ocasionales. Por ejemplo, el interés centrado en los superconductores de diboruro de magnesio en 2001, y más tarde en los superconductores de pnicídeo de hierro a partir de 2008, llevó a las comunidades experimentales asociadas a utilizar arXiv para informar de resultados novedosos y reclamar precedentes. Más recientemente, la comunidad de aprendizaje automático adoptó arXiv en masa alrededor de 2015. Estos investigadores siguen siendo usuarios dedicados; hasta ahora, ninguna comunidad que haya adoptado arXiv para la difusión rápida lo ha abandonado.

Pero tal vez el aumento del uso de preprints más relevante para las cuestiones relativas al intercambio de información en la sociedad en general sea el crecimiento de bioRxiv y medRxiv desencadenado por la pandemia de COVID-19. Estos servidores de preimpresos albergaron más de 10.000 artículos en el primer año de la pandemia2 (datos de bioRxiv; datos de medRxiv), y este crecimiento puede convertirse en un punto de inflexión para otros ámbitos de investigación. Resulta instructivo recordar un editorial de 1995 del New England Journal of Medicine sobre los preprints, en el que se expresaba una legítima preocupación por la salud pública, dado que "gran parte de la información sobre cuestiones de salud en Internet, como los riesgos de los medicamentos y los efectos de diversos alimentos en la salud, es de origen incierto "3. Aunque la experiencia reciente podría parecer que refuerza esas preocupaciones, yo diría que las pruebas hasta ahora sugieren que la distribución abierta de preprints no es una fuente de problemas actuales y que, en muchos casos, puede ayudar a mitigarlos.

Los envíos relacionados con COVID-19 a bioRxiv y medRxiv no han dado lugar a grandes riesgos para la salud pública (aunque, sin duda, estos recursos están sujetos a una revisión más estricta4 que arXiv). Por el contrario, los peores casos se publicaron en lugares convencionales de referencia. Entre ellos se encuentra un artículo que ensalzaba las virtudes de la hidroxicloroquina (cuyo editor publicó una carta de preocupación, pero no una retractación5), y otros estudios basados en datos inventados que fueron rápidamente retractados por Lancet y New England Journal of Medicine6. Tal vez esos y otros editores de revistas se habrían beneficiado de ver más comentarios abiertos de expertos antes de la publicación: hasta la fecha, más de 120 artículos de COVID-19 revisados por pares han sido retractados o retirados. Por el contrario, un estudio de COVID-19 publicado en forma de preprint7, que sobrestimaba las tasas de infección anteriores y que fue rápidamente recogido por la prensa, tuvo sus defectos estadísticos rápidamente desmontados por los expertos. Un preprint en el que se informaba de los resultados de un riguroso estudio clínico sobre el fármaco dexametasona llevó a su despliegue en el medio año anterior a la aparición del estudio como publicación en una revista, salvando potencialmente muchas vidas8. Y fue un preprint9 el que se opuso a un peligro real para la salud, corrigiendo los conceptos erróneos detrás de la frontera de 5 μm, asumida durante mucho tiempo, entre las gotas (que caen) y los aerosoles (en el aire), y señalando la necesidad de precauciones sanitarias revisadas más eficaces contra la propagación del COVID-19.

Mirando hacia delante

No pretendo que la distribución de preprints sea una panacea universal para los retrasos y sesgos de la publicación en revistas revisadas por pares, sino que sugiero que, con el contexto adecuado, los beneficios pueden superar con creces los riesgos. Los periodistas suelen matizar la mención de los artículos en los servidores de preprints con la advertencia de que "aún no han sido revisados", y normalmente consultan a los expertos para que comprueben la realidad y eviten engañar al público. Aunque no todos los medios de comunicación digitales proporcionan las calificaciones necesarias a los preprints de COVID-19, es ciertamente posible normalizar la aplicación de alguna formulación de "en revisión" para transmitir incertidumbre. Si nos dirigimos inexorablemente hacia una mayor difusión pública de los preprints en más campos, vale la pena que todos los participantes -investigadores, revistas revisadas por pares y medios de comunicación- adopten la tendencia y diseñen formas de mantener a los profesionales de la investigación mejor informados y al público en general menos desinformado.

Cuadro 1 Treinta años de arXiv

arXiv comenzó en la era de la impresión en 1991. Iniciado en el Laboratorio Nacional de Los Álamos, y conocido como xxx.lanl.gov hasta 1998, pretendía nivelar el campo de juego de la investigación global proporcionando acceso en tiempo real a los últimos resultados de investigación. Esto ocurría antes de la World Wide Web, y los editores y bibliotecarios de la época se mostraban escépticos ante cualquier transición a corto plazo a los contenidos digitales. A principios de la década de 1990, arXiv desempeñó un papel pionero como repositorio automatizado y fue el primero en utilizar una página web para el resumen de los artículos, con enlaces a los recursos asociados, incluido el texto completo de los postscriptores y, posteriormente, el pdf. arXiv también desempeñó un papel temprano en el movimiento de acceso abierto, catalizando recursos como PubMedCentral, editoriales como PLoS y, posteriormente, otros servidores de preprints, como bioRxiv y medRxiv.

Una década después, arXiv necesitaba un hogar institucional adecuado para continuar su transición de un simple experimento de software a un servicio sostenible a largo plazo. En el espacio de la comunicación académica, los actores tradicionales son las bibliotecas institucionales y las sociedades profesionales. En 2001, elegí integrarme en la biblioteca de la universidad de Cornell (donde me doctoré en física en 1981), sobre la base de que una biblioteca no tendría un potencial conflicto de intereses por sus propias operaciones de publicación de revistas. A pesar de las mejores intenciones, el acoplamiento se hizo cada vez más incómodo con el tiempo. El mandato principal de una biblioteca universitaria es servir contenido certificado por otros a su comunidad interna, mientras que el ámbito de arXiv es difundir materiales de procedencia a veces difícil de discernir a una comunidad global de investigadores.

En 2019, la supervisión de arXiv pasó, dentro de Cornell, de la biblioteca a Ciencias de la Computación y la Información, pero la planificación a largo plazo se ha visto obstaculizada por cuestiones relacionadas con la pandemia. Tal vez arXiv encuentre algún nuevo equilibrio dentro de Cornell, o tal vez las sociedades profesionales aprovechen su propia experiencia de publicación para ayudar a crear un recurso más distribuido y sostenible a largo plazo. arXiv sigue siendo el principal modo de comunicación de investigación para muchas comunidades de investigación globales, proporcionando una infraestructura esencial. La tasa de envíos diarios está creciendo rápidamente (véase la figura; los temas están etiquetados con las abreviaturas estándar utilizadas en arxiv.org), con un total esperado de aproximadamente 190.000 nuevos artículos en 2021. Independientemente de los detalles del futuro de arXiv, la difusión de preprints ya no es heterodoxa y es poco probable que se invierta la tendencia actual de aumento de la difusión.

********************

Boletín SciELO-México

martes, 24 de agosto de 2021

Lecciones de los 30 años de arXiv compartiendo información

No hay comentarios:

Publicar un comentario

T-MEC digital: la revisión que expone la pugna tecnológica entre Washington y Pekín, con México como escenario clave

Denunciar abuso

Etiquetas