martes, 16 de noviembre de 2021

La cobertura de los índices de citas abiertos se acerca a la de Web of Science y Scopus

La cobertura de los índices de citas abiertos se acerca a la de Web of Science y Scopus [1]

Alberto Martín-Martín ( albertomartin@ugr.es;  @albertomartin)

Facultad de Comunicación y Documentación, Universidad de Granada, España. Miembro del Grupo ThinkEPI.


Para poder observar y comprender cómo se desarrolla la actividad académica es esencial contar con colecciones exhaustivas de metadatos sobre la misma. Históricamente, el sector comercial ha sido el principal desarrollador y proveedor de servicios de información utilizados para estos propósitos. Concretamente dos proveedores, Clarivate Analytics (y anteriormente Thomson Reuters) con su plataforma Web of Science, y Elsevier con Scopus, han mantenido durante años una posición dominante sobre este tipo de información al no existir otros competidores que ofrecieran servicios similares. Un tercer actor, Google, a pesar de ofrecer su buscador académico Google Scholar, no ha dado muestras de interés en este mercado, centrándose principalmente en el rol de herramienta de descubrimiento.

Los proveedores comerciales de metadatos académicos suelen elegir modelos de negocio que supeditan el acceso a sus plataformas al pago de suscripciones. Además, con el objetivo de salvaguardar la sostenibilidad y rentabilidad económica de sus servicios a lo largo del tiempo, mantienen un control exclusivo sobre sus colecciones de metadatos mediante la aplicación de licencias de uso restrictivas. De esta manera, estos servicios limitan las formas en las que sus clientes pueden acceder, reutilizar, y redistribuir la información disponible en estas plataformas.

En paralelo a esta situación, el constante desarrollo tecnológico ha generado un entorno en el que las barreras de acceso a hardware y software con altas prestaciones se han reducido considerablemente (a pesar de la crisis de abastecimiento de microchips en la que nos encontramos actualmente). Dicho escenario no sólo está contribuyendo a ampliar los horizontes de actuación de empresas y laboratorios consolidados, sino que está reduciendo el coste de entrada a nuevos grupos con ideas innovadoras. En el campo de los servicios de información científica, sin embargo, el crecimiento generalizado de las capacidades de computación disponibles contrasta con las todavía limitadas capacidades de acceso y reutilización de datos que ofrecen las fuentes tradicionales.

En el contexto actual, por tanto, es cada vez más problemático que la sostenibilidad de los sistemas de información científica, un elemento crítico de la infraestructura del sistema científico, requiera mantener una escasez artificial en el acceso y reutilización de los datos que contienen. Por un lado, estos modelos no facilitan que la comunidad académica pueda dotarse de nuevas infraestructuras y herramientas que busquen adaptarse mejor a las necesidades cambiantes. Por otro lado, el veto a la redistribución de metadatos que imponen los proveedores significa que los análisis que se derivan de sus datos no pueden alcanzar los crecientes estándares de auditabilidad y reproducibilidad que se deberían exigir a trabajos científicos realizados en el S. XXI.

Afortunadamente, tras un inevitable periodo en el que mayormente se reproducían en el entorno digital los modelos asentados en el entorno analógico, cada vez más sectores del sistema científico están explorando nuevos modelos y flujos de trabajo que aprovechen en mayor medida las oportunidades que ofrecen las tecnologías disponibles para afrontar los retos actuales. Podríamos considerar esto como una nueva fase del proceso de transformación digital de la ciencia, que como es normal también está afectando a la comunicación científica.

Un episodio reciente que nos ha mostrado tanto las oportunidades como los riesgos que es capaz de generar un modelo de servicio de información más abierto lo tenemos en el caso de Microsoft Academic (Tay et al., 2021). Desde 2016, el buscador académico de Microsoft ha distribuido su extensa colección de metadatos, actualmente con un tamaño superior y prestaciones en ocasiones comparables a la de servicios comerciales, mediante licencias abiertas que otorgan a los usuarios amplios derechos para transformar y redistribuir los metadatos. Así, a pesar de que su interfaz web de búsqueda no ha llegado a calar entre la población académica en general, el proyecto ha tenido una influencia mayúscula en el desarrollo de un nuevo ecosistema de herramientas innovadoras que utilizan sus datos como base (Figura 1). Tristemente, en mayo de 2021 trascendió que Microsoft Academic desaparecería a finales del mismo año, poniendo en peligro la continuidad de los proyectos que dependen de él.


Fig 1.  Herramientas que han reutilizado datos de Microsoft Academic Graph. Producción propia, originalmente publicada en Tay et al. (2021)

 

Este revés trae consigo una importante lección: los elementos que forman parte de la infraestructura del sistema de información científico deben desarrollar y atenerse a una serie de principios de gobernanza, sostenibilidad, y protección que garanticen en la medida de lo posible su funcionamiento continuado. Los Principios de la Infraestructura Académica Abierta (POSI, por sus siglas en inglés) ofrecen un marco sobre el que pueden trabajar las organizaciones que tienen intención de ofrecer este tipo de servicios (Bilder et al., 2020).

Crossref es otro ejemplo de infraestructura de metadatos de investigación abierta, quizás la más crucial que existe actualmente en el entorno de la comunicación científica a nivel mundial. Asimismo, también es una organización pionera en su compromiso con POSI. Además de acuñar muchos de los DOIs que se asignan a las publicaciones científicas para servir como sus identificadores persistentes, Crossref publica metadatos sobre dichas publicaciones (más de 120 millones de registros en su último archivo público). Estos metadatos no tienen asignada ninguna licencia de uso por parte de Crossref, porque la organización considera que este tipo de datos son “hechos”, que según la ley en EE.UU. no pueden ser objeto de copyright. Esta colección de metadatos por tanto puede ser obtenida, reutilizada, y redistribuida sin ningún tipo de limitación.

Gracias a su naturaleza abierta, los metadatos disponibles en Crossref también han estimulado la innovación en servicios de información dirigidos al público académico. Algunos ejemplos:

·       Muchas de las herramientas de descubrimiento de literatura académica lanzadas más recientemente, como Dimensions, The Lens, y Scilit aprovechan los metadatos de Crossref para mantener actualizados sus índices con los documentos publicados más recientemente.

·       El gestor de referencias bibliográficas de código abierto Zotero es capaz de extraer metadatos de la API pública de Crossref a partir del DOI, lo que proporciona una manera fácil de alimentar colecciones personales de referencias bibliográficas. Este método es además mucho más fiable que utilizar las referencias bibliográficas generadas por Google Scholar.

·       La base de datos Unpaywall (también abierta) utiliza metadatos de Crossref (entre otras fuentes) para identificar qué documentos están disponibles en acceso abierto. Estos datos a su vez alimentan el servicio Unsub, una herramienta diseñada para ayudar a las bibliotecas académicas a tomar decisiones informadas sobre las suscripciones de revistas que les conviene mantener y las que no.

Históricamente, la generación de índices de citas y herramientas derivadas de estos datos ha sido uno de los servicios que solo se ofertaban en las plataformas comerciales (como las mencionadas Web of Science y Scopus), o en plataformas de acceso gratuito, pero con grandes restricciones de uso (Google Scholar). En los últimos años, sin embargo, la exclusividad en la oferta de estos datos que hasta hace poco ejercían estas fuentes está menguando. En parte esto es una consecuencia de los cambios en los flujos de trabajo que se están asentando en la publicación académica digital.

Las editoriales que forman parte de Crossref pueden incluir las listas de referencias citadas entre el resto de los metadatos de las publicaciones cuando se están registrando nuevos documentos en la plataforma. Un gran número de editoriales, de hecho, ya lo están haciendo. La política de Crossref es hacer que estas listas de referencias citadas sean públicamente accesibles por defecto, aunque las editoriales pueden elegir mantenerlas ocultas. De lo anterior se desprende que si la mayoría de las editoriales depositaran sus listas de referencias citadas en Crossref y consintieran que éstas se hicieran públicas, sería posible generar un índice de citas exhaustivo que estuviera libre de las restricciones impuestas por las plataformas comerciales.

La Iniciativa en favor de las Citas Abiertas (I4OC por su acrónimo en inglés) es un grupo de presión que ha trabajado desde 2017 para conseguir precisamente este objetivo, y ya ha conseguido convencer a más de dos mil editoriales para que compartan públicamente las listas de referencias citadas que depositan en Crossref. En la primera mitad de 2021, Elsevier, la American Chemical Society, y Wolters Kluwer, se unieron a esta iniciativa, de manera que actualmente prácticamente todas las grandes editoriales académicas ya apoyan I4OC mediante la apertura de sus referencias en Crossref. La única excepción a destacar entre las grandes editoriales es IEEE (Institute of Electrical and Electronics Engineers).

Gracias a los esfuerzos de I4OC y de las editoriales colaboradoras, el 87% de los documentos con referencias citadas en Crossref tiene dichas referencias en abierto. Esto ha permitido que organizaciones como OpenCitations (uno de los miembros fundadores de I4OC) hayan podido generar índices de citas abiertos a partir de dichos datos. Uno de estos índices es COCI, un índice de citas DOI-a-DOI generado exclusivamente con datos de Crossref (Heibi et al., 2019; Peroni & Shotton, 2020). Otras organizaciones también están ofreciendo sus propios índices de citas abiertos: tras lanzar su propio buscador académico, Internet Archive recientemente ha liberado el índice citas (Refcat) en el que se apoya dicho buscador (Czygan et al., 2021). La iniciativa iCite, que ha desarrollado una colección de metadatos de publicaciones en el área de la biomedicina, también ofrece su índice de citas (NIH Open Citation Collection, o NIH-OCC) mediante una licencia abierta (Hutchins et al., 2019).

¿Qué pasa cuando comparamos estos índices de citas abiertos con otras fuentes? En 2019 unos compañeros y yo analizamos la cobertura de citas disponible en las fuentes de datos bibliográficas de carácter académico más ampliamente utilizadas (Web of Science, Scopus, y Google Scholar) y las comparamos con otras fuentes de datos creadas más recientemente (Microsoft Academic, Dimensions, y COCI). Para ello utilizamos una muestra inicial de 2,515 documentos altamente citados distribuidos entre todas las áreas temáticas. Para cada uno de estos documentos, se extrajeron las listas de documentos citantes ofrecidas por cada una de las fuentes de datos estudiadas. Los datos utilizados en dicho estudio mostraban a COCI como el índice de menor tamaño de entre las seis fuentes: era capaz de encontrar el 28% de todas las citas posibles (Martín-Martín et al., 2021). En comparación, Web of Science encontraba el 52% de todas las citas, Scopus, el 57%, y Google Scholar el 88%.

Hay varias razones que explican los bajos resultados de COCI en comparación con las otras fuentes:

·       Cuando se extrajeron los datos, algunas de las editoriales comerciales de mayor tamaño como Elsevier, IEEE, y ACS, a pesar de depositar rutinariamente en Crossref las listas de referencias citadas de los documentos que publican, todavía no habían dado el visto bueno a que se compartieran públicamente.

·       Muchas editoriales todavía no depositan listas de referencias citadas en Crossref, o bien han empezado a hacerlo, pero no han añadido retrospectivamente las listas de referencias de documentos publicados en el pasado.

·       COCI solo es capaz de detectar relaciones de citación cuando tanto el documento citante como el citado poseen un DOI de Crossref y ambos son conocidos.

·       Finalmente, aunque para nuestro estudio se extrajeron los datos de todas las fuentes durante los meses de mayo y junio de 2019, en ese momento la última actualización de COCI se había publicado en noviembre de 2018, aspecto que incrementó la desventaja de COCI sobre otras fuentes con ritmos de actualización más rápidos.

Teniendo en cuenta que Elsevier es la editorial académica que publica un mayor volumen de documentos a nivel mundial, su reciente decisión de abrir sus referencias en Crossref ha resultado en un incremento significativo del total de referencias disponibles públicamente esta plataforma. La actualización de COCI publicada el 3 de septiembre de 2021 (basada en las referencias abiertas de Crossref disponibles hasta agosto de 2021) ya contiene las referencias procesadas de Elsevier, así como las referencias de los documentos publicados más recientemente por ACS (las referencias disponibles en documentos publicados anteriormente aparecerán en versiones posteriores de COCI).

¿Cómo ha cambiado el panorama a raíz de estos cambios? Para averiguarlo, actualicé nuestro análisis de 2019 utilizando la versión de COCI del 3 de septiembre de 2021, así como el índice de citas de NIH-OCC publicado en el mismo mes. En esta última fuente solo se utilizaron aquellas citas en las que tanto el documento citante como el citado tenían DOI, aunque esta fuente también es capaz de identificar citas entre documentos sin DOIs conocidos, pero con identificadores Pubmed. A fin de realizar una comparación razonablemente justa entre estos datos publicados en 2021 y los extraídos de otras fuentes en 2019, de los conjuntos de datos abiertos solo se utilizaron las citas en las que el documento citante estuviera publicado antes de julio de 2019. La intención por tanto era conocer cómo ha crecido la cobertura de citas en fuentes abiertas desde 2019 como resultado de las decisiones de las editoriales de compartir abiertamente las listas de referencias que depositan en Crossref, o como resultado de iniciativas similares.

La combinación de las citas disponibles en COCI y en NIH-OCC en sus versiones de septiembre de 2021 arrojó una cifra de 1,62 millones de citas a nuestra muestra de documentos, un incremento del 91% comparado con los 0,85 millones de citas que estaban disponibles en COCI en 2019 (la primera versión de NIH-OCC no fue publicada hasta finales de 2019 y por tanto no pudo ser analizada en el estudio anterior). En este análisis se ha decidido combinar las colecciones de COCI y NIH-OCC porque a diferencia de lo que es habitual cuando se trabaja con fuentes cerradas, la disponibilidad de fuentes de datos con licencias abiertas elimina en gran medida las barreras, tanto técnicas como legales, para trabajar y desarrollar herramientas que reutilicen datos de varias fuentes a la vez.

Si consideramos todas las citas disponibles en cualquiera de las fuentes analizadas, el 53% de todas las citas están disponibles públicamente en COCI + NIH-OCC bajo una licencia CC0 (Figura 2), un porcentaje significativamente mayor que el 28% encontrado en 2019 en COCI. Este valor supera ligeramente el 52% encontrado por Web of Science, y está mucho más cercano al 54% encontrado por Dimensions o el 57% encontrado por Scopus. El solapamiento relativo entre COCI y las otras fuentes de datos también ha crecido considerablemente: en 2019 COCI encontraba el 47% de las citas disponibles en Web of Science, mientras que la combinación de COCI y NIH-OCC ahora encuentra el 87%. En el caso de Scopus, en 2019 las fuentes de citas abiertas solo encontraban el 44% de las citas en la plataforma de Elsevier, y ahora este valor se ha incrementado hasta el 81%. El número de citas identificadas por COCI y no por otras fuentes también se ha incrementado ligeramente.

Fig. 2. Porcentaje de citas disponibles en cada fuente de datos, comparado con todas las citas (primera fila de resultados), y comparado con las citas disponibles en cada una de las demás fuentes (siguientes filas). Producción propia.

¿De dónde vienen las nuevas citas abiertas? Como era de esperar, las citas provenientes de documentos publicados por Elsevier conforman la mayoría (cerca de la mitad) de las citas disponibles en fuentes abiertas en 2021 que no estaban ya disponibles en 2019 (Figura 3). También hay 250.000 citas nuevas provenientes de documentos publicados por editoriales que no forman parte del top 5 con mayor volumen de publicación, lo que indica que los esfuerzos de I4OC no se han centrado solamente en los grandes actores del mercado editorial, sino que también se han dirigido y han tenido éxito entre editoriales de menor tamaño.

Fig 3.  Incremento en el número de citas disponibles en índices de citas abiertos (COCI + NIH-OCC) entre 2019 y 2021. Producción propia.

Pudiera parecer extraño que también se puedan encontrar un alto número de citas provenientes de documentos publicados por IEEE, a pesar de que esta editorial no comparte sus referencias públicamente en Crossref. La razón de esto es que en el pasado las listas de referencias en documentos publicados por esta editorial tenían asignada la categoría “limited” de Crossref, una opción intermedia (ni abiertas, ni cerradas) que las editoriales pueden elegir. Los metadatos que tienen asignada esta categoría solo están disponibles para miembros de CrossRef Metadata Plus, un servicio de pago que proporciona algunas ventajas adicionales sobre los servicios gratuitos ofrecidos por Crossref. Como miembro de este servicio, OpenCitations pudo obtener las listas de referencias de IEEE mientras estaban disponibles, e incluirlas en COCI. Más adelante, la editorial decidió cerrar completamente sus referencias, lo cual explica que en 2021 no se encontraran en COCI más citas provenientes de documentos publicados por IEEE.

En conclusión, la cobertura de los datos de citas disponibles bajo licencias CC0 desde fuentes abiertas es ahora comparable a la de las fuentes de suscripción como Web of Science y Scopus, lo que las convierte en alternativas viables para desarrollar servicios de información con datos e indicadores auditables y reproducibles.

La disponibilidad de metadatos académicos abiertos (y entre ellos los datos de citas abiertos) que no presentan limitaciones u obstáculos para su reutilización y redistribución tiene un gran potencial para beneficiar a toda la comunidad académica de una forma antes inédita. Gracias a Microsoft Academic, COCI, NIH-OCC, Internet Archive, y otras iniciativas, y a pesar de algunos percances sufridos por el camino, actualmente estamos siendo testigos de cómo las infraestructuras de metadatos abiertas están posibilitando el desarrollo de un ecosistema de nuevas herramientas de información científica que los modelos utilizados por los proveedores comerciales tradicionales no permitían.

Sin embargo, a pesar de que algunas de las iniciativas abiertas han recibido importantes subvenciones para seguir desarrollándose durante los próximos años, su continuidad a largo plazo no está asegurada por el momento. Esto supone un riesgo a la hora de desarrollar herramientas basadas en estas fuentes, tal y como nos ha enseñado el caso de Microsoft Academic. Ahora es por tanto el momento de trabajar juntos para desarrollar infraestructuras de metadatos de investigación abiertas, pero también sostenibles (Hendricks et al., 2021).

Las bibliotecas académicas podrían convertirse en importantes aliadas de las organizaciones que desarrollan infraestructuras abiertas, no solo mediante su apoyo económico sino también a través de colaboraciones. En España existe un claro antecedente: muchas bibliotecas de universidades públicas colaboran con servicios de información científica consolidados y de gran utilidad en el ámbito hispanohablante, como Dialnet. Este servicio ofrece una plataforma accesible de forma gratuita pero no distribuye sus metadatos bajo licencias abiertas (aunque una parte de sus registros están disponibles por OAI-PMH). Una posible vía de actuación por tanto sería buscar modelos en los que el fruto del trabajo colaborativo realizado por instituciones públicas para alimentar servicios de información científica quede disponible de manera que pueda ser reutilizado libremente por la comunidad académica al completo.

Referencias bibliográficas

Bilder, G., Lin, J., & Neylon, C. (2020). The Principles of Open Scholarly Infrastructure. https://doi.org/10.24343/C34W2H

Czygan, M., Holzmann, H., & Newbold, B. (2021). Refcat: The Internet Archive Scholar Citation Graph. arXiv:2110.06595 [cs]. http://arxiv.org/abs/2110.06595

Heibi, I., Peroni, S., & Shotton, D. (2019). Software review: COCI, the OpenCitations Index of Crossref open DOI-to-DOI citations. Scientometrics. https://doi.org/10.1007/s11192-019-03217-6

Hendricks, G., Kramer, B., Maccallum, C. J., Manghi, P., Neylon, C., Peroni, S., Shotton, D., Tay, A., & Waltman, L. (2021, octubre 27). Now is the time to work together toward open infrastructures for scholarly metadata. Impact of Social Sciences Blog. https://blogs.lse.ac.uk/impactofsocialsciences/2021/10/27/now-is-the-time-to-work-together-toward-open-infrastructures-for-scholarly-metadata/

Hutchins, B. I., Baker, K. L., Davis, M. T., Diwersy, M. A., Haque, E., Harriman, R. M., Hoppe, T. A., Leicht, S. A., Meyer, P., & Santangelo, G. M. (2019). The NIH Open Citation Collection: A public access, broad coverage resource. PLOS Biology, 17(10), e3000385. https://doi.org/10.1371/journal.pbio.3000385

Martín-Martín, A., Thelwall, M., Orduna-Malea, E., & Delgado López-Cózar, E. (2021). Google Scholar, Microsoft Academic, Scopus, Dimensions, Web of Science, and OpenCitations’ COCI: A multidisciplinary comparison of coverage via citations. Scientometrics, 126(1), 871-906. https://doi.org/10.1007/s11192-020-03690-4

Peroni, S., & Shotton, D. (2020). OpenCitations, an infrastructure organization for open scholarship. Quantitative Science Studies, 1(1), 428-444. https://doi.org/10.1162/qss_a_00023

Tay, A., Martín-Martín, A., & Hug, S. E. (2021, mayo 27). Goodbye, Microsoft Academic – hello, open research infrastructure? Impact of Social Sciences Blog. https://blogs.lse.ac.uk/impactofsocialsciences/2021/05/27/goodbye-microsoft-academic-hello-open-research-infrastructure/

 

[1] Este texto es una versión ampliada y en castellano de un post publicado en el blog de OpenCitations durante la semana del Acceso Abierto de 2021. Agradezco a David Shotton y Silvio Peroni (directores de OpenCitations) sus comentarios sobre la versión original del texto, muchos de los cuales tienen su reflejo también en esta versión.


No hay comentarios:

Publicar un comentario

Una herramienta de Google permite detectar fácilmente la escritura generada por IA

Publicado en blog  Universo abierto https://universoabierto.org/2024/10/25/una-herramienta-de-google-permite-detectar-facilmente-la-escritur...