viernes, 19 de agosto de 2022

Bases de datos académicas de acceso abierto: guía, caracterización y análisis comparativo

Publicado en blog de Lluis Codina
https://www.lluiscodina.com/bases-datos-academicas-abiertas/



Bases de datos académicas de acceso abierto: guía, caracterización y análisis comparativo

19 agosto, 2022 


Bases de datos académicas de acceso abierto 1.png

Las bases de datos académicas de acceso abierto permiten un uso sin barreras. Ni siquiera necesitan de alguna forma de membresía (aunque esta siempre aporta ventajas cuando está disponible).

Vamos a presentar un grupo seleccionado de bases de datos académicas que se han ido abriendo paso en los últimos años en lo que comienza a ser un mercado bastante concurrido. Esto al menos comparado con el panorama tradicional, en el que durante décadas reinó en exclusiva Web of Science (bajo el nombre ISI), a la que después se unió Scopus para pasar a formar un duopolio de facto durante varios años.

La cuestión es que, en un contexto de ciencia abierta, estas dos bases de datos académicas, que son las más importantes del mundo, son recursos que están situados detrás de un muro de pago. Nótese que en esta entrada no estamos abogando para que estos sistemas pasen (o no) a ser abiertos. Ponemos una constatación sobre la mesa.

Por suerte, el ecosistema académico no deja de enriquecerse (y complicarse). En esta ocasión vamos a presentar un pequeño conjunto de bases de datos académicas que, además de ser de acceso abierto, pueden actuar como alternativas por un lado, de los sistemas ya mencionados y, por otro, del buscador académico por excelencia, Google Scholar.

Organización de la guía de bases de datos académicas abiertas

Para presentar esta guía, usaremos: (1 ) una captura significativa de la interfaz centrada en la página de resultados; (2) los datos de identificación de cada sistema; (3) los datos estadísticos básicos disponibles en cada sistema y (4) los resultados de un test simple de resultados consistente en presentar el número de resultados para una misma consulta. El test consistió en usar como palabra clave «immersive journalism» en todas las bases de datos usando la búsqueda simple sin aplicar ningún parámetro (en algunas de las bases de datos, otras opciones no son posibles).

Utilidad teórica para revisiones de la literatura

Además, (5) añadiremos una apreciación de su utilidad teórica para soportar revisiones de la literatura de tipo sistematizado. Para ello, es necesario que el sistema disponga de (1) búsqueda avanzada y (2) de un sistema de filtros y ordenaciones en la página de resultados. Usaremos la escala simple habitual en análisis heurísticos, que va de 0 a 3 puntos (indicados mediante estrellas), donde:

  • 0 implica que la función que se analiza no está implementada.
  • 1 indica que hay alguna forma de implementación pero con carencias fundamentales.
  • 2 presenta algunas de las funciones pero no todas, por lo que necesita mejorarse.
  • 3 presenta las funciones principales de manera adecuada.
    (Al lado de cada puntuación presentaremos una breve argumentación).
Otras funcionalidades e innovaciones

Para apreciar otras funciones, (6) añadiremos otra apreciación sobre sus otras funcionalidades o sobre aportaciones innovadoras en otros aspectos, p.e, en el diseño de la página de resultados, los análisis presentados o la forma de presentar los documentos individuales u otras funciones específicas propias que sean destacables. Usaremos en este caso una escala Baja/Media/Alta/Muy Alta, así como añadiremos siempre un comentario al respecto. Por último, en una zona de notas añadiremos notas o comentarios específicos para cada caso.

Nota: el orden en el que se presentan las bases de datos no es significativo.

GUÍA BASES DE DATOS ACADÉMICAS DE ACCESO ABIERTO

1 · Semantic Scholar

Bases de datos académicas de acceso abierto 2.png
Semantic Scholar es una de las bases de datos académica
Fuente: Semantic Scholar

Denominación Semantic Scolar
Organismo  Allen Institute for AI (institución sin ánimo de lucro)
Datos básicos 205 millones de documentos
Test 235 resultados
Búsqueda avanzada  No presenta un sistema de búsqueda avanzada, pero las página de resultados proporciona funciones de filtro y ordenación.
Funcionalidad o innovación Alta
Destaca en la forma de analizar los documentos individuales, así como la forma de presentar la página de resultados, con datos útiles, así como por las funciones de filtrado. También están elaborando un sistema semántico que facilita la lectura de artículos.
Notas
Es un sistema en desarrollo continuado, y probablemente su sistema de lectura semántica aporte importantes novedades. El número de documentos es más que notable, denotando una preocupación por ofrecer una alta cobertura de la producción científica internacional.

2 · ScienceOpen 
Bases de datos académicas de acceso abierto 3.png

Denominación  ScienceOpen
Organismo Science Open (empresa de servicios editoriales)
Datos básicos 79 millones de documentos
Test 59 resultados
Búsqueda avanzada **
Permite el uso de operadores booleanos. No es posible utilizar operadores de parametrización (buscar por campos, p.e.). No hay un formulario de búsqueda avanzada.
Funcionalidad o innovación Media
Presenta una página de resultados con numerosas funcionalidades y amplias opciones de análisis. Ofrece una plataforma para los autores.
Notas Se trata del producto abierto de una empresa de servicios editoriales.

3 · The Lens
Bases de datos académicas de acceso abierto 4.png
Denominación The Lens
Organismo Cambia (instituto sin ánimo de lucro)
Datos básicos 247 millones de artículos académicos; 142 millones de patentes
Test 204 resultados
Búsqueda avanzada ***
Proporciona las funciones básicas más importantes de una búsqueda avanzada, incluyendo el uso de operadores y de formularios asistidos.
Funcionalidad o innovación Muy Alta
Es un sistema a la vez enormemente innovador en el tratamiento de la información y los análisis e intersecciones de datos que ofrece, y sumamente completo a nivel funcional. El diagrama que hemos utilizado en la cabecera de este artículo es una ilustración de las intersecciones de datos que proporciona este sistema.
Notas A juzgar por su amplio alcance, las nuevas funcionalidades, la inclusión de otros documentos científicos, como las patentes, y el cruce de datos que hace con estas y los artículos, parece con diferencia el sistema más ambicioso de todos los que se reseñan aquí. Destaca en casi todos los aspectos, tanto de diseño como de funcionalidades.

4 · Dimensions
Bases de datos académicas de acceso abierto 5.png

Denominación Dimensions
Organismo Digital Science & Research Solutions (empresa)
Datos básicos 130 millones de documentos, 12 millones de datasets y 147 millones de patentes
Test 136 resultados
Búsqueda avanzada  *
No aporta ningún elemento o componente significativo de búsqueda avanzada, pero la página de resultados ofrece un conjunto notable de análisis.
Funcionalidad o innovación Alta
La página de resultados proporciona un conjunto muy notable de vistas analíticas.
Notas Llama la atención en un producto de esta calidad general el pobre sistema de búsqueda.

5 · Base
Bases de datos académicas de acceso abierto 6.png

Denominación Base (Bielefeld Academic Search Engine)
Organismo Universidad de Bielefeld
Datos básicos 310 millones de documentos
Test 282 resultados
Búsqueda avanzada ***
Presenta soporte completo para el uso de operadores booleanos mediante sintaxis directa. Aporta también un formulario de búsqueda parametrizado, así como opciones de ordenación en la página de resultados.
Funcionalidad o innovación Media
El esfuerzo innovador principal que este sistema exhibe es en la recolección de datos y su agregación para permitir su búsqueda y explotación.
Notas Sistema más que notable por el alcance de su base de datos, con más de 310 millones de documentos, y un completo sistema de búsqueda.

6 · DOAJ

Bases de datos académicas de acceso abierto 7.png

Denominación DOAJ
Organismo DOAJ es un organización independiente sin ánimo de lucro
Datos básicos 8 millones de documentos
Test 12 resultados
Búsqueda avanzada ***
Proporciona soporte completo al uso de operadores booleanos y proporciona un formulario de búsqueda parametrizada, así como opciones de filtro y ordenación en la página de resultados.
Funcionalidad o innovación Baja
Este sistema centra sus esfuerzos en evaluar y categorizar revistas open access. Es uno de los directorios de revistas que actúa como lista blanca de revistas open access legítimas (no depredadoras). La búsqueda de artículos es un elemento adicional que enrique el sistema.
Notas DOAJ apareció con la misión de clarificar el panorama de las revistas open access, proporcionar fiable sobre las mismas y ayudar a la promoción de la ciencia abierta, y entiendo que sigue siendo su principal misión. No es en realidad comparable con las demás bases de datos si miramos los datos numéricos debido al motivo fundacional señalado.

Resumen
lluis codina.png

Bonus: Google Scholar y autores sobre el tema

Había pensado en dejar a Google Scholar fuera de esta revisión porque es un recurso sumamente conocido por muy buenas razones. Por cierto, el lector interesado tiene un análisis en profundidad en una entrada dedicada a la creación de alertas con Google Scholar.

Pero creo que no está de más llevar a cabo al menos el test de la búsqueda con la palabra clave «immersive journalism». El resultado lo tenemos en la captura siguiente y lo indica con claridad: 1.870 resultados.

Bases de datos académicas de acceso abierto 8.png

Fuente: Google Scholar

Cabe señalar que Google Scholar incluye una mayor variedad de fuentes que todos los sistemas considerados, ya que no se limita a publicaciones académicas en sentido estricto (artículos, capítulos de libro, patentes, etc.), sino que puede incluir informes o literatura gris, ya que no se limita a editoriales científicas, sino también repositorios, entre otros. Esto puede explicar la enorme cantidad de resultados, que habría que ver hasta qué punto son todos relevantes. Una exploración superficial hasta la página 22 (=220 resultados) mostraba que se mantenía la relevancia aparente.

Estimaciones sobre el volumen de documentos de Google Scholar y expertos en el tema

Tampoco está bien delimitada la cantidad de documentos que indexa en total, un dato que según tengo entendido Google nunca ha facilitado. Un estudio del 2018 (Gusenbauer, 2018) daba el resultado de 389 millones de documentos. Han pasado casi seis años desde entonces, por lo que el número solo puede ser mayor (y seguramente, muy mayor).

Lo más interesante es que el estudio del 2018 que hemos mencionado de Gusenbauer cita hasta cinco trabajos previos sobre el tema que tienen como primer autor al profesor de la Universidad Politécnica de Valencia, Orduña Malea. De este mismo autor, se hace eco también un artículo del 2014 publicado en Science sobre cómo de grande es Google Scholar.

Como el artículo cita también extensamente a Emilio Delgado Lopéz-Cózar, y ambos son colegas de universidades españolas y muy buenos amigos, me ha alegrado mucho esta circunstancia de la que me encanta dejar constancia aquí.

Alberto Martín-Martín, es otro de los grandes autores que han trabajado sobre el tema, y también aparece ampliamente citado en el trabajo de Gusenbauer.

Al final, he puesto la lista de referencias de estos tres grandes autores sobre el tema que aparecen en el trabajo porque resulta ser una compilación significativa de trabajos previos, aún recientes la mayoría, que sin duda serán útiles para los estudiosos del tema. Por último, he añadido las referencias a tres trabajos recientes de los que soy coautor.

Conclusiones

Por fortuna, el panorama de las bases de datos u otros recursos de información documental similares en el ecosistema académico se está enriqueciendo desde hace años, aunque no sin pasar por períodos en los que hemos tenido pérdidas dolorosas.

Los sistemas de que hemos presentado aquí tienen la característica de ser de acceso abierto, en crudo contraste con las dos grandes bases de datos académicas dominantes, Scopus y Web of Science.

Hemos examinado estas bases de datos con algunas preguntas en mente, tales como cuál es su cobertura en numero de documentos y cuál sería su facilidad funcional para llevar a cabo una revisión de la literatura en lugar de utilizar Scopus o Web of Science. La tabla de resumen y las fichas individuales permiten responder a esas preguntas. Vemos que hay al menos dos, The Lens y Base que combinan una enorme cobertura con funcionalidades completas de búsqueda avanzada. En un hipotético caso podrían servir a los efectos que nos hemos planteado, el de una revisión de la literatura.

¿Sustituyen a Scopus y Web of Science?

Un sistema puede sustituir a otro si subsume todas sus funciones y añade alguna nueva. Entonces, para poder decir alguna cosa sobre la eventualidad de que estos sistemas puedan sustituir a otros, habría que extender los análisis y comparar de manera sistemática las funciones en cada caso. Además, habría que hacer prospecciones sistemáticas sobre los documentos de cada sistema.

Personalmente, no estoy convencido de la viabilidad de esta teórica sustitución, porque tanto Scopus como Web of Science, además de una solidez funcional comparativa mayor, llevan a cabo una serie de funciones y proporcionan un conjunto de análisis que no hemos visto en los sistemas tratados aquí. Aunque es cierto que alguns de ellos, notablemente Dimensions y The Lens ofrecen otras que las bases de datos mencionadas no poseen. Esto, entonces, y al menos por el momento, nos habla más de un panorama de necesaria agregación de nuevos actores al ecosistema que de sustituciones viables.

Pero, al menos lo que si podemos decir es que en el caso de ciudadanos, investigadores o centros que por alguna razón no tengan acceso a costosos sistemas comerciales, aquí tienen recursos abiertos y alternativos de enorme calidad que pueden suplir perfectamente sus necesidades de información, más aún si consideramos a Google Scholar en este ecosistema.

Anexos: els test y las escalas no son científicas

El test que hemos aplicado a las bases de datos con la palabra clave «immersive journalism» nos aporta un dato de primera aproximación, pero carece de validez científica. Para tener validez científica tendría que haber utilizado un conjunto de palabras clave diversas (y no una sola palabra clave).

La escalas y apreciaciones utilizadas no están exentas de riesgo de sesgos por mi parte. Primero son de grano muy grueso, y segundo las he aplicado siguiendo un criterio más fenomenológico que sistemático. No obstante, he intentado aplicar lo mejor de lo que sé sobre estos sistemas, pero no se puede considerar un sistema de valoración científico.

Hay un punto, no obstante, en la escala sobre búsqueda avanzada que deja poco margen a la interpretación: si un sistema no proporciona tal tipo de búsqueda, aquí hay poco espacio para la subjetividad, literalmente, no tiene y punto. Es lo que hay.

A día de hoy sigo sorprendiéndome de que los responsables que participan en el diseño de algunas de estas bases de datos sigan creyendo que basta un cajita para meter palabras clave para tener un sistema de recuperación realmente útil para sus usuarios. Absurdo. Pero, de nuevo, es lo que hay.

Enlaces a las bases de datosEnlaces relacionadosReferencias

El trabajo que hemos usado para discutir sobre el tamaño de Google Scholar:

  • Gusenbauer, M. (2018). «Google Scholar to overshadow them all? Comparing the size of 12 academic search engines and bibliographic databases». Scientometrics (2019) 118:177–214 https://doi.org/10.1007/s11192-018-2958-5
Trabajos de Martín-Marín, Orduña Malea, López-Cozar et al.

A continuación, las referencias de Orduña MaleaMartín-Martín y López-Cózar, junto con otros, obtenidas del trabajo de Gusenbauer:

  • Martín-Martín, A., Orduña-Malea, E., Ayllón, J. M., & López-Cózar, E. D. (2015). Does Google Scholar contain all highly cited documents (1950–2013)? Granada: EC3 Working Papers (19).
  • Martín-Martín, A., Orduna-Malea, E., & Delgado López-Cózar, E. (2018a). Coverage of highly-cited documents in Google Scholar, Web of Science, and Scopus: A multidisciplinary comparison. Scientometrics, 116, 2175–2188. https://doi.org/10.1007/s11192-018-2820-9.
  • Martín-Martín, A., Orduna-Malea, E., Harzing, A.-W., & Delgado López-Cózar, E. (2017). Can we use Google Scholar to identify highly-cited documents? Journal of Informetrics, 11, 152–163. https://doi.org/10.1016/j.joi.2016.11.008.
  • Martín-Martín, A., Orduna-Malea, E., Thelwall, M., & López-Cózar, E. D. (2018b). Google Scholar, Web of Science, and Scopus: A systematic comparison of citations in 252 subject categories. Journal of Informetrics, 12, 1160–1177. https://doi.org/10.31235/osf.io/42nkm.
  • Orduña-Malea, E., Ayllón, J. M., Martín-Martín, A., & Delgado López-Cózar, E. (2014). About the size of Google Scholar: playing the numbers. EC3 Working Papers, 18(23).
  • Orduña-Malea, E., Ayllón, J. M., Martín-Martín, A., & Delgado López-Cózar, E. (2015). Methods for estimating the size of Google Scholar. Scientometrics, 104, 931–949. https://doi.org/10.1007/s11192-015-1614-6.
  • Orduña-Malea, E., & Delgado López-Cózar, E. (2014). Google Scholar Metrics evolution: An analysis according to languages. Scientometrics, 98, 2353–2367. https://doi.org/10.1007/s11192-013-1164-8.
  • Orduña-Malea, E., Martín-Martín, A., Ayllon, J. M., & Delgado López-Cózar, E. (2014b). The silent fading of an academic search engine: The case of Microsoft Academic Search. Online Information Review, 38, 936–953. https://doi.org/10.1108/oir-07-2014-0169.
  • Orduna-Malea, E., Martín-Martín, A., & López-Cózar, E. D. (2017). Google Scholar as a source for scholarly evaluation: A bibliographic review of database errors. Revista española de Documentación Científca, 40(4), 185.
Trabajos con coautoría propia sobre Google Scholar y otras bases de datos
  • Rovira, Cristòfol; Guerrero-Solé, Frederic; Codina, Lluís (2018). “Received citations as a main SEO factor of Google Scholar results ranking”. El profesional de la información, v. 27, n. 3, pp. 559-569. https://doi.org/10.3145/epi.2018.may.09
  • Rovira, Cristòfol; Codina, Lluís; Guerrero-Solé, Frederic and Carlos Lopezosa (2019). «Ranking by Relevance and Citation Counts, a Comparative Study: Google Scholar, Microsoft Academic, WoS and Scopus» Future Internet 11, no. 9: 202. https://doi.org/10.3390/fi11090202
  • Rovira, Cristòfol; Codina, Lluís; Lopezosa, Carlos (2021). «Language Bias in the Google Scholar Ranking Algorithm». Future Internet 2021, 13, 31. https://doi.org/10.3390/fi13020031

Nota de progreso: Scilit ha presentado un rediseño de su base de datos, que será incorporada a estos análisis próximamente.



No hay comentarios:

Publicar un comentario

Una herramienta de Google permite detectar fácilmente la escritura generada por IA

Publicado en blog  Universo abierto https://universoabierto.org/2024/10/25/una-herramienta-de-google-permite-detectar-facilmente-la-escritur...