Mostrando entradas con la etiqueta Bases de datos. Mostrar todas las entradas
Mostrando entradas con la etiqueta Bases de datos. Mostrar todas las entradas

viernes, 25 de abril de 2025

U.S.A. [recuento de daños]: toca ahora a ERIC: el índice más importante en el área de Educación en riesgo

Publicado en Governing
https://www.governing.com/policy/major-education-resource-set-to-shut-down-this-week 




Un importante recurso educativo dejará de funcionar esta semana


El Departamento de Educación federal mantiene una base de datos de libre acceso con más de 2 millones de documentos que se remontan a la década de 1960. Dejará de funcionar el miércoles debido a los recortes del DOGE.


22 de abril de 2025 - Jill Barshay, Informe Hechinger


Cuando se busca información sobre la semana escolar de cuatro días o cómo enseñar fracciones, o se intenta localizar un documento histórico, como el histórico Informe Coleman de 1966, se puede empezar por Google. Pero la razón de que aparezcan resultados de investigación de alta calidad en su búsqueda en Google es que entre bastidores existe algo llamado ERIC.


ERIC son las siglas de Education Resources Information Center (Centro de Información de Recursos Educativos) y se trata de una biblioteca pública en línea con 2,1 millones de documentos educativos financiada y gestionada por el Departamento de Educación de Estados Unidos. La colección se remonta a los años 60 y se distribuía a las bibliotecas en microfichas. Hoy es un sitio web de acceso abierto donde cualquiera puede buscar, leer en línea o descargar material. No se necesita carné de biblioteca ni credenciales de acceso. Se calcula que lo utilizan 14 millones de personas al año. (Yo soy una de ellas.) Si está familiarizado con MedLine o PubMed para estudios sanitarios, este es el equivalente para el campo de la educación.


Padres, profesores, investigadores y responsables de la política educativa se verán afectados. «La desfinanciación de ERIC limitaría el acceso público a la investigación educativa crítica, obstaculizando las prácticas basadas en pruebas y las decisiones políticas informadas, vitales para el avance de la educación estadounidense», envió un correo electrónico Gladys Cruz, superintendente de un distrito escolar llamado Questar III BOCES en las afueras de Albany, Nueva York, y ex presidenta de AASA, la Asociación de Superintendentes Escolares.


Propuesta para reducir el coste a la mitad


Pollard Young dijo que, antes de dejar el Departamento de Educación, estaba trabajando frenéticamente para cumplir una exigencia del DOGE de reducir el presupuesto anual de ERIC a la mitad, de 5,5 millones de dólares a 2,25 millones. Los recortes eran dolorosos. Tendría que recortar el 45% de las revistas que se añadían cada año a la base de datos. Se eliminaría el servicio público de asistencia. Y Pollard Young había aceptado asumir personalmente la tarea adicional de comunicarse directamente con 1.500 editoriales, algo de lo que se había encargado AEM Education Services, un proveedor que recopila, analiza y gestiona datos para el gobierno.


Estos recortes propuestos no satisficieron a la DOGE. Según Pollard Young, recibió un correo electrónico en mayúsculas que decía: «ESTO NO ESTÁ APROBADO» y le pedía más información. Pollard Young envió la información adicional, pero nunca recibió respuesta. Una semana después, el 11 de marzo, perdió el acceso a su correo electrónico, el día en que Pollard Young y más de 1.300 empleados del Departamento de Educación perdieron su empleo en un despido masivo.


Pollard Young era la única empleada del Departamento de Educación que trabajaba a diario con ERIC. Supervisaba a un equipo de 30 contratistas de AEM Education Services, que realizaba la mayor parte del trabajo. Añadir documentos a la biblioteca digital implica muchos pasos, desde determinar su importancia hasta catalogarlos e indexarlos. Son los metadatos, o etiquetas descriptivas, que AEM inserta entre bastidores los que permiten que los documentos de ERIC sean localizables y ocupen los primeros puestos en las búsquedas de Google. Pero el público también puede buscar directamente en el sitio web de ERIC.


«Dato curioso», publicó en LinkedIn Paige Kowalski, vicepresidenta ejecutiva de Data Quality Campaign, una organización que aboga por la toma de decisiones basada en datos en las escuelas. "A lo largo de los 20 años de existencia de DQC, hemos tenido sitios web mal diseñados con funciones de búsqueda atroces. A menudo no podía encontrar los recursos que escribía. Pero siempre podía encontrarlos en ERIC. Un recurso enorme".


La mayor parte de la colección está formada por artículos de revistas académicas. Muchos son textos completos en PDF que, de otro modo, serían inaccesibles tras los muros de pago. ERIC también contiene libros, informes gubernamentales federales, estatales y locales y tesis doctorales.


Literatura gris


Una de sus joyas es la gran cantidad de «literatura gris», que Pollard Young describió como estudios no publicados de organizaciones de investigación privadas e informes de distritos escolares que no están catalogados en EBSCO, una base de datos privada de documentos académicos. Esa es otra razón por la que Google y la IA no pueden sustituir sin más a esta colección ERIC. «En el ámbito de la educación, muchas investigaciones se producen al margen de las revistas», afirma Pollard Young. «Los grandes e importantes ECA [ensayos controlados aleatorios] están en libros blancos» o informes especiales.


En respuesta a preguntas concretas sobre el futuro de ERIC, el Departamento de Educación respondió más ampliamente sobre la necesidad de reestructurar el Instituto de Ciencias de la Educación (IES), donde se gestiona ERIC. «A pesar de gastar anualmente cientos de millones de los fondos de los contribuyentes, el IES no ha logrado cumplir eficazmente su mandato de identificar las mejores prácticas y los nuevos enfoques que mejoran los resultados educativos y cierran las brechas de rendimiento para los estudiantes», dijo Madi Biedermann, subsecretaria adjunta de comunicaciones, en un comunicado enviado por correo electrónico. «El departamento está evaluando activamente cómo reestructurar el IES con la aportación de la dirección actual y las partes interesadas expertas para que el Instituto proporcione a los estados datos más útiles para mejorar los resultados de los estudiantes, manteniendo al mismo tiempo una integridad científica rigurosa y la rentabilidad.»


Todavía es posible que el DOGE apruebe esta semana la propuesta de presupuesto reducido antes de que se agote el dinero. Pero no habrá nadie en el Departamento de Educación para supervisarlo o comunicarse con las editoriales. «En el mejor de los casos, ERIC funcionará con la mitad de su presupuesto», publicó Pollard Young en LinkedIn.


Al igual que otros empleados del Departamento de Educación que fueron despedidos en marzo, Pollard Young está de baja administrativa hasta junio. Pero dijo que está dispuesta a arriesgarse a posibles represalias de la administración y a hablar públicamente sobre la amenaza que se cierne sobre el ERIC, que había dirigido durante más de una docena de años.


«Soy consciente de algunas de las consecuencias», dijo Pollard Young. "Pero para mí es importante que se sepa que estoy haciendo todo lo que está en mi mano para salvar el ERIC y también para que el país entienda lo que está ocurriendo. Cuando hablo con gente de todo el país, está claro que no entienden del todo lo que está pasando en D.C. Esperemos que podamos ejercer cierta presión para que podamos mantener la financiación o traerla de vuelta."


Este artículo fue publicado por el Informe Hechinger. Lea el original aquí.


****************************************


Major Education Resource Set to Shut Down This Week
The federal Department of Education maintains an open access database of more than 2 million documents dating back to the 1960s. It will cease operating Wednesday due to DOGE cuts.

April 22, 2025 •  Jill Barshay, Hechinger Report

When you’re looking for research on four-day school weeks or how to teach fractions, or trying to locate an historical document, such as the landmark Coleman Report of 1966, you might begin with Google. But the reason that high-quality research results pop up from your Google search is because something called ERIC exists behind the scenes.


ERIC stands for Education Resources Information Center and it is a curated online public library of 2.1 million educational documents that is funded and managed by the U.S. Education Department. The collection dates back to the 1960s and used to be circulated to libraries through microfiche. Today it’s an open access website where anyone can search, read online or download material. Neither a library card nor login credentials are needed. It is used by an estimated 14 million people a year. (I am one of them.) If you’re familiar with MedLine or PubMed for health care studies, this is the equivalent for the field of education.  


This critical online library catalog is supposed to continue operating under a five-year contract that runs through 2028. Initially, ERIC was spared from the department’s mass contract cancellations in February. But according to Erin Pollard Young, the sole Education Department employee who managed ERIC until her job was eliminated in March, the Department of Government Efficiency or DOGE has since refused to approve disbursement of money that has already been authorized by Congress for the upcoming year.


ERIC is scheduled to run out of money on April 23. After that date, no new documents can be added. “The contract, from my understanding, would die,” Pollard Young said in an interview.


“After 60 years of gathering hard to find education literature and sharing it broadly, the website could stop being updated,” Pollard Young posted on LinkedIn. “Yes, the data are backed up in so many places, and the website will likely remain up for a while. But without constant curation and updating, so much information will be lost.” 


Parents, teachers, researchers and education policymakers are all affected. “Defunding ERIC would limit public access to critical education research, hindering evidence-based practices and informed policy decisions vital for the advancement of American education,” emailed Gladys Cruz, a superintendent of a school district called Questar III BOCES outside of Albany, New York, and a past president of the AASA, The School Superintendents Association.


Proposal to Halve the Cost

Pollard Young said that before she left the Education Department, she was frantically working to comply with a DOGE demand to slash ERIC’s annual budget by half, from $5.5 million to $2.25 million. The cuts were painful. She would have to cut 45 percent of the journals added to the database each year. The public help desk would be eliminated. And Pollard Young had agreed to personally take on the extra task of directly communicating with 1,500 publishers, something that had been handled by AEM Education Services, a vendor that collects, analyzes and manages data for the government.  


These proposed cuts did not satisfy DOGE. Pollard Young said she received an email reply in all caps, “THIS IS NOT APPROVED,” with a request for more information. Pollard Young submitted the additional information but never received a response. She lost access to her work email about a week later on March 11, the day that Pollard Young and more than 1,300 other Education Department employees lost their jobs in a mass firing.


Pollard Young was the only Education Department employee who was involved with ERIC on a daily basis. She oversaw a team of 30 contractors at AEM Education Services, which did most of the work. Adding documents to the digital library involves many steps, from determining their importance to cataloging and indexing them. It is the metadata, or descriptive tags, that AEM inserts behind the scenes that allows documents on ERIC to be discoverable and rise to the top on Google searches. But the public can also search directly on the ERIC website. 


“Fun fact,” Paige Kowalski, executive vice president of the Data Quality Campaign, an organization that advocates for data-driven decision making in schools, posted on LinkedIn. “Over the 20 years that DQC has been around we’ve had some poorly designed websites with atrocious search functions. I often couldn’t find resources I wrote! But could always find them on ERIC. Huge resource.”


The bulk of the collection consists of academic journal articles. Many are full text PDFs that would otherwise be inaccessible behind paywalls. ERIC also contains books, federal, state and local government reports and doctoral dissertations. 


Gray Literature

One of its gems is the large amount of “gray literature,” which Pollard Young described as unpublished studies from private research organizations and school district reports that are not cataloged in EBSCO, a private database of academic documents. That’s another reason that Google and AI cannot simply replace this curated ERIC collection. “In education so much research is produced outside of journals,” said Pollard Young. “Big, important RCTs [randomized controlled trials] are in white papers,” or special reports.


In response to specific questions about the future of ERIC, the Education Department responded more broadly about the need to restructure the Institute of Education Sciences (IES), where ERIC is managed. “Despite spending hundreds of millions in taxpayer funds annually, IES has failed to effectively fulfill its mandate to identify best practices and new approaches that improve educational outcomes and close achievement gaps for students,” said Madi Biedermann, deputy assistant secretary for communications, in an emailed statement. “The department is actively evaluating how to restructure IES with input from existing leadership and expert stakeholders so that the Institute provides states with more useful data to improve student outcomes while maintaining rigorous scientific integrity and cost effectiveness.” 


It is still possible that DOGE will approve the reduced budget proposal this week before the money runs out. But there will be no one at the Education Department to oversee it or communicate with publishers. “Best case scenario, ERIC operates at half of its budget,” Pollard Young posted on LinkedIn.


Like other Education Department employees who were fired in March, Pollard Young is on administrative leave until June. But she said she is willing to risk potential retaliation from the administration and speak on the record about the threat to ERIC, which she had managed for more than a dozen years.


“I am aware of what some of the consequences are,” said Pollard Young. “But to me, it is important for the field to know that I am doing everything in my power to save ERIC and also for the country to understand what is happening. As I’m talking to people across the country, it is clear that they don’t fully understand what is happening in D.C. Hopefully we can put some pressure on it so we can keep the funding or bring it back.”


This article was published by the Hechinger Report. Read the original here.

domingo, 5 de enero de 2025

América Latina (y el Sur Global) no está bien representada en las bases de datos genómicos

Publicado en SciDevNet
https://www.scidev.net/america-latina/news/pocos-datos-genomicos-regionales-rezagan-la-medicina-de-precision/?utm_source=SciDev.Net&utm_medium=email&utm_campaign=14822554_2024-12-30%20Weekly%20Email%20Digest%20-%20Am%C3%A9rica%20Latina%20y%20el%20Caribe%20Template.%20For%20no%20topic%20preferences&dm_i=1SCG,8TP5M,665LFG,10PXIC,1



12/12/24

Pocos datos genómicos regionales rezagan la medicina de precisión

De un vistazo
  • Estudio regional identifica representación genómica regional en el mundo
  • Advierte que su baja participación genera disparidades en medicina de precisión global
  • Destacan la importancia de iniciativas nacionales

En una época en que la genómica se posiciona cada vez más como una herramienta valiosa para la medicina de precisión, la baja representación de quienes viven en América Latina en los estudios genéticos que se realizan en el mundo lleva a un aumento de las disparidades en la prevención y tratamiento de enfermedades.

Esa es una de las observaciones que se desprenden de los resultados del Proyecto sobre la Genética de la Diversidad Latinoamericana (GLAD, por sus siglas en inglés), un estudio publicado en la revista Cell Genomics que compila datos genómicos de 53.738 personas, tomados de 39 estudios que representan a 46 regiones.

El objetivo es “explorar los patrones estructurales de la población latinoamericana y apoyar estudios epidemiológicos”. Se trata de estadísticas resumidas, sin acceso a genotipos individualizados, lo cual reduce el riesgo de exposición de datos sensibles.

Según este trabajo, aunque América Latina representa 8,5 por ciento de la población global, los 656 millones de habitantes de la región solo son el 0,38 por ciento de quienes participan en estudios que posibilitan identificar genes asociados con una enfermedad.

En este tipo de proyectos, que parten desde un nivel tan básico como el estudio de la diversidad genética, muchas veces se ignora el potencial que tiene entender las diferencias y similitudes entre poblaciones”. Víctor Borda, Instituto de Ciencias Genómicas de la Universidad de Maryland, EE. UU.

La llamada medicina de precisión en estos años ha hecho posible localizar las variantes genéticas que predisponen a enfermedades cardíacas e inflamatorias, diabetes, Alzheimer, esquizofrenia o obesidad, por ejemplo, así como las que determinan respuestas diferenciales a los fármacos.

Estos avances han surgido a partir del desarrollo científico basado en los datos del Proyecto del Genoma Humano, que a principios de este siglo recopiló los primeros resultados de las características genéticas de las personas.

Sin embargo, tanto esa iniciativa como las bases de datos que le siguieron mostraron una variabilidad poblacional limitada porque han tenido una alta representación de población de países del Norte Global. Esto se convirtió en un sesgo que pone en cuestión la aplicación exitosa de la medicina genética en el sur porque sus particularidades no están reflejadas en esas bases.

Por ejemplo, entre otros resultados de GLAD, el estudio reafirmó la distribución de linajes heterogéneos en Latinoamérica, con grupos con mayor representación europea y africana (por ejemplo, en Brasil y en Estados Unidos) o de indígenas americanos (Perú, México, Guatemala), y subrayó la subrepresentación de esos datos genealógicos en las bases públicas.

Esto perjudica la comprensión integral sobre la diversidad étnica de la región, destacan los autores. “A pesar de que las diferencias genéticas entre una persona y otra solo corresponden a menos del uno por ciento del genoma”, recuerda Víctor Borda, uno de los autores del estudio. Esas distinciones “pueden tener implicancias importantes”, como la forma en que metabolizamos los fármacos.

“Nuestros sistemas de salud son vetustos”, agregó Hernán Dopazo, especialista en biología evolutiva e investigador del CONICET (Argentina), que no formó parte de la investigación. Los servicios de salud “deben autorizar una secuenciación genética para tratar una enfermedad, suelen evitarlo por motivos económicos, sin entender que ese procedimiento evitará gastos posteriores”.

“En algunos casos, acceder a ciertos datos genéticos puede tardar meses”, desatacó Borda, y esas demoras llevan al retraso de las investigaciones, algo “aún más evidente” en Latinoamérica.

Hacerse camino por los “laberintos burocráticos”, las bases de datos patentadas o los desafíos en torno al consentimiento sigue siendo problemático en nuestra región, advirtió el estudio.

Los autores esperan que esta plataforma, que también permite su vinculación con muestras externas, promueva la investigación genética en Latinoamérica y contribuya a que la medicina personalizada llegue a más personas.

Inclusión urgente

El estudio también llama la atención sobre la necesidad de una “inclusión urgente” de datos provenientes de Bolivia y Paraguay, déficit que atribuyen a la falta de financiamiento.

Borda pondera iniciativas públicas como el Proyecto Genoma Peruano, el Proyecto de Epidemiología Genética de Brasil o el Biobanco Mexicano.

Dopazo también destaca el programa argentino PoblAr —el cual asesora—, que busca generar un genoma de referencia como insumo fundamental para tratamientos personalizados, pero hoy se encuentra paralizado por el desfinanciamiento al sector científico en su país.

Los vaivenes en el apoyo a estas iniciativas representan “la principal barrera para la democratización de la ciencia”, plantea Borda. “En este tipo de proyectos, que parten desde un nivel tan básico como el estudio de la diversidad genética, muchas veces se ignora el potencial que tiene entender las diferencias y similitudes entre poblaciones”.

Nuestros países “tienen que entrar en este club”, remarcó Dopazo, para quien resulta fundamental consolidar las bases de datos sobre las particularidades de enfermedades en la región. “El cáncer de mama es mucho más frecuente en Latinoamérica”, ejemplificó. “Queremos conocer esos marcadores y saber por qué son diferentes”.

La representación de esta variabilidad solo podrá lograrse mediante iniciativas conjuntas, ya que la infraestructura necesaria comprende decenas de miles de muestras, algo que excede a un solo país.

Dopazo insiste en la importancia de un cambio de mentalidad, también a nivel local. Los financiadores públicos y privados de los sistemas de salud deberían entender que “estas plataformas ahorran dinero, sufrimiento y años de estudio” a millones de personas, en una región que necesita acoplarse, lo antes posible, a esta revolución de la medicina global.

Este artículo fue producido por la edición de América Latina y el Caribe de SciDev.Net

viernes, 19 de agosto de 2022

Bases de datos académicas de acceso abierto: guía, caracterización y análisis comparativo

Publicado en blog de Lluis Codina
https://www.lluiscodina.com/bases-datos-academicas-abiertas/



Bases de datos académicas de acceso abierto: guía, caracterización y análisis comparativo

19 agosto, 2022 


Bases de datos académicas de acceso abierto 1.png

Las bases de datos académicas de acceso abierto permiten un uso sin barreras. Ni siquiera necesitan de alguna forma de membresía (aunque esta siempre aporta ventajas cuando está disponible).

Vamos a presentar un grupo seleccionado de bases de datos académicas que se han ido abriendo paso en los últimos años en lo que comienza a ser un mercado bastante concurrido. Esto al menos comparado con el panorama tradicional, en el que durante décadas reinó en exclusiva Web of Science (bajo el nombre ISI), a la que después se unió Scopus para pasar a formar un duopolio de facto durante varios años.

La cuestión es que, en un contexto de ciencia abierta, estas dos bases de datos académicas, que son las más importantes del mundo, son recursos que están situados detrás de un muro de pago. Nótese que en esta entrada no estamos abogando para que estos sistemas pasen (o no) a ser abiertos. Ponemos una constatación sobre la mesa.

Por suerte, el ecosistema académico no deja de enriquecerse (y complicarse). En esta ocasión vamos a presentar un pequeño conjunto de bases de datos académicas que, además de ser de acceso abierto, pueden actuar como alternativas por un lado, de los sistemas ya mencionados y, por otro, del buscador académico por excelencia, Google Scholar.

Organización de la guía de bases de datos académicas abiertas

Para presentar esta guía, usaremos: (1 ) una captura significativa de la interfaz centrada en la página de resultados; (2) los datos de identificación de cada sistema; (3) los datos estadísticos básicos disponibles en cada sistema y (4) los resultados de un test simple de resultados consistente en presentar el número de resultados para una misma consulta. El test consistió en usar como palabra clave «immersive journalism» en todas las bases de datos usando la búsqueda simple sin aplicar ningún parámetro (en algunas de las bases de datos, otras opciones no son posibles).

Utilidad teórica para revisiones de la literatura

Además, (5) añadiremos una apreciación de su utilidad teórica para soportar revisiones de la literatura de tipo sistematizado. Para ello, es necesario que el sistema disponga de (1) búsqueda avanzada y (2) de un sistema de filtros y ordenaciones en la página de resultados. Usaremos la escala simple habitual en análisis heurísticos, que va de 0 a 3 puntos (indicados mediante estrellas), donde:

  • 0 implica que la función que se analiza no está implementada.
  • 1 indica que hay alguna forma de implementación pero con carencias fundamentales.
  • 2 presenta algunas de las funciones pero no todas, por lo que necesita mejorarse.
  • 3 presenta las funciones principales de manera adecuada.
    (Al lado de cada puntuación presentaremos una breve argumentación).
Otras funcionalidades e innovaciones

Para apreciar otras funciones, (6) añadiremos otra apreciación sobre sus otras funcionalidades o sobre aportaciones innovadoras en otros aspectos, p.e, en el diseño de la página de resultados, los análisis presentados o la forma de presentar los documentos individuales u otras funciones específicas propias que sean destacables. Usaremos en este caso una escala Baja/Media/Alta/Muy Alta, así como añadiremos siempre un comentario al respecto. Por último, en una zona de notas añadiremos notas o comentarios específicos para cada caso.

Nota: el orden en el que se presentan las bases de datos no es significativo.

GUÍA BASES DE DATOS ACADÉMICAS DE ACCESO ABIERTO

1 · Semantic Scholar

Bases de datos académicas de acceso abierto 2.png
Semantic Scholar es una de las bases de datos académica
Fuente: Semantic Scholar

Denominación Semantic Scolar
Organismo  Allen Institute for AI (institución sin ánimo de lucro)
Datos básicos 205 millones de documentos
Test 235 resultados
Búsqueda avanzada  No presenta un sistema de búsqueda avanzada, pero las página de resultados proporciona funciones de filtro y ordenación.
Funcionalidad o innovación Alta
Destaca en la forma de analizar los documentos individuales, así como la forma de presentar la página de resultados, con datos útiles, así como por las funciones de filtrado. También están elaborando un sistema semántico que facilita la lectura de artículos.
Notas
Es un sistema en desarrollo continuado, y probablemente su sistema de lectura semántica aporte importantes novedades. El número de documentos es más que notable, denotando una preocupación por ofrecer una alta cobertura de la producción científica internacional.

2 · ScienceOpen 
Bases de datos académicas de acceso abierto 3.png

Denominación  ScienceOpen
Organismo Science Open (empresa de servicios editoriales)
Datos básicos 79 millones de documentos
Test 59 resultados
Búsqueda avanzada **
Permite el uso de operadores booleanos. No es posible utilizar operadores de parametrización (buscar por campos, p.e.). No hay un formulario de búsqueda avanzada.
Funcionalidad o innovación Media
Presenta una página de resultados con numerosas funcionalidades y amplias opciones de análisis. Ofrece una plataforma para los autores.
Notas Se trata del producto abierto de una empresa de servicios editoriales.

3 · The Lens
Bases de datos académicas de acceso abierto 4.png
Denominación The Lens
Organismo Cambia (instituto sin ánimo de lucro)
Datos básicos 247 millones de artículos académicos; 142 millones de patentes
Test 204 resultados
Búsqueda avanzada ***
Proporciona las funciones básicas más importantes de una búsqueda avanzada, incluyendo el uso de operadores y de formularios asistidos.
Funcionalidad o innovación Muy Alta
Es un sistema a la vez enormemente innovador en el tratamiento de la información y los análisis e intersecciones de datos que ofrece, y sumamente completo a nivel funcional. El diagrama que hemos utilizado en la cabecera de este artículo es una ilustración de las intersecciones de datos que proporciona este sistema.
Notas A juzgar por su amplio alcance, las nuevas funcionalidades, la inclusión de otros documentos científicos, como las patentes, y el cruce de datos que hace con estas y los artículos, parece con diferencia el sistema más ambicioso de todos los que se reseñan aquí. Destaca en casi todos los aspectos, tanto de diseño como de funcionalidades.

4 · Dimensions
Bases de datos académicas de acceso abierto 5.png

Denominación Dimensions
Organismo Digital Science & Research Solutions (empresa)
Datos básicos 130 millones de documentos, 12 millones de datasets y 147 millones de patentes
Test 136 resultados
Búsqueda avanzada  *
No aporta ningún elemento o componente significativo de búsqueda avanzada, pero la página de resultados ofrece un conjunto notable de análisis.
Funcionalidad o innovación Alta
La página de resultados proporciona un conjunto muy notable de vistas analíticas.
Notas Llama la atención en un producto de esta calidad general el pobre sistema de búsqueda.

5 · Base
Bases de datos académicas de acceso abierto 6.png

Denominación Base (Bielefeld Academic Search Engine)
Organismo Universidad de Bielefeld
Datos básicos 310 millones de documentos
Test 282 resultados
Búsqueda avanzada ***
Presenta soporte completo para el uso de operadores booleanos mediante sintaxis directa. Aporta también un formulario de búsqueda parametrizado, así como opciones de ordenación en la página de resultados.
Funcionalidad o innovación Media
El esfuerzo innovador principal que este sistema exhibe es en la recolección de datos y su agregación para permitir su búsqueda y explotación.
Notas Sistema más que notable por el alcance de su base de datos, con más de 310 millones de documentos, y un completo sistema de búsqueda.

6 · DOAJ

Bases de datos académicas de acceso abierto 7.png

Denominación DOAJ
Organismo DOAJ es un organización independiente sin ánimo de lucro
Datos básicos 8 millones de documentos
Test 12 resultados
Búsqueda avanzada ***
Proporciona soporte completo al uso de operadores booleanos y proporciona un formulario de búsqueda parametrizada, así como opciones de filtro y ordenación en la página de resultados.
Funcionalidad o innovación Baja
Este sistema centra sus esfuerzos en evaluar y categorizar revistas open access. Es uno de los directorios de revistas que actúa como lista blanca de revistas open access legítimas (no depredadoras). La búsqueda de artículos es un elemento adicional que enrique el sistema.
Notas DOAJ apareció con la misión de clarificar el panorama de las revistas open access, proporcionar fiable sobre las mismas y ayudar a la promoción de la ciencia abierta, y entiendo que sigue siendo su principal misión. No es en realidad comparable con las demás bases de datos si miramos los datos numéricos debido al motivo fundacional señalado.

Resumen
lluis codina.png

Bonus: Google Scholar y autores sobre el tema

Había pensado en dejar a Google Scholar fuera de esta revisión porque es un recurso sumamente conocido por muy buenas razones. Por cierto, el lector interesado tiene un análisis en profundidad en una entrada dedicada a la creación de alertas con Google Scholar.

Pero creo que no está de más llevar a cabo al menos el test de la búsqueda con la palabra clave «immersive journalism». El resultado lo tenemos en la captura siguiente y lo indica con claridad: 1.870 resultados.

Bases de datos académicas de acceso abierto 8.png

Fuente: Google Scholar

Cabe señalar que Google Scholar incluye una mayor variedad de fuentes que todos los sistemas considerados, ya que no se limita a publicaciones académicas en sentido estricto (artículos, capítulos de libro, patentes, etc.), sino que puede incluir informes o literatura gris, ya que no se limita a editoriales científicas, sino también repositorios, entre otros. Esto puede explicar la enorme cantidad de resultados, que habría que ver hasta qué punto son todos relevantes. Una exploración superficial hasta la página 22 (=220 resultados) mostraba que se mantenía la relevancia aparente.

Estimaciones sobre el volumen de documentos de Google Scholar y expertos en el tema

Tampoco está bien delimitada la cantidad de documentos que indexa en total, un dato que según tengo entendido Google nunca ha facilitado. Un estudio del 2018 (Gusenbauer, 2018) daba el resultado de 389 millones de documentos. Han pasado casi seis años desde entonces, por lo que el número solo puede ser mayor (y seguramente, muy mayor).

Lo más interesante es que el estudio del 2018 que hemos mencionado de Gusenbauer cita hasta cinco trabajos previos sobre el tema que tienen como primer autor al profesor de la Universidad Politécnica de Valencia, Orduña Malea. De este mismo autor, se hace eco también un artículo del 2014 publicado en Science sobre cómo de grande es Google Scholar.

Como el artículo cita también extensamente a Emilio Delgado Lopéz-Cózar, y ambos son colegas de universidades españolas y muy buenos amigos, me ha alegrado mucho esta circunstancia de la que me encanta dejar constancia aquí.

Alberto Martín-Martín, es otro de los grandes autores que han trabajado sobre el tema, y también aparece ampliamente citado en el trabajo de Gusenbauer.

Al final, he puesto la lista de referencias de estos tres grandes autores sobre el tema que aparecen en el trabajo porque resulta ser una compilación significativa de trabajos previos, aún recientes la mayoría, que sin duda serán útiles para los estudiosos del tema. Por último, he añadido las referencias a tres trabajos recientes de los que soy coautor.

Conclusiones

Por fortuna, el panorama de las bases de datos u otros recursos de información documental similares en el ecosistema académico se está enriqueciendo desde hace años, aunque no sin pasar por períodos en los que hemos tenido pérdidas dolorosas.

Los sistemas de que hemos presentado aquí tienen la característica de ser de acceso abierto, en crudo contraste con las dos grandes bases de datos académicas dominantes, Scopus y Web of Science.

Hemos examinado estas bases de datos con algunas preguntas en mente, tales como cuál es su cobertura en numero de documentos y cuál sería su facilidad funcional para llevar a cabo una revisión de la literatura en lugar de utilizar Scopus o Web of Science. La tabla de resumen y las fichas individuales permiten responder a esas preguntas. Vemos que hay al menos dos, The Lens y Base que combinan una enorme cobertura con funcionalidades completas de búsqueda avanzada. En un hipotético caso podrían servir a los efectos que nos hemos planteado, el de una revisión de la literatura.

¿Sustituyen a Scopus y Web of Science?

Un sistema puede sustituir a otro si subsume todas sus funciones y añade alguna nueva. Entonces, para poder decir alguna cosa sobre la eventualidad de que estos sistemas puedan sustituir a otros, habría que extender los análisis y comparar de manera sistemática las funciones en cada caso. Además, habría que hacer prospecciones sistemáticas sobre los documentos de cada sistema.

Personalmente, no estoy convencido de la viabilidad de esta teórica sustitución, porque tanto Scopus como Web of Science, además de una solidez funcional comparativa mayor, llevan a cabo una serie de funciones y proporcionan un conjunto de análisis que no hemos visto en los sistemas tratados aquí. Aunque es cierto que alguns de ellos, notablemente Dimensions y The Lens ofrecen otras que las bases de datos mencionadas no poseen. Esto, entonces, y al menos por el momento, nos habla más de un panorama de necesaria agregación de nuevos actores al ecosistema que de sustituciones viables.

Pero, al menos lo que si podemos decir es que en el caso de ciudadanos, investigadores o centros que por alguna razón no tengan acceso a costosos sistemas comerciales, aquí tienen recursos abiertos y alternativos de enorme calidad que pueden suplir perfectamente sus necesidades de información, más aún si consideramos a Google Scholar en este ecosistema.

Anexos: els test y las escalas no son científicas

El test que hemos aplicado a las bases de datos con la palabra clave «immersive journalism» nos aporta un dato de primera aproximación, pero carece de validez científica. Para tener validez científica tendría que haber utilizado un conjunto de palabras clave diversas (y no una sola palabra clave).

La escalas y apreciaciones utilizadas no están exentas de riesgo de sesgos por mi parte. Primero son de grano muy grueso, y segundo las he aplicado siguiendo un criterio más fenomenológico que sistemático. No obstante, he intentado aplicar lo mejor de lo que sé sobre estos sistemas, pero no se puede considerar un sistema de valoración científico.

Hay un punto, no obstante, en la escala sobre búsqueda avanzada que deja poco margen a la interpretación: si un sistema no proporciona tal tipo de búsqueda, aquí hay poco espacio para la subjetividad, literalmente, no tiene y punto. Es lo que hay.

A día de hoy sigo sorprendiéndome de que los responsables que participan en el diseño de algunas de estas bases de datos sigan creyendo que basta un cajita para meter palabras clave para tener un sistema de recuperación realmente útil para sus usuarios. Absurdo. Pero, de nuevo, es lo que hay.

Enlaces a las bases de datosEnlaces relacionadosReferencias

El trabajo que hemos usado para discutir sobre el tamaño de Google Scholar:

  • Gusenbauer, M. (2018). «Google Scholar to overshadow them all? Comparing the size of 12 academic search engines and bibliographic databases». Scientometrics (2019) 118:177–214 https://doi.org/10.1007/s11192-018-2958-5
Trabajos de Martín-Marín, Orduña Malea, López-Cozar et al.

A continuación, las referencias de Orduña MaleaMartín-Martín y López-Cózar, junto con otros, obtenidas del trabajo de Gusenbauer:

  • Martín-Martín, A., Orduña-Malea, E., Ayllón, J. M., & López-Cózar, E. D. (2015). Does Google Scholar contain all highly cited documents (1950–2013)? Granada: EC3 Working Papers (19).
  • Martín-Martín, A., Orduna-Malea, E., & Delgado López-Cózar, E. (2018a). Coverage of highly-cited documents in Google Scholar, Web of Science, and Scopus: A multidisciplinary comparison. Scientometrics, 116, 2175–2188. https://doi.org/10.1007/s11192-018-2820-9.
  • Martín-Martín, A., Orduna-Malea, E., Harzing, A.-W., & Delgado López-Cózar, E. (2017). Can we use Google Scholar to identify highly-cited documents? Journal of Informetrics, 11, 152–163. https://doi.org/10.1016/j.joi.2016.11.008.
  • Martín-Martín, A., Orduna-Malea, E., Thelwall, M., & López-Cózar, E. D. (2018b). Google Scholar, Web of Science, and Scopus: A systematic comparison of citations in 252 subject categories. Journal of Informetrics, 12, 1160–1177. https://doi.org/10.31235/osf.io/42nkm.
  • Orduña-Malea, E., Ayllón, J. M., Martín-Martín, A., & Delgado López-Cózar, E. (2014). About the size of Google Scholar: playing the numbers. EC3 Working Papers, 18(23).
  • Orduña-Malea, E., Ayllón, J. M., Martín-Martín, A., & Delgado López-Cózar, E. (2015). Methods for estimating the size of Google Scholar. Scientometrics, 104, 931–949. https://doi.org/10.1007/s11192-015-1614-6.
  • Orduña-Malea, E., & Delgado López-Cózar, E. (2014). Google Scholar Metrics evolution: An analysis according to languages. Scientometrics, 98, 2353–2367. https://doi.org/10.1007/s11192-013-1164-8.
  • Orduña-Malea, E., Martín-Martín, A., Ayllon, J. M., & Delgado López-Cózar, E. (2014b). The silent fading of an academic search engine: The case of Microsoft Academic Search. Online Information Review, 38, 936–953. https://doi.org/10.1108/oir-07-2014-0169.
  • Orduna-Malea, E., Martín-Martín, A., & López-Cózar, E. D. (2017). Google Scholar as a source for scholarly evaluation: A bibliographic review of database errors. Revista española de Documentación Científca, 40(4), 185.
Trabajos con coautoría propia sobre Google Scholar y otras bases de datos
  • Rovira, Cristòfol; Guerrero-Solé, Frederic; Codina, Lluís (2018). “Received citations as a main SEO factor of Google Scholar results ranking”. El profesional de la información, v. 27, n. 3, pp. 559-569. https://doi.org/10.3145/epi.2018.may.09
  • Rovira, Cristòfol; Codina, Lluís; Guerrero-Solé, Frederic and Carlos Lopezosa (2019). «Ranking by Relevance and Citation Counts, a Comparative Study: Google Scholar, Microsoft Academic, WoS and Scopus» Future Internet 11, no. 9: 202. https://doi.org/10.3390/fi11090202
  • Rovira, Cristòfol; Codina, Lluís; Lopezosa, Carlos (2021). «Language Bias in the Google Scholar Ranking Algorithm». Future Internet 2021, 13, 31. https://doi.org/10.3390/fi13020031

Nota de progreso: Scilit ha presentado un rediseño de su base de datos, que será incorporada a estos análisis próximamente.



BRICS establecen directrices comunes para la gobernanza de la economía de datos del Sur Global

Publicado en  Geodigital AI Insights https://mailchi.mp/b30ee8006106/cul-es-la-oferta-de-amrica-latina-para-participar-en-el-suministro-de-s...