Boletín SciELO-México: Plataformas de repositorios de datos: una guía básica

miércoles, 28 de abril de 2021

Plataformas de repositorios de datos: una guía básica

Comentario publicado en blog Universo Abierto
https://universoabierto.org/2021/04/03/plataformas-de-repositorios-de-datos-una-guia-basica/

Publicado en ITHAKA S+R

https://sr.ithaka.org/blog/data-repository-platforms-a-primer/

Plataformas de repositorios de datos: una guía básica

“Data Repository Platforms: A Primer”. Ithaka S+R, 2021

Texto completo

En la guía de recoge una variedad de características de los principales repositorios de datos que puede ser útil para los investigadores

Las plataformas de repositorio incluidas en el informe resumido son

Dryad
Figshare
Harvard Dataverse
ICPSR
Mendeley Data
Roper Center for Public Opinion Research
Zenodo

************************

12 de enero de 2021

Plataformas de repositorios de datos: Un manual de instrucciones

Nicole Betancourt

Última actualización: 10 de marzo de 2021

Aunque los académicos creen generalmente en el valor de compartir y preservar los conjuntos de datos de investigación, muchos no creen que valga la pena su tiempo para hacerlo. Y, cuando invierten su tiempo en compartir y preservar los datos, tienden a preferir hacerlo de forma independiente y autónoma. Se trata de cuestiones que no sólo hemos documentado a través de nuestra larga encuesta nacional sobre el profesorado, sino que también nos hemos enfrentado a ellas en nuestro propio trabajo como investigadores de ciencias sociales que realizan estudios de encuestas a gran escala.

Compartir los datos puede ser valioso por toda una serie de razones. Permite que otros reproduzcan los análisis y los resultados, estimula la investigación adicional con conjuntos de datos preexistentes, mejora los métodos de recopilación de datos a través del escrutinio de otros y, en general, fomenta perspectivas alternativas que pueden promover una diversidad de análisis y conclusiones. Además, compartir los datos de la investigación contribuye al conocimiento de la sociedad y puede evitar que otros investigadores dediquen recursos a duplicar los esfuerzos de recopilación de datos al permitirles trabajar a partir de datos preexistentes. Especialmente durante la pandemia de COVID-19, cuando el profesorado se encuentra con dificultades para realizar investigaciones con datos recién generados, aprovechar los datos que ya se han recogido y analizado puede ser especialmente útil. Muchos académicos sopesan estos beneficios frente a los retos mencionados, junto con los mandatos de los financiadores, a la hora de determinar si depositan sus datos y cómo lo hacen.

Dado que existe un sólido panorama de espacios para compartir datos de investigación, decidimos realizar una investigación exploratoria de alto nivel sobre una serie de repositorios de datos, principalmente para informar sobre nuestros propios protocolos de depósito de datos. Depositamos regularmente los datos de la US Faculty Survey, la Library Director Survey, así como otros proyectos de investigación en el ICPSR. Reconociendo que nuestra investigación sobre una variedad de características de los repositorios de datos puede ser útil para otros investigadores, hoy publicamos un resumen de nuestros hallazgos.

A continuación se comparan siete repositorios en formato de tabla. Hemos destacado algunos factores clave para la toma de decisiones: el ámbito disciplinario, los plazos típicos de procesamiento de los conjuntos de datos, los costes asociados y los servicios ofrecidos (como la conservación de los datos).

Naturalmente, la elección de un repositorio en lugar de otro conlleva diferentes compensaciones.

Alcance e impacto: Algunos de estos repositorios tienen un alcance disciplinario general, mientras que otros se dirigen principalmente a las ciencias sociales o a las ciencias. Esto podría ayudar a determinar qué repositorio podrían elegir los investigadores en función del público al que se destinan sus datos. Del mismo modo, hay que tener en cuenta quién puede acceder a los conjuntos de datos de cada repositorio y a qué precio. Si el acceso abierto es una prioridad, podría tener sentido seleccionar Mendeley Data, Zenodo o Dryad, ya que los conjuntos de datos de estos repositorios son de libre acceso para el público. Harvard Dataverse y Figshare permiten a los académicos elegir si los conjuntos de datos son de acceso libre o restringido. En el otro extremo, el ICPSR y el Roper Center exigen un pago o una afiliación para acceder a los conjuntos de datos.

Coste del depósito: Varios repositorios requieren una membresía institucional o individual o tienen cuotas asociadas al depósito de datos de investigación. Si el coste del depósito de los conjuntos de datos es una preocupación, Figshare, Harvard Dataverse, el Centro Roper y Zenodo no cobran por depositar los datos de investigación, y Mendeley Data también tiene una opción de membresía gratuita.

Curado de datos: Los servicios de curación de datos implican procesos de validación de los datos, como por ejemplo, asegurar que hay una alineación con el cuestionario, el libro de códigos y el conjunto de datos de los proyectos de investigación. Los datos también pueden estar disponibles en varios formatos de archivo, como los archivos CSV, SAS y SPSS. Los servicios de curación de datos también pueden servir como una comprobación adicional antes de que los datos se pongan a disposición de otros, y es una característica que valoramos mucho en Ithaka S+R. Dryad, Harvard Dataverse, ICPSR y The Roper Center ofrecen servicios de curación de datos, mientras que Figshare ofrece curación de datos a través de un servicio de suscripción adicional, y Mendeley Data no ofrece curación de datos. Es importante tener en cuenta que la conservación de datos puede aumentar el tiempo que transcurre antes de que un conjunto de datos esté disponible en un repositorio determinado. En el caso de Dryad, el tiempo para la curación y el depósito de los datos suele ser de un día, mientras que en el caso del Centro Roper puede ser de una semana, y en el caso de Harvard Dataverse, suele variar en función de la complejidad de los datos. Si el tiempo que transcurre antes de que un conjunto de datos esté disponible no es motivo de gran preocupación, el ICPSR tarda aproximadamente entre cuatro y ocho semanas en conservar la mayoría de los conjuntos de datos. Sin embargo, dependiendo de la complejidad de los datos, este proceso puede durar varios meses, por lo que el ICPSR también ha desarrollado y ofrece otro servicio -openICPSR- que no ofrece curación de datos en el que éstos pueden depositarse rápidamente. Si la curación de datos no es importante y la velocidad es ideal, Figshare y Mendeley Data pueden ser buenas opciones.

Esperamos que la instantánea de 2020 resumida aquí pueda servir a otros investigadores, especialmente a los de ciencias sociales, cuando sopesen los pros y los contras de cada repositorio. Por supuesto, estos proveedores de repositorios cambian y adaptan a menudo sus servicios y ofertas. Si está pensando en preservar y compartir sus datos de investigación, estaremos encantados de discutir estas opciones con usted. Por favor, envíeme un correo electrónico a nicole.betancourt@ithaka.org.

Agradezco a Janan Shouhayib, estudiante de doctorado en The Graduate Center, y pasante del equipo de encuestas e investigación de Ithaka S+R durante la primavera y el verano de 2019, por sus contribuciones a esta investigación exploratoria.

*******************************

Boletín SciELO-México

miércoles, 28 de abril de 2021

Plataformas de repositorios de datos: una guía básica

No hay comentarios:

Publicar un comentario

Declaración de Leiden sobre Inteligencia Artificial y Matemáticas

Denunciar abuso

Etiquetas