Comentario publicado en blog Universo Abierto
https://universoabierto.org/
“Data Repository Platforms: A Primer”. Ithaka S+R, 2021
En la guía de recoge una variedad de características de los principales repositorios de datos que puede ser útil para los investigadores
Las plataformas de repositorio incluidas en el informe resumido son
- Dryad
- Figshare
- Harvard Dataverse
- ICPSR
- Mendeley Data
- Roper Center for Public Opinion Research
- Zenodo
************************
12 de enero de 2021
Plataformas de repositorios de datos: Un manual de instrucciones
Nicole Betancourt
Última actualización: 10 de marzo de 2021
Aunque
los académicos creen generalmente en el valor de compartir y preservar
los conjuntos de datos de investigación, muchos no creen que valga la
pena su tiempo para hacerlo. Y, cuando invierten su tiempo en compartir y
preservar los datos, tienden a preferir hacerlo de forma independiente y
autónoma. Se trata de cuestiones que no sólo hemos documentado a través
de nuestra larga encuesta nacional sobre el profesorado, sino que
también nos hemos enfrentado a ellas en nuestro propio trabajo como
investigadores de ciencias sociales que realizan estudios de encuestas a
gran escala.
Compartir
los datos puede ser valioso por toda una serie de razones. Permite que
otros reproduzcan los análisis y los resultados, estimula la
investigación adicional con conjuntos de datos preexistentes, mejora los
métodos de recopilación de datos a través del escrutinio de otros y, en
general, fomenta perspectivas alternativas que pueden promover una
diversidad de análisis y conclusiones. Además, compartir los datos de la
investigación contribuye al conocimiento de la sociedad y puede evitar
que otros investigadores dediquen recursos a duplicar los esfuerzos de
recopilación de datos al permitirles trabajar a partir de datos
preexistentes. Especialmente durante la pandemia de COVID-19, cuando el
profesorado se encuentra con dificultades para realizar investigaciones
con datos recién generados, aprovechar los datos que ya se han recogido y
analizado puede ser especialmente útil. Muchos académicos sopesan estos
beneficios frente a los retos mencionados, junto con los mandatos de
los financiadores, a la hora de determinar si depositan sus datos y cómo
lo hacen.
Dado
que existe un sólido panorama de espacios para compartir datos de
investigación, decidimos realizar una investigación exploratoria de alto
nivel sobre una serie de repositorios de datos, principalmente para
informar sobre nuestros propios protocolos de depósito de datos.
Depositamos regularmente los datos de la US Faculty Survey, la Library
Director Survey, así como otros proyectos de investigación en el ICPSR.
Reconociendo que nuestra investigación sobre una variedad de
características de los repositorios de datos puede ser útil para otros
investigadores, hoy publicamos un resumen de nuestros hallazgos.
A
continuación se comparan siete repositorios en formato de tabla. Hemos
destacado algunos factores clave para la toma de decisiones: el ámbito
disciplinario, los plazos típicos de procesamiento de los conjuntos de
datos, los costes asociados y los servicios ofrecidos (como la
conservación de los datos).
Naturalmente, la elección de un repositorio en lugar de otro conlleva diferentes compensaciones.
Alcance e impacto:
Algunos de estos repositorios tienen un alcance disciplinario general,
mientras que otros se dirigen principalmente a las ciencias sociales o a
las ciencias. Esto podría ayudar a determinar qué repositorio podrían
elegir los investigadores en función del público al que se destinan sus
datos. Del mismo modo, hay que tener en cuenta quién puede acceder a los
conjuntos de datos de cada repositorio y a qué precio. Si el acceso
abierto es una prioridad, podría tener sentido seleccionar Mendeley
Data, Zenodo o Dryad, ya que los conjuntos de datos de estos
repositorios son de libre acceso para el público. Harvard Dataverse y
Figshare permiten a los académicos elegir si los conjuntos de datos son
de acceso libre o restringido. En el otro extremo, el ICPSR y el Roper
Center exigen un pago o una afiliación para acceder a los conjuntos de
datos.
Coste del depósito:
Varios repositorios requieren una membresía institucional o individual o
tienen cuotas asociadas al depósito de datos de investigación. Si el
coste del depósito de los conjuntos de datos es una preocupación,
Figshare, Harvard Dataverse, el Centro Roper y Zenodo no cobran por
depositar los datos de investigación, y Mendeley Data también tiene una
opción de membresía gratuita.
Curado de datos:
Los servicios de curación de datos implican procesos de validación de
los datos, como por ejemplo, asegurar que hay una alineación con el
cuestionario, el libro de códigos y el conjunto de datos de los
proyectos de investigación. Los datos también pueden estar disponibles
en varios formatos de archivo, como los archivos CSV, SAS y SPSS. Los
servicios de curación de datos también pueden servir como una
comprobación adicional antes de que los datos se pongan a disposición de
otros, y es una característica que valoramos mucho en Ithaka S+R.
Dryad, Harvard Dataverse, ICPSR y The Roper Center ofrecen servicios de
curación de datos, mientras que Figshare ofrece curación de datos a
través de un servicio de suscripción adicional, y Mendeley Data no
ofrece curación de datos. Es importante tener en cuenta que la
conservación de datos puede aumentar el tiempo que transcurre antes de
que un conjunto de datos esté disponible en un repositorio determinado.
En el caso de Dryad, el tiempo para la curación y el depósito de los
datos suele ser de un día, mientras que en el caso del Centro Roper
puede ser de una semana, y en el caso de Harvard Dataverse, suele variar
en función de la complejidad de los datos. Si el tiempo que transcurre
antes de que un conjunto de datos esté disponible no es motivo de gran
preocupación, el ICPSR tarda aproximadamente entre cuatro y ocho semanas
en conservar la mayoría de los conjuntos de datos. Sin embargo,
dependiendo de la complejidad de los datos, este proceso puede durar
varios meses, por lo que el ICPSR también ha desarrollado y ofrece otro
servicio -openICPSR- que no ofrece curación de datos en el que éstos
pueden depositarse rápidamente. Si la curación de datos no es importante
y la velocidad es ideal, Figshare y Mendeley Data pueden ser buenas
opciones.
Esperamos
que la instantánea de 2020 resumida aquí pueda servir a otros
investigadores, especialmente a los de ciencias sociales, cuando sopesen
los pros y los contras de cada repositorio. Por supuesto, estos
proveedores de repositorios cambian y adaptan a menudo sus servicios y
ofertas. Si está pensando en preservar y compartir sus datos de
investigación, estaremos encantados de discutir estas opciones con
usted. Por favor, envíeme un correo electrónico a nicole.betancourt@ithaka.org.
Agradezco
a Janan Shouhayib, estudiante de doctorado en The Graduate Center, y
pasante del equipo de encuestas e investigación de Ithaka S+R durante la
primavera y el verano de 2019, por sus contribuciones a esta
investigación exploratoria.
****************************** *
No hay comentarios:
Publicar un comentario