Mostrando entradas con la etiqueta Repositorios de datos. Mostrar todas las entradas
Mostrando entradas con la etiqueta Repositorios de datos. Mostrar todas las entradas

lunes, 2 de mayo de 2022

Guía de evaluación para la conservación de datos de investigación

Publicado en blog Universo abierto
https://universoabierto.org/2022/04/12/guia-de-evaluacion-para-la-conservacion-de-datos-de-investigacion/



Guía de evaluación para la conservación de datos de investigación

Jonathan Dorey, Grant Hurley, & Beth Knazook. Appraisal Guidance for the Preservation of Research Data. Otaswa. Digital Research Alliuance, 2022

Texto completo

La evaluación y la selección son actividades clave necesarias para la gestión responsable de los datos de investigación. No todos los datos tienen valor para la investigación a largo plazo, y el creciente volumen de datos producidos y publicados para satisfacer necesidades a corto y medio plazo supone una carga tanto para los repositorios que almacenan y mantienen el acceso a los recursos como para los investigadores que buscan datos de calidad. Las prácticas de valoración de los repositorios, que a menudo se llevan a cabo como parte del proceso de curación en el momento del depósito para optimizar los datos para su intercambio y reutilización, deben abordar mejor la sostenibilidad a largo plazo de las prácticas de datos FAIR. Esta guía ha sido diseñada para ser utilizada junto con las políticas de adquisición, desarrollo de la colección, preservación y retirada del repositorio y otros documentos de estrategia institucional de alto nivel para ayudar a los conservadores a trabajar con los investigadores y los especialistas en preservación para evaluar los datos de investigación para su preservación a largo plazo.

jueves, 24 de marzo de 2022

Datos de investigación en abierto [ Boletín Investiga no. 35, 2022 - Universidad de Sevilla ]

Publicado en Boletín Investiga no. 35, 2022 - Universidad de Sevilla


Datos de investigación en abierto  

Introducción

El pasado mes de noviembre, la UNESCO, aprobó su Recomendación sobre Ciencia Abierta en la que eleva la cultura open a la categoría de derecho humano universal vinculándola a los Objetivos de Desarrollo Sostenible sobre la base del beneficio de la humanidad y la sostenibilidad del planeta. La Declaración de Budapest en favor del acceso abierto acaba de conmemorar su veinte aniversario definiéndolo como medio para la equidad, la calidad, la utilidad y la sostenibilidad de la investigación. Como vemos, en estos veinte años el acceso abierto ha evolucionado a un concepto más amplio, el de la Ciencia abierta, que abarca la apertura de todos los aspectos de la investigación en aras de una mayor transparencia y reproductibilidad, igualdad de oportunidades, rendición de cuentas, impulso de la transferencia e impacto social de la investigación, así como el fomento de la participación y la ciencia ciudadana.  




En esta ocasión, vamos a centrarnos en los datos de investigación, ya que, cada vez más agencias financiadoras e instituciones incluyen recomendaciones o incluso requerimientos sobre la libre disponibilidad y acceso, no sólo a los resultados de la investigación, sino también a los datos que respaldan esas publicaciones. Incluso revistas y editores están generalizando la adopción de políticas de datos de investigación que obligan a los investigadores a incluir declaraciones de disponibilidad de datos (DAS) en los que se informa de dónde y cómo se pueden obtener los datos que respaldan esa publicación: si están en un repositorio, en el propio artículo como información complementaria, disponibles sólo previa solicitud privada o no accesibles en absoluto. Vamos a dedicar este monográfico a aclarar a qué nos referimos cuando hablamos de datos de investigación, tipologías, formatos y buenas prácticas en su gestión que nos facilitarán, no sólo su generación y uso durante el proceso investigador, sino también la producción de un conjunto de datos apto para su depósito y reutilización.  

Qué son los datos de investigación

Los datos de investigación son aquellos materiales generados o recolectados durante el transcurso de una investigación. En general, es todo aquello que un investigador o investigadora necesita para validar los resultados obtenidos en esa investigación. Los datos incluyen: cuadernos de laboratorio, cuadernos de campo, datos de investigación primaria, cuestionarios, cintas de audio, videos, desarrollo de modelos, fotografías, películas, objetos digitales, algoritmos, scripts, bases de datos, metadatos y esquemas de metadatos, configuraciones de software y las comprobaciones y las respuestas de la prueba. (FECYT, 2012). No son considerados datos finales de investigación: las notas de laboratorio, los sets de datos parciales, análisis preliminares, borradores de trabajos, planes para investigaciones futuras, comunicaciones con colegas, objetos físicos y ejemplares de laboratorio.  

Clasificación de los datos

Los datos pueden ser numéricos, descriptivos o visuales Según su naturaleza: cualitativos o cuantitativos Según su nivel de procesamiento: en estado bruto (datos primarios), procesados o analizados. Según la fuente de la que provienen pueden ser experimentales (ej. cromatografías), observacionales (ej. encuestas) y computacionales (obtenidos mediante simulación). Según su forma o tipo: documentos de texto electrónico, planillas de datos, cuadernos de campo o anotaciones de laboratorio, cuestionarios o transcripciones, fotografías o películas, registros sonoros, muestras, artefactos, especímenes, objetos digitales, modelos, algoritmos, scripts, bases de datos, metadatos, esquemas de metadatos, configuraciones de software, archivos de pre o post procesamiento de software. Según su formato: Textuales (Wod, PDF, RTF, etc.), Numéricos (Excel, CSV, etc.), Multimedia (JPEG, MPEG, WAV, etc.), Estructurados (XML, MySQL, etc.), Código de software (Java, C, etc.), Específicos de un software (Mesh, 3D CAD, modelo estadístico, etc.), específicos de una disciplina o instrumento.

 Cómo se gestionan los datos de investigación

La Gestión de datos de investigación o Research Data Management (RDM) es un término general que cubre cómo se organiza, estructura, almacena y cuida la información utilizada o generada durante un proyecto de investigación. Los datos se deben gestionar desde el inicio de su ciclo de vida.

Con la gestión de los datos la comunidad científica se beneficia de:

 - La validación de los resultados de la investigación. Asegurar que los datos sean localizables, accesibles, interoperables y reutilizables. (Principios FAIR).

- Mejorar la calidad de los datos, asegurando que éstos sean precisos, completos, auténticos y fidedignos. 

- Mejorar el perfil del personal investigador, el impacto y la visibilidad de la investigación.

- Proteger y preservar los datos: al gestionar y depositar los datos en repositorios apropiados podrás resguardarlos de forma segura a lo largo del tiempo, protegiendo tu inversión de tiempo y recursos y permitiendo que puedan servir a nuevas investigaciones y descubrimientos en el futuro.

- Facilitar la reutilización de los datos que has generado o recopilado: la correcta gestión y documentación de los datos a lo largo de su ciclo vital permitirá que estos se mantengan exactos, completos, auténticos y fiables. 

Estos atributos permitirán que puedan ser comprendidos y utilizados por otras personas. Cumplir con las exigencias de agencias de financiamiento: cada vez son más las agencias que exigen la presentación de planes de gestión de datos y/o el depósito de datos en repositorios como requisitos para la financiación de investigaciones  
  

Infografía elaborada por el Servei de Biblioteques, Publicacións i Arxius de la Universitat Politècnica de Catalunya y traducida en la Sección de Información y Referencia del Servicio de Biblioteca de la Universidade da Coruña) 

Una adecuada gestión de los datos científicos supone una ayuda al personal investigador a la hora de planificar su trabajo. 

En primer lugar, si es necesario recopilar datos sobre un determinado campo científico debe conocer qué herramientas tiene a su alcance para poder consultar o reutilizar los datos ya almacenados por otros investigadores o investigadoras. 

Algunas herramientas de búsqueda de datos de investigación que están a disposición de la comunidad investigadora son, entre otras: 

 - Dimensions: indexa los datos de una gran cantidad de fuentes para facilitar el acceso a los datos depositados en repositorios y bases de datos inconexas. 

DataCiteSearch: buscador generalista de datasets abiertos con DOI. 

Google Dataset Search: buscador de datasets en repositorios de datos científicos, bases de datos de gobiernos locales y nacionales, sitios web de editores/as y autores/as y otras fuentes. 

Zenodo: buscador de datos de investigación de la Unión Europea. Desarrollado por CERN Data Center e Invenio. 

Re3data: es una herramienta para la identificación de los repositorios adecuados para almacenar datos de investigación, que permite buscar y visualizar los principales repositorios de datos de investigación por disciplina, materia, país, contenidos, formatos, licencias, lenguaje, metadatos, etc.   

 Además, es indispensable que el conjunto de datos utilizados en el transcurso de una investigación (ya sean reutilizados o generados de nuevo) estén organizados y documentados. 

Para ello, es importante seguir una serie de recomendaciones en cuanto al formato, estructura, control de versiones, organización de carpetas, nombre de los archivos, etc. que garanticen todo el proceso de uso, almacenamiento y preservación de los datos de investigación.

Otro aspecto a considerar es la forma en que se almacenarán y compartirán los datos durante la investigación.

Los datos se pueden almacenar en: 

 - PC/Ordenador portátil Almacenamiento óptico (CDs, DVDs).

- Unidades externas (USB, Disco duros) 

- Servicio de almacenamiento institucional

- Almacenamiento en la nube (Onedrive, Google drive...)  

A la hora de seleccionar una opción, es fundamental tener en cuenta la seguridad; los medios de almacenamiento deben garantizar la protección de los derechos de propiedad y si se trata con datos personales hay que controlar el acceso a los mismos, así como el intercambio y compartición de copias. 

Se recomienda instalar antivirus, no utilizar el correo electrónico para enviar datos personales, utilizar contraseñas robustas capaces de resistir ataques informáticos y encriptar datos altamente sensibles.

El depósito y la reutilización de datos

Finalizada la investigación se debe decidir qué datos se van a mantener y archivar y cuales se van a eliminar, dónde se van a depositar, cuanto tiempo deben ser conservados, cómo será el acceso a estos datos, posibles periodos de embargo, etc. Para facilitar el acceso y preservación de los datos se recomienda depositarlos en repositorios institucionales o temáticos, dependiendo de las disciplinas y requerimientos de las agencias y organismos financiadores.   

Depósito de datos en idUS  

- Cumplir con la obligatoriedad de garantizar el acceso abierto a los datos producidos en el seno de proyectos de investigación financiados por Horizonte Europa o la Agencia Española de investigación. 

- El requerimiento por parte de algunos editores/as de la disponibilidad en abierto de los datos vinculados a la publicación. 

- La valoración por parte de ANECA del acceso abierto a los mismos. 

Junto al depósito de datos es indispensable adjuntar un documento que ayude a otros investigadores o investigadoras a reutilizarlos de forma rápida y adecuada. Se trata de un archivo readme.txt para documentar los datos, en el que se incluya la información sobre quién creó los datos y por qué, una descripción de los datos, la metodología, las unidades de medida y las definiciones de códigos, etc. También puede incluir referencias a datos relacionados o al software. 

Para elaborar este archivo puedes utilizar la plantilla de idUS, o también otras como la del Consorcio Madroño o la de DigitalCSIC.

Consulta aquí toda la información para depositar tus datos de investigación en idUS.  

 Licencias

Para establecer las condiciones de utilización de los datos deben asignarse licencias de uso. Las más conocidas son las Creative Commons (CC), y las Open Data Commons, más específicas para datos. 

Los datos derivados de proyectos de investigación financiados deben depositarse con licencias CC-BY o CC0.   

 Citas   

 Los datos deben citarse correctamente, siguiendo un formato de citas específico y deben aparecer con el resto de las referencias bibliográficas de la publicación resultante. 

DOI Citation Formatter es un servicio ofrecido por DataCite que construye automáticamente las citas conforme al estilo que seleccionemos a partir del DOI asignado a los datos. 

Creador / s (Año de publicación). Título [Dataset]. Editor. Identificador (DOI/ Handle). 

Infografía de REBIUN  




 Aspectos éticos y protección de datos  

 Los aspectos éticos afectan a los datos que se pueden mostrar, el tiempo y el anonimato de las personas implicadas, respetando la dignidad y la integridad para garantizar la privacidad y la confidencialidad. 

Si la investigación implica experimentación con animales o seres humanos debe contar con la autorización, en el caso de la Universidad de Sevilla, del Comité ético, y si se va a trabajar con datos personales o sensibles es necesario contactar con la delegada de Protección de datos para cumplir con los requisitos del Tratamiento de Datos Personales en Actividades de Investigación

Otra cuestión importante es informar y pedir consentimientos a los y las participantes en los estudios o investigaciones y, si es necesario, anonimizar los datos personales y/o sensibles antes de depositarlos y compartirlos. OpenAire recomienda utilizar la herramienta Amnesia.  


  


miércoles, 28 de abril de 2021

Plataformas de repositorios de datos: una guía básica

 Comentario publicado en blog Universo Abierto
https://universoabierto.org/2021/04/03/plataformas-de-repositorios-de-datos-una-guia-basica/





Plataformas de repositorios de datos: una guía básica


Data Repository Platforms: A Primer”. Ithaka S+R, 2021

Texto completo

En la guía de recoge una variedad de características de los principales repositorios de datos que puede ser útil para los investigadores

Las plataformas de repositorio incluidas en el informe resumido son

  • Dryad
  • Figshare
  • Harvard Dataverse
  • ICPSR
  • Mendeley Data
  • Roper Center for Public Opinion Research
  • Zenodo
************************
12 de enero de 2021

Plataformas de repositorios de datos: Un manual de instrucciones

Nicole Betancourt
Última actualización: 10 de marzo de 2021

Aunque los académicos creen generalmente en el valor de compartir y preservar los conjuntos de datos de investigación, muchos no creen que valga la pena su tiempo para hacerlo. Y, cuando invierten su tiempo en compartir y preservar los datos, tienden a preferir hacerlo de forma independiente y autónoma. Se trata de cuestiones que no sólo hemos documentado a través de nuestra larga encuesta nacional sobre el profesorado, sino que también nos hemos enfrentado a ellas en nuestro propio trabajo como investigadores de ciencias sociales que realizan estudios de encuestas a gran escala.

Compartir los datos puede ser valioso por toda una serie de razones. Permite que otros reproduzcan los análisis y los resultados, estimula la investigación adicional con conjuntos de datos preexistentes, mejora los métodos de recopilación de datos a través del escrutinio de otros y, en general, fomenta perspectivas alternativas que pueden promover una diversidad de análisis y conclusiones. Además, compartir los datos de la investigación contribuye al conocimiento de la sociedad y puede evitar que otros investigadores dediquen recursos a duplicar los esfuerzos de recopilación de datos al permitirles trabajar a partir de datos preexistentes. Especialmente durante la pandemia de COVID-19, cuando el profesorado se encuentra con dificultades para realizar investigaciones con datos recién generados, aprovechar los datos que ya se han recogido y analizado puede ser especialmente útil. Muchos académicos sopesan estos beneficios frente a los retos mencionados, junto con los mandatos de los financiadores, a la hora de determinar si depositan sus datos y cómo lo hacen.

Dado que existe un sólido panorama de espacios para compartir datos de investigación, decidimos realizar una investigación exploratoria de alto nivel sobre una serie de repositorios de datos, principalmente para informar sobre nuestros propios protocolos de depósito de datos. Depositamos regularmente los datos de la US Faculty Survey, la Library Director Survey, así como otros proyectos de investigación en el ICPSR. Reconociendo que nuestra investigación sobre una variedad de características de los repositorios de datos puede ser útil para otros investigadores, hoy publicamos un resumen de nuestros hallazgos.

A continuación se comparan siete repositorios en formato de tabla. Hemos destacado algunos factores clave para la toma de decisiones: el ámbito disciplinario, los plazos típicos de procesamiento de los conjuntos de datos, los costes asociados y los servicios ofrecidos (como la conservación de los datos).






Naturalmente, la elección de un repositorio en lugar de otro conlleva diferentes compensaciones.

Alcance e impacto: Algunos de estos repositorios tienen un alcance disciplinario general, mientras que otros se dirigen principalmente a las ciencias sociales o a las ciencias. Esto podría ayudar a determinar qué repositorio podrían elegir los investigadores en función del público al que se destinan sus datos. Del mismo modo, hay que tener en cuenta quién puede acceder a los conjuntos de datos de cada repositorio y a qué precio. Si el acceso abierto es una prioridad, podría tener sentido seleccionar Mendeley Data, Zenodo o Dryad, ya que los conjuntos de datos de estos repositorios son de libre acceso para el público. Harvard Dataverse y Figshare permiten a los académicos elegir si los conjuntos de datos son de acceso libre o restringido. En el otro extremo, el ICPSR y el Roper Center exigen un pago o una afiliación para acceder a los conjuntos de datos.

Coste del depósito: Varios repositorios requieren una membresía institucional o individual o tienen cuotas asociadas al depósito de datos de investigación. Si el coste del depósito de los conjuntos de datos es una preocupación, Figshare, Harvard Dataverse, el Centro Roper y Zenodo no cobran por depositar los datos de investigación, y Mendeley Data también tiene una opción de membresía gratuita.


Curado de datos: Los servicios de curación de datos implican procesos de validación de los datos, como por ejemplo, asegurar que hay una alineación con el cuestionario, el libro de códigos y el conjunto de datos de los proyectos de investigación. Los datos también pueden estar disponibles en varios formatos de archivo, como los archivos CSV, SAS y SPSS. Los servicios de curación de datos también pueden servir como una comprobación adicional antes de que los datos se pongan a disposición de otros, y es una característica que valoramos mucho en Ithaka S+R. Dryad, Harvard Dataverse, ICPSR y The Roper Center ofrecen servicios de curación de datos, mientras que Figshare ofrece curación de datos a través de un servicio de suscripción adicional, y Mendeley Data no ofrece curación de datos. Es importante tener en cuenta que la conservación de datos puede aumentar el tiempo que transcurre antes de que un conjunto de datos esté disponible en un repositorio determinado. En el caso de Dryad, el tiempo para la curación y el depósito de los datos suele ser de un día, mientras que en el caso del Centro Roper puede ser de una semana, y en el caso de Harvard Dataverse, suele variar en función de la complejidad de los datos. Si el tiempo que transcurre antes de que un conjunto de datos esté disponible no es motivo de gran preocupación, el ICPSR tarda aproximadamente entre cuatro y ocho semanas en conservar la mayoría de los conjuntos de datos. Sin embargo, dependiendo de la complejidad de los datos, este proceso puede durar varios meses, por lo que el ICPSR también ha desarrollado y ofrece otro servicio -openICPSR- que no ofrece curación de datos en el que éstos pueden depositarse rápidamente. Si la curación de datos no es importante y la velocidad es ideal, Figshare y Mendeley Data pueden ser buenas opciones.

Esperamos que la instantánea de 2020 resumida aquí pueda servir a otros investigadores, especialmente a los de ciencias sociales, cuando sopesen los pros y los contras de cada repositorio. Por supuesto, estos proveedores de repositorios cambian y adaptan a menudo sus servicios y ofertas. Si está pensando en preservar y compartir sus datos de investigación, estaremos encantados de discutir estas opciones con usted. Por favor, envíeme un correo electrónico a nicole.betancourt@ithaka.org.

Agradezco a Janan Shouhayib, estudiante de doctorado en The Graduate Center, y pasante del equipo de encuestas e investigación de Ithaka S+R durante la primavera y el verano de 2019, por sus contribuciones a esta investigación exploratoria.

*******************************

"¡Quemadlo con fuego!" - El uso de ChatGPT «polariza» a los revisores

Publicado en THE Times Higher Education https://www.timeshighereducation.com/news/corrupting-chatgpt-use-polarises-peer-reviewers   Quemadlo...