Datos de investigación en abierto
Introducción
El pasado mes de noviembre, la UNESCO, aprobó su Recomendación sobre Ciencia Abierta en la que eleva la cultura open a la categoría de derecho humano universal vinculándola a los Objetivos de Desarrollo Sostenible sobre la base del beneficio de la humanidad y la sostenibilidad del planeta. La Declaración de Budapest en favor del acceso abierto acaba de conmemorar su veinte aniversario definiéndolo como medio para la equidad, la calidad, la utilidad y la sostenibilidad de la investigación. Como vemos, en estos veinte años el acceso abierto ha evolucionado a un concepto más amplio, el de la Ciencia abierta, que abarca la apertura de todos los aspectos de la investigación en aras de una mayor transparencia y reproductibilidad, igualdad de oportunidades, rendición de cuentas, impulso de la transferencia e impacto social de la investigación, así como el fomento de la participación y la ciencia ciudadana.
En esta ocasión, vamos a centrarnos en los datos de investigación, ya que, cada vez más agencias financiadoras e instituciones incluyen recomendaciones o incluso requerimientos sobre la libre disponibilidad y acceso, no sólo a los resultados de la investigación, sino también a los datos que respaldan esas publicaciones. Incluso revistas y editores están generalizando la adopción de políticas de datos de investigación que obligan a los investigadores a incluir declaraciones de disponibilidad de datos (DAS) en los que se informa de dónde y cómo se pueden obtener los datos que respaldan esa publicación: si están en un repositorio, en el propio artículo como información complementaria, disponibles sólo previa solicitud privada o no accesibles en absoluto. Vamos a dedicar este monográfico a aclarar a qué nos referimos cuando hablamos de datos de investigación, tipologías, formatos y buenas prácticas en su gestión que nos facilitarán, no sólo su generación y uso durante el proceso investigador, sino también la producción de un conjunto de datos apto para su depósito y reutilización.
Qué son los datos de investigación
Los datos de investigación son aquellos materiales generados o recolectados durante el transcurso de una investigación. En general, es todo aquello que un investigador o investigadora necesita para validar los resultados obtenidos en esa investigación. Los datos incluyen: cuadernos de laboratorio, cuadernos de campo, datos de investigación primaria, cuestionarios, cintas de audio, videos, desarrollo de modelos, fotografías, películas, objetos digitales, algoritmos, scripts, bases de datos, metadatos y esquemas de metadatos, configuraciones de software y las comprobaciones y las respuestas de la prueba. (FECYT, 2012). No son considerados datos finales de investigación: las notas de laboratorio, los sets de datos parciales, análisis preliminares, borradores de trabajos, planes para investigaciones futuras, comunicaciones con colegas, objetos físicos y ejemplares de laboratorio.
Clasificación de los datos
Los datos pueden ser numéricos, descriptivos o visuales Según su naturaleza: cualitativos o cuantitativos Según su nivel de procesamiento: en estado bruto (datos primarios), procesados o analizados. Según la fuente de la que provienen pueden ser experimentales (ej. cromatografías), observacionales (ej. encuestas) y computacionales (obtenidos mediante simulación). Según su forma o tipo: documentos de texto electrónico, planillas de datos, cuadernos de campo o anotaciones de laboratorio, cuestionarios o transcripciones, fotografías o películas, registros sonoros, muestras, artefactos, especímenes, objetos digitales, modelos, algoritmos, scripts, bases de datos, metadatos, esquemas de metadatos, configuraciones de software, archivos de pre o post procesamiento de software. Según su formato: Textuales (Wod, PDF, RTF, etc.), Numéricos (Excel, CSV, etc.), Multimedia (JPEG, MPEG, WAV, etc.), Estructurados (XML, MySQL, etc.), Código de software (Java, C, etc.), Específicos de un software (Mesh, 3D CAD, modelo estadístico, etc.), específicos de una disciplina o instrumento.
Cómo se gestionan los datos de investigación
La Gestión de datos de investigación o Research Data Management (RDM) es un término general que cubre cómo se organiza, estructura, almacena y cuida la información utilizada o generada durante un proyecto de investigación. Los datos se deben gestionar desde el inicio de su ciclo de vida.
Con la gestión de los datos la comunidad científica se beneficia de:
- La validación de los resultados de la investigación. Asegurar que los datos sean localizables, accesibles, interoperables y reutilizables. (Principios FAIR).
- Mejorar la calidad de los datos, asegurando que éstos sean precisos, completos, auténticos y fidedignos.
- Mejorar el perfil del personal investigador, el impacto y la visibilidad de la investigación.
- Proteger y preservar los datos: al gestionar y depositar los datos en repositorios apropiados podrás resguardarlos de forma segura a lo largo del tiempo, protegiendo tu inversión de tiempo y recursos y permitiendo que puedan servir a nuevas investigaciones y descubrimientos en el futuro.
- Facilitar la reutilización de los datos que has generado o recopilado: la correcta gestión y documentación de los datos a lo largo de su ciclo vital permitirá que estos se mantengan exactos, completos, auténticos y fiables.
Estos atributos permitirán que puedan ser comprendidos y utilizados por otras personas. Cumplir con las exigencias de agencias de financiamiento: cada vez son más las agencias que exigen la presentación de planes de gestión de datos y/o el depósito de datos en repositorios como requisitos para la financiación de investigaciones
Infografía elaborada por el Servei de Biblioteques, Publicacións i Arxius de la Universitat Politècnica de Catalunya y traducida en la Sección de Información y Referencia del Servicio de Biblioteca de la Universidade da Coruña)
Una adecuada gestión de los datos científicos supone una ayuda al personal investigador a la hora de planificar su trabajo.
En primer lugar, si es necesario recopilar datos sobre un determinado campo científico debe conocer qué herramientas tiene a su alcance para poder consultar o reutilizar los datos ya almacenados por otros investigadores o investigadoras.
Algunas herramientas de búsqueda de datos de investigación que están a disposición de la comunidad investigadora son, entre otras:
- Dimensions: indexa los datos de una gran cantidad de fuentes para facilitar el acceso a los datos depositados en repositorios y bases de datos inconexas.
- Google Dataset Search: buscador de datasets en repositorios de datos científicos, bases de datos de gobiernos locales y nacionales, sitios web de editores/as y autores/as y otras fuentes.
- Zenodo: buscador de datos de investigación de la Unión Europea. Desarrollado por CERN Data Center e Invenio.
- Re3data: es una herramienta para la identificación de los repositorios adecuados para almacenar datos de investigación, que permite buscar y visualizar los principales repositorios de datos de investigación por disciplina, materia, país, contenidos, formatos, licencias, lenguaje, metadatos, etc.
Además, es indispensable que el conjunto de datos utilizados en el transcurso de una investigación (ya sean reutilizados o generados de nuevo) estén organizados y documentados.
Para ello, es importante seguir una serie de recomendaciones en cuanto al formato, estructura, control de versiones, organización de carpetas, nombre de los archivos, etc. que garanticen todo el proceso de uso, almacenamiento y preservación de los datos de investigación.
Otro aspecto a considerar es la forma en que se almacenarán y compartirán los datos durante la investigación.
Los datos se pueden almacenar en:
- PC/Ordenador portátil Almacenamiento óptico (CDs, DVDs).
- Unidades externas (USB, Disco duros)
- Servicio de almacenamiento institucional
- Almacenamiento en la nube (Onedrive, Google drive...)
A la hora de seleccionar una opción, es fundamental tener en cuenta la seguridad; los medios de almacenamiento deben garantizar la protección de los derechos de propiedad y si se trata con datos personales hay que controlar el acceso a los mismos, así como el intercambio y compartición de copias.
Se recomienda instalar antivirus, no utilizar el correo electrónico para enviar datos personales, utilizar contraseñas robustas capaces de resistir ataques informáticos y encriptar datos altamente sensibles.
El depósito y la reutilización de datos
Finalizada la investigación se debe decidir qué datos se van a mantener y archivar y cuales se van a eliminar, dónde se van a depositar, cuanto tiempo deben ser conservados, cómo será el acceso a estos datos, posibles periodos de embargo, etc. Para facilitar el acceso y preservación de los datos se recomienda depositarlos en repositorios institucionales o temáticos, dependiendo de las disciplinas y requerimientos de las agencias y organismos financiadores.
Depósito de datos en idUS
- Cumplir con la obligatoriedad de garantizar el acceso abierto a los datos producidos en el seno de proyectos de investigación financiados por Horizonte Europa o la Agencia Española de investigación.
- El requerimiento por parte de algunos editores/as de la disponibilidad en abierto de los datos vinculados a la publicación.
- La valoración por parte de ANECA del acceso abierto a los mismos.
Junto al depósito de datos es indispensable adjuntar un documento que ayude a otros investigadores o investigadoras a reutilizarlos de forma rápida y adecuada. Se trata de un archivo readme.txt para documentar los datos, en el que se incluya la información sobre quién creó los datos y por qué, una descripción de los datos, la metodología, las unidades de medida y las definiciones de códigos, etc. También puede incluir referencias a datos relacionados o al software.
Para elaborar este archivo puedes utilizar la plantilla de idUS, o también otras como la del Consorcio Madroño o la de DigitalCSIC.
Consulta aquí toda la información para depositar tus datos de investigación en idUS.
Licencias
Para establecer las condiciones de utilización de los datos deben asignarse licencias de uso. Las más conocidas son las Creative Commons (CC), y las Open Data Commons, más específicas para datos.
Los datos derivados de proyectos de investigación financiados deben depositarse con licencias CC-BY o CC0.
Citas
Los datos deben citarse correctamente, siguiendo un formato de citas específico y deben aparecer con el resto de las referencias bibliográficas de la publicación resultante.
DOI Citation Formatter es un servicio ofrecido por DataCite que construye automáticamente las citas conforme al estilo que seleccionemos a partir del DOI asignado a los datos.
Creador / s (Año de publicación). Título [Dataset]. Editor. Identificador (DOI/ Handle).
Infografía de REBIUN
Aspectos éticos y protección de datos
Los aspectos éticos afectan a los datos que se pueden mostrar, el tiempo y el anonimato de las personas implicadas, respetando la dignidad y la integridad para garantizar la privacidad y la confidencialidad.
Si la investigación implica experimentación con animales o seres humanos debe contar con la autorización, en el caso de la Universidad de Sevilla, del Comité ético, y si se va a trabajar con datos personales o sensibles es necesario contactar con la delegada de Protección de datos para cumplir con los requisitos del Tratamiento de Datos Personales en Actividades de Investigación.
Otra cuestión importante es informar y pedir consentimientos a los y las participantes en los estudios o investigaciones y, si es necesario, anonimizar los datos personales y/o sensibles antes de depositarlos y compartirlos. OpenAire recomienda utilizar la herramienta Amnesia.