Publicado en The Scholarly Kitchen
https://scholarlykitchen.sspnet.org/2021/09/30/the-experience-of-good-metadata-linking-metadata-to-research-impacts/
La experiencia de los buenos metadatos: Vinculación de los metadatos con el impacto de la investigación
Por LETTIE Y. CONRAD, MICHELLE URBERG
30 DE SEPTIEMBRE DE 2021
¿Cuál es la “rentabilidad” de los metadatos consistentes? ¿Dónde está exactamente la prueba de que los metadatos marcan una diferencia medible en la vida de los investigadores y en los ciclos de vida de su trabajo?
Los metadatos enriquecidos, interconectados y reutilizables impulsan la capacidad de descubrimiento y la innovación en la investigación académica
Los metadatos de los editores alimentan los motores de descubrimiento y acceso a los recursos. La capacidad de los usuarios para encontrar y hacer un buen uso de los contenidos es un indicador clave del éxito tanto en el desarrollo de las colecciones como en las ventas de las editoriales.
Los especialistas en descubribilidad contratados por la mayoría de las grandes editoriales confirman estas inversiones en metadatos de contenidos y el enfoque de los proveedores de contenidos en el impacto de los metadatos en los flujos de trabajo de investigación.
Los estudios han demostrado que el descubrimiento y la entrega de contenidos son posibles gracias a los metadatos estándar de la industria, como los registros asociados a los DOI y otros identificadores persistentes. Dentro de esos registros, los atributos de mayor valor son los que permiten la desambiguación y ayudan a contextualizar un recurso.
Al analizar las palabras clave de búsqueda y las etiquetas de metadatos que contienen esos términos, los estudios han demostrado que los atributos de título y descripción son los más influyentes a la hora de conducir a los usuarios a los artículos de texto completo.
Esto coincide con las pruebas que vinculan la capacidad de descubrimiento con el enriquecimiento semántico, como el uso de ontologías en los metadatos académicos
El equipo de Scite considera que los metadatos de las citas son la clave para mejorar las experiencias de lectura, en particular para ayudar a los investigadores a establecer conexiones entre conceptos o estudios.
Varios estudios han relacionado la capacidad de los usuarios para recuperar el texto completo de los artículos de acceso abierto con el uso de metadatos de licencia precisos por parte de los editores. Asimismo, otros estudios han medido el impacto financiero de la reutilización de datos que permiten los identificadores persistentes, descubriendo que cuando los ORCID y los DOI se utilizan a lo largo del ciclo de vida de la investigación, empezando por la financiación de las subvenciones, el tiempo administrativo que se ahorra a los investigadores equivale a un ahorro de costes para sus instituciones.
Cuando se desvelan las capas de construcción y transmisión de metadatos para examinar los puntos de fricción en el flujo de trabajo de la investigación, se obtiene una visión de la desordenada cadena de suministro de editores, bibliotecas y proveedores de servicios. En conjunto, esta red de partes interesadas y expertos gestiona un gran volumen de datos bibliográficos (high-volume pipelines), identificadores persistentes, vocabularios controlados y terabytes de archivos XML, KBART y MARC que rodean los resultados académicos digitales. Cuando se examinan de cerca los casos de mala experiencia del usuario, como un enlace roto en las referencias citadas de un documento, la culpa puede ser de varios elementos. Una URL que antes era correcta puede quedar inutilizada si el contenido cambia de dominio, por ejemplo, durante una migración de plataforma o un cambio de marca. En las plataformas de agregación, como JSTOR, SCOPUS o ProQuest, si la fecha de publicación o los números de página de un artículo de revista son incorrectos, un enlace de URL abierta puede fallar y enviar a los usuarios a la página de inicio de la plataforma y no al artículo, o producir un mensaje de error 404. Casos como este han llevado a un progreso desigual hacia cambios significativos en los metadatos que producen beneficios medibles para los investigadores, estudiantes, profesores y bibliotecarios. Mientras que la prueba del impacto de los metadatos en los usuarios finales puede estar al acecho en los datos de propiedad, como el aumento del 90% de la capacidad de descubrimiento (90% discoverability increase) encontrado por la inversión en la tecnología semántica, carecemos de un marco compartido para medir nuestros rendimientos colectivos en el mantenimiento y enriquecimiento de los metadatos.
En un esfuerzo por desenterrar oportunidades para medir el retorno de la inversión en metadatos, recientemente hemos dedicado tiempo a buscar qué pruebas se pueden encontrar en los estudios y conjuntos de datos disponibles. ¿Qué puede decirnos la literatura sobre los vínculos entre los buenos metadatos y las buenas experiencias de información en la investigación académica?
Argumentar el caso de negocio
Desde que tenemos uso de razón, nuestro sector ha aceptado el hecho de que los buenos metadatos son beneficiosos para la investigación académica o, al menos, que la gestión de los metadatos es un coste aceptado para hacer negocios en el ecosistema actual de la publicación digital. La mayoría de las iniciativas de la NISO se centran en los metadatos. Metadata 2020 fue un programa inteligente dedicado a la mejora de la calidad y el impacto de los metadatos académicos, con la convicción de que los metadatos enriquecidos, interconectados y reutilizables impulsan la capacidad de descubrimiento y la innovación en la investigación académica (metadata fuels discoverability and innovation in scholarly research).
Para los editores de libros (books publishers), los metadatos de productos y contenidos se han establecido como la clave del éxito en la búsqueda y venta en línea. En parte, el rendimiento de las búsquedas basadas en metadatos se ha convertido en un indicador clave de rendimiento para la mayoría de los departamentos de marketing. Los bibliotecarios académicos han establecido las formas en que los metadatos de los editores (the ways publisher metadata) alimentan los motores de descubrimiento y acceso a los recursos. La capacidad de los usuarios para encontrar y hacer un buen uso de los contenidos es un indicador clave del éxito tanto en el desarrollo de las colecciones como en las ventas de las editoriales.
Por ello, muchas editoriales académicas han subvencionado medidas tanto internas como colectivas para mejorar los canales de metadatos (improve the metadata pipelines). La estrategia de metadatos es un componente de las estrategias de venta de algunas editoriales y puede ser un paso clave en el camino hacia la transformación digital (digital transformation). Los especialistas en descubribilidad contratados por la mayoría de las grandes editoriales (por ejemplo, los representantes de descubrimiento de contenidos que figuran en la lista de la Iniciativa de Open Discovery Initiative de la NISO) reflejan estas inversiones en metadatos de contenidos y el enfoque de los proveedores de contenidos en el impacto de los metadatos en los flujos de trabajo de investigación.
Pero, ¿cómo definimos la rentabilidad concreta de estas inversiones en metadatos? ¿Dónde está exactamente la prueba de que los metadatos marcan una diferencia medible en la vida de los investigadores y en los ciclos de vida de su trabajo?
Impacto de los metadatos en los flujos de trabajo de investigación
La bibliografía revela una fuerte conexión entre los metadatos y la posibilidad de encontrar los contenidos, es decir, el grado de recuperación de los contenidos desde una base de datos o un motor de búsqueda. En concreto, los estudios muestran una correlación positiva entre el éxito de la búsqueda y unos metadatos precisos y abiertos. En lo que respecta a la búsqueda, tanto la arquitectura de la información como su visualización (architecture of the information and its display) son factores que influyen en las experiencias positivas de los investigadores.
Sin embargo, el valor de unos metadatos precisos y utilizables va más allá del rendimiento de los motores de búsqueda. Los analistas han demostrado que unos metadatos precisos y accesibles son fundamentales para abordar el intercambio y la reutilización de datos (data sharing and reuse) de investigación en algunos campos de estudio. La importancia de la precisión de los metadatos se pone de manifiesto en estudios de casos, como el de la forma en que los errores de metadatos de Covid-19 (Covid-19 metadata errors) socavaron el análisis y la eficiencia de la investigación.
En los casos en los que los académicos se han esforzado por desarrollar un marco para juzgar la calidad de los metadatos, como una encuesta de investigadores de salud pública y epidemiología (public health and epidemiology), la exactitud y la accesibilidad de los metadatos ocupan un lugar más alto que otros indicadores. Los metadatos abiertos y precisos impulsan el análisis de la literatura y las revisiones sistemáticas que impulsan la investigación académica.
Los metadatos accesibles también son clave para servir a las iniciativas de ciencia abierta (open science initiatives), por ejemplo, donde se requieren datos semánticamente ricos para abordar las necesidades de investigación urgentes de hoy en día. La prioridad de contar con metadatos precisos se hace evidente cuando se considera la necesidad de contar con altmétricas fiables y consistentes (reliable, consistent altmetrics), que actualmente no cuentan con una fórmula estándar en la industria.
De acuerdo, sabemos que los metadatos deben ser precisos, accesibles y relevantes para que tengan valor en el flujo de trabajo de la investigación. ¿Qué más podemos extraer de la investigación existente que relaciona elementos específicos de los metadatos con beneficios tangibles para quienes trabajan con las comunicaciones académicas?
Vinculación de los elementos de metadatos y la experiencia del usuario
Los estudios han demostrado que el descubrimiento y la entrega de contenidos son posibles gracias a los metadatos estándar de la industria (industry-standard metadata elements), en particular los elementos de metadatos estándar de la industria, como los registros asociados a los DOI y otros identificadores persistentes. Dentro de esos registros, los atributos de mayor valor son los que permiten la desambiguación y ayudan a contextualizar un recurso.
Al analizar las palabras clave de búsqueda y las etiquetas de metadatos que contienen esos términos, los estudios han demostrado (studies have demonstrated) que los atributos de título y descripción son los más influyentes a la hora de conducir a los usuarios a los artículos de texto completo. Esto coincide con las pruebas que vinculan la capacidad de descubrimiento con el enriquecimiento semántico, como el uso de ontologías en los metadatos académicos, donde la investigación epidemiológica (epidemiological research) ofrece una vez más un valioso caso de uso. Las herramientas semánticas también ofrecen a los especialistas en humanidades eficiencia, además de abrir nuevas líneas de investigación y oportunidades para ampliar el crowdsourcing experto de metadatos enriquecidos (expert crowdsourcing of enriched metadata). La gente de Scite considera que los metadatos de las citas (citation metadata) son la clave para mejorar las experiencias de lectura, en particular para ayudar a los investigadores a establecer conexiones entre conceptos o estudios.
Varios estudios han relacionado la capacidad de los usuarios para recuperar el texto completo de los artículos de acceso abierto con el uso de metadatos de licencia precisos por parte de los editores (véase, por ejemplo, un estudio sobre metadatos de revistas híbridas - hybrid journal). Esto sugiere un futuro prometedor para las nuevas recomendaciones de ALI (new ALI recommendations). El equipo de More Brains ha hecho un buen trabajo midiendo el impacto financiero de la reutilización de datos que permiten los identificadores persistentes (persistent identifiers). Descubrieron que cuando los ORCID y los DOI se utilizan a lo largo del ciclo de vida de la investigación, empezando por la financiación de las subvenciones, el tiempo administrativo que se ahorra a los investigadores equivale a un ahorro de costes para sus instituciones.
Cuando emparejamos estos hilos probatorios, los elementos de metadatos, las normas y las calidades se vinculan directamente con impactos medibles en el ciclo de vida de las comunicaciones académicas. Por ejemplo, podemos relacionar estos emparejamientos de metadatos/impacto:
- Metadatos de título y descripción de alta calidad → mejora de la búsqueda y recuperación de texto completo
- Metadatos semánticos precisos y accesibles → permiten el análisis programático de datos
- Identificadores persistentes (ORCIDs y DOIs) → ahorra tiempo y costes administrativos
Es probable que existan muchos otros emparejamientos de metadatos/impacto de valor para nuestra industria, que podrían impulsar nuestros esfuerzos colectivos hacia el desarrollo de puntos de referencia estándar para el éxito de los metadatos.
Metadatos: se necesita un pueblo
El hecho es que no podemos resolver todos los eslabones rotos del ecosistema, por mucho que nos gustaría hacer todo lo posible para reducir la fricción del usuario y aumentar la productividad de la investigación. Según nuestra experiencia, el mayor rendimiento de las inversiones en metadatos se obtiene cuando los editores, las bibliotecas y los tecnólogos trabajan juntos para ampliar la producción y el mantenimiento de metadatos de calidad. Aquí es donde entran en juego las normas de información y las condiciones de compromiso, para establecer la confianza necesaria en una cadena de valor como la de las comunicaciones académicas. Identificadores como el DOI o protocolos como KBART proporcionan la infraestructura básica sobre la que funciona el mundo académico.
Los que formamos parte de esta red de información sobre investigación tenemos la responsabilidad colectiva de garantizar que los metadatos que rodean a los activos académicos sean precisos, interoperables, conformes a las normas y ampliamente distribuidos. Le animamos, querido lector, a que se dirija a organizaciones como NISO, Jisc y otras para echar una mano y poner de su parte para mejorar las experiencias positivas de los usuarios de la información generadas por unos buenos metadatos.
**************************
The Experience of Good Metadata: Linking Metadata to Research Impacts
By LETTIE Y. CONRAD, MICHELLE URBERG
SEP 30, 2021
When we peel back the layers of metadata construction and transmission to examine points of friction in the research workflow, we get a glimpse into the messy supply chain of publishers, libraries, and service providers. Together, this network of stakeholders and experts manage high-volume pipelines of bibliographic data, persistent identifiers, controlled vocabularies, and terabytes of XML, KBART, and MARC files that surround digital scholarly outputs. When you closely examine instances of poor user experience, like a broken link in a paper’s cited references, multiple pieces of information could be to blame. A previously correct URL can be rendered useless if content switches domains, such as during a platform migration or rebranding. In aggregator platforms, like JSTOR, SCOPUS, or ProQuest, if the publication date or page numbers are incorrect for a journal article, an open URL link can fail and send users to the platform homepage and not the article — or produce a 404-error message.Cases like this have led to uneven progress toward meaningful changes in metadata that produce measurable benefits to researchers, students, faculty, and librarians. While proof of metadata’s impact on end-users may lurk in proprietary data, such as the 90% discoverability increase found by investment in semantic technology, we lack a shared framework to measure our collective returns on metadata maintenance and enrichment.
In an effort to unearth opportunities to measure metadata ROI, we recently spent time looking for what evidence can be found in available studies and datasets. What can the literature tell us about links between good metadata and good information experiences in scholarly research?
Making the business case
For as long as we can remember, our industry has accepted the fact that good metadata does good things for scholarship — or, at very least, that metadata management is an accepted cost of doing business in today’s digital publishing ecosystem. A majority of NISO initiatives are focused on metadata. Metadata 2020 was a clever program dedicated to the improvement of scholarly metadata’s quality and impact, believing that enriched, interconnected, and reusable metadata fuels discoverability and innovation in scholarly research.
For books publishers, product and content metadata has long been established as key to success in online discovery and sales. In part, metadata-driven search performance has become a key performance indicator for most marketing departments. Academic librarians have established the ways publisher metadata fuels the engines of resource discovery and access. Users’ ability to find and make good use of content are key metrics of success in both collection development and publisher sales.
Therefore, many scholarly publishers have subsidized both internal and collective measures to improve the metadata pipelines. Metadata strategy is a component of some publisher sales strategies and can be a key step on the road to digital transformation. Discoverability specialists employed by most major publishers (e.g., the content discovery representatives listed by NISO’s Open Discovery Initiative) reflect these investments in content metadata and content providers’ focus on metadata’s impact on research workflows.
But, how do we define concrete ROI for these metadata investments? Where exactly is the proof that metadata makes a measurable difference to the lives of researchers and the life cycles of their work?
Metadata impacts on research workflows
The literature reveals a strong connection between metadata and content findability, or the degree to which content is retrievable from a database or search engine. Specifically, studies show a positive correlation between search success and accurate as well as open metadata. When it comes to search, both the architecture of the information and its display factor into positive researcher experiences.
The value of precise, usable metadata goes beyond search engine performance, however. Analysts have demonstrated how accurate and accessible metadata is critical to addressing research data sharing and reuse in some fields of study. The importance of metadata accuracy is underscored by case studies, such as how Covid-19 metadata errors undermined research analysis and efficiency.
Where scholars have endeavored to develop a framework for judging metadata quality, such as a survey of public health and epidemiology researchers, metadata accuracy and accessibility rank higher than other indicators. Open and accurate metadata fuels robust literature analysis and systematic reviews that drive scholarly research. Accessible metadata is also key to serving open science initiatives, for example, where semantically rich data is called for to address today’s pressing research needs. The priority for accurate metadata becomes clear when considering a need for reliable, consistent altmetrics, which does not currently have an industry-standard formula.
Ok, we know that metadata must be accurate, accessible, and relevant to be of value to the research workflow. What else can we glean from existing research that links specific metadata elements with tangible benefits to those working with scholarly communications?
Linking metadata elements and user experience
Studies have shown that content discovery and delivery are made possible by industry-standard metadata, in particular industry-standard metadata elements, such as records associated with DOIs and other persistent identifiers. Within those records, the highest value attributes are those that enable disambiguation and help contextualize a resource.
By analyzing search keywords and the metadata tags containing those terms, studies have demonstrated how the title and description attributes were the most influential in successfully driving users to full-text articles. This resonates with the evidence linking discoverability with semantic enrichment, such as the use of ontologies in scholarly metadata, where epidemiological research once again offers a valuable use case. Semantic tools also offer humanities scholars efficiency, as well as opening up new lines of inquiry and opportunities to scale expert crowdsourcing of enriched metadata. The folks at Scite see citation metadata as a key to improving reading experiences, in particular, to help researchers draw connections between concepts or studies.
Several studies have connected users’ ability to retrieve the full-text of open-access articles to publishers’ use of accurate licensing metadata (see for example a study on hybrid journal metadata). This suggests a promising future for the new ALI recommendations. The team at More Brains has done some fine work measuring the financial impacts of data reuse enabled by persistent identifiers. They found that when ORCIDs and DOIs are used throughout the research lifecycle, starting with grant funding, the administrative time saved for researchers equates to cost savings for their institutions.
When we pair these evidentiary threads together, metadata elements, standards, and qualities link directly with measurable impacts on the scholarly communications lifecycle. For instance, we can connect these metadata/impact pairings:
High-quality title & description metadata → improved full-text search and retrieval
Accurate and accessible semantic metadata → enables programmatic data analysis
Persistent identifiers (ORCIDs and DOIs) → saves administrative time & costs
There are likely many other metadata/impact pairings of value to our industry that would further our collective efforts toward developing standard benchmarks for metadata successes.
Metadata: it takes a village
The fact is, we cannot resolve every broken link in the ecosystem, as much as we would like to do everything possible to reduce user friction and increase research productivity. In our experience, the highest return on metadata investments comes where publishers, libraries, and technologists work together to scale the production and maintenance of quality metadata. This is where information standards and terms of engagement come into play, to establish the trust necessary in a value chain like scholarly communications. Identifiers like the DOI or protocols like KBART provide the basic infrastructure upon which scholarship operates.
Those of us within this network of research information have a collective responsibility to ensure the metadata surrounding scholarly assets are accurate, interoperable, standards-compliant, and widely distributed. We encourage you, dear reader, to reach out to organizations like NISO, Jisc, and others to lend a hand and do your part to improve the positive information-user experiences generated by good metadata.
The authors would like to thank Jennifer Kemp at Crossref for the inspiration to take this dive into the metadata literature and reflect on its impact on research information experiences. Special thanks to Michelle’s former colleagues, who supported the 360 Knowledgebase and Summon, for assistance with the discussion about linking failures.
***********