Publicado en Nature
https://www.nature.com/articles/d41586-024-00616-5
Millones de documentos de investigación corren el riesgo de desaparecer de Internet
Un análisis de los DOI sugiere que la preservación digital no está a la altura del floreciente conocimiento académico.
Por Sarah Wild
Según un estudio de más de siete millones de publicaciones digitales, más de una cuarta parte de los artículos académicos no se archivan ni conservan adecuadamente. Los resultados, publicados en Journal of Librarianship and Scholarly Communication el 24 de enero1, indican que los sistemas de conservación de documentos en línea no han seguido el ritmo de crecimiento de la producción investigadora.
"Toda nuestra epistemología de la ciencia y la investigación se basa en la cadena de notas a pie de página", explica el autor Martin Eve, investigador en literatura, tecnología y edición de Birkbeck, Universidad de Londres. "Si no puedes verificar lo que alguien ha dicho en algún otro punto, sólo estás confiando en la fe ciega de unos artefactos que ya no puedes leer por ti mismo".
Eve, que también trabaja en investigación y desarrollo en la organización de infraestructuras digitales Crossref, comprobó si 7.438.037 obras etiquetadas con identificadores de objetos digitales (DOI) se conservan en archivos. Los DOI, que consisten en una cadena de números, letras y símbolos, son huellas dactilares únicas que se utilizan para identificar y enlazar a publicaciones específicas, como artículos académicos e informes oficiales. Crossref es la mayor agencia de registro de DOI, que asigna los identificadores a unos 20.000 miembros, entre ellos editoriales, museos y otras instituciones.
La muestra de DOI incluidos en el estudio estaba formada por una selección aleatoria de hasta 1.000 registrados en cada organización miembro. El 28% de estas obras -más de dos millones de artículos- no aparecían en ningún archivo digital importante, a pesar de tener un DOI activo. Sólo el 58% de los DOI hacían referencia a obras que habían sido almacenadas en al menos un archivo. El 14% restante se excluyó del estudio por haberse publicado demasiado recientemente, no ser artículos de revistas o no tener una fuente identificable.
El reto de la conservación
Eve señala que el estudio tiene limitaciones: a saber, que sólo rastreó artículos con DOI y que no buscó artículos en todos los repositorios digitales (no comprobó si los artículos con DOI estaban almacenados en repositorios institucionales, por ejemplo).
No obstante, los especialistas en preservación han acogido favorablemente el análisis. "Ha sido difícil conocer el alcance real del reto de la preservación digital al que se enfrentan las revistas electrónicas", afirma William Kilbride, director general de la Digital Preservation Coalition, con sede en York (Reino Unido). La coalición publica un manual en el que se detallan las buenas prácticas de preservación.
"Mucha gente tiene la suposición ciega de que si tienes un DOI, está ahí para siempre", dice Mikael Laakso, que estudia la publicación académica en la Hanken School of Economics de Helsinki."Pero eso no significa que el enlace funcione siempre".En 2021, Laakso y sus colegas informaron2 de que más de 170 revistas de acceso abierto habían desaparecido de Internet entre 2000 y 2019.
Kate Wittenberg, directora gerente del servicio de archivo digital Portico, de Nueva York, advierte de que los pequeños editores corren más riesgo de no conservar los artículos que los grandes."Preservar contenidos cuesta dinero", afirma, y añade que archivar implica una infraestructura, una tecnología y unos conocimientos a los que muchas organizaciones pequeñas no tienen acceso.
El estudio de Eve sugiere algunas medidas que podrían mejorar la preservación digital, entre ellas unos requisitos más estrictos en las agencias de registro DOI y una mejor educación y concienciación sobre el tema entre editores e investigadores.
"Todo el mundo piensa en los beneficios inmediatos que puede reportar la publicación de un artículo en algún sitio, pero en realidad deberíamos pensar en la sostenibilidad a largo plazo del ecosistema de investigación", afirma Eve. "Cuando lleves 100 años muerto, ¿podrá la gente acceder a las cosas en las que has trabajado?".
doi: https://doi.org/10.1038/d41586-024-00616-5
Actualizaciones y correcciones
Aclaración 05 marzo 2024: El titular de esta noticia se ha modificado para reflejar el hecho de que algunos de estos trabajos no han desaparecido por completo de Internet. Más bien, muchos de ellos siguen siendo accesibles pero no han sido archivados correctamente.
****************************
NEWS
04 March 2024
Clarification 05 March 2024
Millions of research papers at risk of disappearing from the Internet
An analysis of DOIs suggests that digital preservation is not keeping up with burgeoning scholarly knowledge.
By Sarah Wild
More than one-quarter of scholarly articles are not being properly archived and preserved, a study of more than seven million digital publications suggests. The findings, published in the Journal of Librarianship and Scholarly Communication on 24 January1, indicate that systems to preserve papers online have failed to keep pace with the growth of research output.
“Our entire epistemology of science and research relies on the chain of footnotes,” explains author Martin Eve, a researcher in literature, technology and publishing at Birkbeck, University of London. “If you can’t verify what someone else has said at some other point, you’re just trusting to blind faith for artefacts that you can no longer read yourself.”
Eve, who is also involved in research and development at digital-infrastructure organization Crossref, checked whether 7,438,037 works labelled with digital object identifiers (DOIs) are held in archives. DOIs — which consist of a string of numbers, letters and symbols — are unique fingerprints used to identify and link to specific publications, such as scholarly articles and official reports. Crossref is the largest DOI registration agency, allocating the identifiers to about 20,000 members, including publishers, museums and other institutions.
The sample of DOIs included in the study was made up of a random selection of up to 1,000 registered to each member organization. Twenty-eight percent of these works — more than two million articles — did not appear in a major digital archive, despite having an active DOI. Only 58% of the DOIs referenced works that had been stored in at least one archive. The other 14% were excluded from the study because they were published too recently, were not journal articles or did not have an identifiable source.
Preservation challenge
Eve notes that the study has limitations: namely that it tracked only articles with DOIs, and that it did not search every digital repository for articles (he did not check whether items with a DOI were stored in institutional repositories, for example).
Nevertheless, preservation specialists have welcomed the analysis. “It’s been hard to know the real extent of the digital preservation challenge faced by e-journals,” says William Kilbride, managing director of the Digital Preservation Coalition, headquartered in York, UK. The coalition publishes a handbook detailing good preservation practice.
“Many people have the blind assumption that if you have a DOI, it’s there forever,” says Mikael Laakso, who studies scholarly publishing at the Hanken School of Economics in Helsinki. “But that doesn’t mean that the link will always work.” In 2021, Laakso and his colleagues reported2 that more than 170 open-access journals had disappeared from the Internet between 2000 and 2019.
Kate Wittenberg, managing director of the digital archiving service Portico in New York City, warns that small publishers are at higher risk of failing to preserve articles than are large ones. “It costs money to preserve content,” she says, adding that archiving involves infrastructure, technology and expertise that many smaller organizations do not have access to.
Eve’s study suggests some measures that could improve digital preservation, including stronger requirements at DOI registration agencies and better education and awareness of the issue among publishers and researchers.
“Everybody thinks of the immediate gains they might get from having a paper out somewhere, but we really should be thinking about the long-term sustainability of the research ecosystem,” Eve says. “After you’ve been dead for 100 years, are people going to be able to get access to the things you’ve worked on?”
doi: https://doi.org/10.1038/d41586-024-00616-5
Updates & Corrections
Clarification 05 March 2024: The headline of this story has been edited to reflect the fact that some of these papers have not entirely disappeared from the Internet. Rather, many papers are still accessible but have not been properly archived.
References
Eve, M. P. J. Libr. Sch. Commun. 12, eP16288 (2024).
Laakso, M., Matthias, L. & Jahn, N. J. Assoc. Inf. Sci. Technol. 72, 1099–1112 (2021).
No hay comentarios:
Publicar un comentario