Boletín SciELO-México: No pueden hacer todo Internet Archive y Wayback Machine / Por qué está desapareciendo para siempre una parte importante de la historia de internet (y qué se está haciendo para evitarlo)

viernes, 25 de octubre de 2024

No pueden hacer todo Internet Archive y Wayback Machine / Por qué está desapareciendo para siempre una parte importante de la historia de internet (y qué se está haciendo para evitarlo)

Publicado en BBC News
https://www.bbc.com/mundo/articles/cpw5djwlpjpo

Por qué está desapareciendo para siempre una parte importante de la historia de internet (y qué se está haciendo para evitarlo)

Chris Stokel-Walker
Título del autor, BBC Future
22 octubre 2024

Gracias a los fragmentos de papiro, mosaicos y tablillas de cera que han sobrevivido, es posible saber qué desayunaban los pompeyanos hace 2.000 años.

Si entiendes suficiente latín medieval, puedes saber cuánto ganado se criaba en las granjas de Northumberland en la Inglaterra del siglo XI, gracias al “Domesday Book”, el documento más antiguo que se conserva en los Archivos Nacionales de Reino Unido. Y, a través de cartas y novelas, se puede conocer la vida social de la época victoriana.

Pero, para los historiadores del futuro, podría llegar a ser difícil entender plenamente cómo vivíamos nuestras vidas a principios del siglo XXI. Esto se debe a que se podría borrar la historia de cómo vivimos nuestras vidas digitalmente y a la falta de esfuerzos oficiales para archivar la información del mundo tal como se produce en estos días.

Sin embargo, un grupo informal de organizaciones está haciendo frente a las fuerzas de la entropía digital, muchas de ellas operadas por voluntarios con poco apoyo institucional. Nada ejemplifica más la lucha por salvar la web que el Internet Archive, una organización estadounidense sin fines de lucro con sede en San Francisco, fundada en 1996 como un proyecto del pionero Brewster Kahle.

La organización está embarcada en lo que puede ser el proyecto de archivo digital más ambicioso de todos los tiempos: ha reunido 866.000 millones de páginas web, 44 millones de libros, 10,6 millones de videos de películas y programas de televisión y más.

Alojadas en un puñado de centros de datos repartidos por todo el mundo, las colecciones del Internet Archive y de unos pocos grupos similares son lo único que se interpone en el camino del olvido digital.

"Los riesgos son múltiples. No sólo que la tecnología pueda fallar (eso sin duda sucede). Pero lo que es más importante, que las instituciones fallen o las empresas quiebren. Las organizaciones de noticias son absorbidas por otras organizaciones de noticias o, cada vez con más frecuencia, son cerradas", dice Mark Graham, director de la Wayback Machine, del Internet Archive, una herramienta que recopila y almacena instantáneas de sitios web para la posteridad.

Hay numerosos incentivos para poner contenido en línea, dice, pero hay poco que impulse a las empresas a mantenerlo a largo plazo.

A pesar de los logros del Internet Archive hasta ahora, la organización y otras similares se enfrentan a amenazas financieras, desafíos técnicos, ciberataques y batallas legales de empresas a las que no les gusta la idea de tener copias de su propiedad intelectual disponibles gratuitamente.

Y como muestran recientes derrotas judiciales, el proyecto de salvar internet podría ser tan fugaz como el contenido que intenta proteger.

"Cada vez más de nuestros esfuerzos intelectuales, más de nuestro entretenimiento, más de nuestras noticias y más de nuestras conversaciones existen sólo en un entorno digital", dice Graham. "Ese entorno es intrínsecamente frágil".

Una cuarta parte de todas las páginas web que existían en algún momento entre 2013 y 2023 ya no existen. Así lo indica un estudio reciente del Pew Research Center, un grupo de expertos con sede en Washington DC, que dio la voz de alarma sobre la desaparición de nuestra historia digital.

Los investigadores descubrieron que el problema es más agudo cuanto más antigua es una página web: el 38% de las páginas web a las que Pew intentó acceder que existían en 2013 ya no funcionan. Pero también es un problema para las publicaciones más recientes. Alrededor del 8% de las páginas web publicadas en algún momento de 2023 desaparecieron en octubre de ese mismo año.

Esto no es solo una preocupación para los aficionados a la historia y los obsesivos de internet. Según el estudio, uno de cada cinco sitios web gubernamentales contiene al menos un enlace roto. Pew descubrió que más de la mitad de los artículos de Wikipedia tienen un enlace roto en su sección de referencias, lo que significa que la evidencia que respalda la información de la enciclopedia en línea se está desintegrando lentamente.

Pero gracias al trabajo del Internet Archive, no todos esos enlaces inactivos son totalmente inaccesibles. Durante décadas, el proyecto de la Wayback Machine del Internet Archive ha enviado ejércitos de robots a recorrer los laberintos de internet. Estos sistemas descargan copias funcionales de sitios web a medida que cambian con el tiempo y las ponen a disposición del público de forma gratuita.

"Cuando analizamos cuántas de esas URL estaban disponibles en la Wayback Machine, descubrimos que dos tercios de ellas lo estaban de alguna manera", afirma. En ese sentido, el Internet Archive está haciendo lo que se propuso: está guardando registros de la sociedad en línea para la posteridad.

Algunas otras organizaciones trabajan en proyectos similares. La Biblioteca del Congreso de Estados Unidos, por ejemplo, conserva los sitios web del gobierno, los sitios de los miembros del Congreso y una colección de sitios de noticias estadounidenses. La Biblioteca del Congreso también conservó una copia de cada uno de los tuits enviados desde la fundación de Twitter (ahora conocido como X), hasta que el proyecto se cerró en 2017.

Otros gobiernos llevan a cabo sus propias iniciativas. El Archivo Web de Reino Unido realiza un rastreo anual de sitios web con nombres de dominio .UK, capturando una instantánea de la internet británica al menos una vez al año.

Pero el alcance de estos proyectos es limitado, mientras que el Internet Archive apunta a un enfoque integral. Dependiendo de lo que esté buscando, la colección del Internet Archive es tan completa que a veces puede parecer un registro funcionalmente completo de la web.

El éxito genera complacencia

Los documentos de acceso público del archivo ayudan a mantener registros de nuestras vidas en la era actual. Se ha convertido en una práctica habitual en Wikipedia citar copias de sitios web de la Wayback Machine del Internet Archive, en lugar de los sitios web originales.

La organización también preserva una vasta colección de medios que data de antes de la era digital. Libros, revistas y sitios web citan las copias digitales escaneadas del Internet Archive de libros que no están disponibles en bibliotecas físicas. Incluso actúa como una herramienta de preservación para el público; cualquiera puede cargar videos, sitios web y prácticamente cualquier otra cosa a los servidores de la organización.

Entre las principales colecciones que Wayback Machine ha rescatado del basurero digital se encuentran registros profundos de sitios web creados en GeoCities, un servicio de alojamiento web personal que ya no existe. Mucho antes de las redes sociales, GeoCities fue una de las primeras plataformas que facilitó a cualquiera la creación de su propio sitio web. Los historiadores consideran a GeoCities como uno de los capítulos más importantes de los primeros días de la World Wide Web; sin los esfuerzos del Internet Archive, la mayoría de sus sitios web se habrían perdido.

"Cada pocos años aparece una nueva plataforma y luego las fuerzas económicas de repente colapsan", dice Andrew Jackson, arquitecto técnico del registro de preservación de la Coalición para la Preservarción Digital, un grupo de defensa y organización benéfica con sede en Reino Unido que asesora sobre cómo preservar los archivos digitales en línea del mundo.

El sitio web de noticias tecnológicas CNET enfrentó una reacción negativa en 2023 después de que se informara que la empresa había eliminado decenas de miles de artículos, lo que equivale a décadas de historia perdida. Entre las respuestas de CNET se encontraba la promesa de que todos sus artículos eliminados se habían conservado en la Wayback Machine. Muchos críticos argumentaron que la empresa estaba dando por sentado el Internet Archive, delegando sus propias responsabilidades de archivo.

"Aunque Google y otros motores de búsqueda incentivan activamente que mantengamos URL estables, técnicamente es bastante difícil hacerlo", dice Jackson. "Cada vez que una nueva empresa renueva su sitio web, tiene que calcular cuántas de sus nuevas URL intentará mantener a lo largo del tiempo".

En este punto vale la pena recordar qué es el Internet Archive: una organización sin fines de lucro, financiada por donaciones de fundaciones benéficas. Se trata de un proyecto interminable con costos que crecen exponencialmente. El Internet Archive se ofreció como voluntario para asumir el papel de la biblioteca líder mundial para nuestras vidas digitales. A medida que la web se acerca a su cuarta década, este proyecto se ha convertido en un pilar fundamental de internet.

Pero a medida que aumenta nuestra dependencia del Internet Archive, también lo hacen las amenazas que socavan sus esfuerzos.

Amenazas

La semana pasada, la organización anunció una importante asociación con Google, en la que el gigante tecnológico incluirá enlaces a la Wayback Machine en los resultados de búsqueda, aunque no se publicaron detalles financieros del acuerdo.

Sin embargo, otras noticias recientes demuestran que el proyecto sigue siendo frágil. Esa vulnerabilidad quedó al descubierto en un caso judicial contra el Internet Archive por parte de cuatro grandes editoriales de libros, que alegaron que la práctica de escanear libros físicos y prestar copias digitales viola la ley de derechos de autor en EE.UU.

Antes de la pandemia, el Internet Archive solo prestaba una copia digital a la vez de cada libro físico de su colección. Pero durante los cierres por covid, la organización levantó esa restricción, permitiendo a los usuarios tomar prestadas copias digitales ilimitadas de libros para intentar compensar el cierre de las bibliotecas físicas.

Un tribunal estadounidense dictaminó que esa práctica era ilegal en 2023 y, a principios de septiembre, la apelación del Internet Archive contra esa decisión fue rechazada. La organización dijo anteriormente que acordó pagar a un grupo comercial de la industria editorial una suma no revelada en relación con el caso.

El Internet Archive se enfrenta a otro proceso judicial con las discográficas por digitalizar discos que podría costarle US$400 millones si pierde. Es una cantidad que podría poner en peligro la supervivencia de la organización sin ánimo de lucro.

Las batallas legales existenciales no son los únicos peligros que amenazan al mundo de la preservación digital. El Archivo Web de Reino Unido de la Biblioteca Británica enfrentó un ciberataque que dejó fuera de línea sus sistemas digitales en octubre de 2023. Casi un año después, este archivo todavía está lidiando con las consecuencias. El acceso en línea a gran parte de su colección sigue sin estar disponible.

En mayo de 2024, el Internet Archive anunció que se encontraba en medio de un gran ataque de denegación de servicio. En un ataque de este tipo, los vándalos u otros actores maliciosos establecen sistemas automatizados para bombardear sitios web con visitas, intentando sacarlos de línea sobrecargando sus servidores. En su punto máximo, se producían decenas de miles de visitas simultáneas cada segundo. Los servicios, incluida la Wayback Machine, dejaron de funcionar. Esto significó que el ritmo regular del archivo se interrumpió por un tiempo y, como resultado, podrían quedar lagunas permanentes en el registro histórico.

El Internet Archive "fue creado por una sola persona y se ha convertido en una especie de eje", dice Jackson. "También parece un punto único de fallo potencial. Aunque es mucho más sofisticado que un grupo de voluntarios, es una institución en una región, bajo un marco legal".

La organización comparte estas preocupaciones. Si el trabajo del Internet Archive se detuviera y "ese vacío no se llenara de inmediato, entonces gran parte de lo que está disponible actualmente en la web pública estaría en riesgo", dice Graham.

Tiene claro que el Internet Archive no se apartará de sus responsabilidades en un futuro próximo, pero el proyecto puede beneficiarse de ayuda externa. "Hay oportunidades para que muchos otros contribuyan de diversas maneras", dice.

Responsabilidades compartidas, prioridades divididas

Sin un esfuerzo formal para organizar los intentos para preservar internet, esto queda en manos de aficionados, voluntarios y unos pocos organismos no oficiales que generalmente operan de forma independiente.

"Tiene sentido que la respuesta del archivo esté descentralizada", dice Mar Hicks, historiador de tecnología de la Universidad de Virginia, en EE.UU. "Pero uno de los problemas es la variedad de prioridades".

Hicks señala que una de las primeras cosas que cualquier archivista considerará al crear un archivo es qué priorizar. "Y cuando está todo tan descentralizado, las prioridades van a ser muy diferentes", dice Hicks.

La preocupación sobre un enfoque tan ad hoc y descentralizado es que es posible que haya superposiciones, lo que significa que se desperdician valiosos recursos de archivo obteniendo copias duplicadas o triplicadas de los sitios web más populares, todo mientras se pasan por alto algunas áreas que pueden tener importancia histórica porque caen entre las responsabilidades de diferentes grupos.

"Los archiveros dirán que estos problemas existen desde hace mucho tiempo", dice Hicks. Pero se ven exacerbados por el nivel de material que se produce en nuestro mundo digital. Se envían casi 1.000 millones de correos electrónicos todos los días. YouTube informa que se publican en la plataforma más de 500 horas de contenido de video cada minuto.

Internet es "esencialmente una manguera de información y material", dice Hicks. "No tiene sentido tratar de capturar todo lo que sale de la manguera. Eso no tendría sentido desde el punto de vista de los recursos".

Para Hicks, debe haber algún tipo de prioridad sobre lo que se está salvando de las huellas digitales de nuestra generación. De lo contrario, corremos el riesgo de que el rápido aumento de los costes haga a un lado los esfuerzos por salvar la historia de la web, por no hablar de los océanos de archivos digitales que se encuentran fuera de línea.

"Si hay que conservarlo todo, resulta muy caro", afirma Jackson, de la Coalisión por la Preservación Digital. "A menudo hay contenidos más antiguos o menos atractivos que se pierden en el camino", afirma.

"No estamos conservando bien el mundo no occidental", admite Jackson. "Ahora hay lagunas en torno a la incompletitud en diferentes ámbitos culturales".

Y aunque muchas de esas organizaciones trabajan para luchar contra sus sesgos y prejuicios, a menudo se les deja que carguen con el peso de la tarea mientras los gobiernos y las empresas que gestionan las plataformas y los sitios web se quedan de brazos cruzados. "Los grupos independientes de personas, que simplemente se preocupan por ello y están dispuestas a dedicar su tiempo libre a ello, tienen más recursos y están más cualificados que las instituciones que son formalmente responsables", afirma Jackson.

Según Hicks, hay un vacío que pocas personas, salvo un puñado de archivistas obsesivos, están llenando. "No está claro de quién es la responsabilidad de archivar [internet] o a qué interés serviría", dice.

Una cosa sí está clara, señala Hicks: todos deberíamos contribuir para apoyar la lucha por la preservación. "Desde una perspectiva muy pragmática, si no pagamos a estas personas y nos aseguramos de que estos archivos estén financiados, no existirán en el futuro, se desintegrarán y entonces el objetivo de recopilarlos se habrá ido por la ventana", dice Hicks.

"Porque el objetivo del archivo no es simplemente recopilar, sino que persista indefinidamente en el futuro".

Este artículo fue publicado en BBC Future. Haz clic aquí para leer la versión oginal (en inglés).

Boletín SciELO-México

viernes, 25 de octubre de 2024

No pueden hacer todo Internet Archive y Wayback Machine / Por qué está desapareciendo para siempre una parte importante de la historia de internet (y qué se está haciendo para evitarlo)

No hay comentarios:

Publicar un comentario

Declaración de Leiden sobre Inteligencia Artificial y Matemáticas

Denunciar abuso

Etiquetas