Publicado en The Scholarly Kitchen
https://scholarlykitchen.sspnet.org/2025/10/07/guest-post-have-you-proved-youre-human-today-open-content-and-web-harvesting-in-the-ai-era/?informz=1&nbd=567d61ec-36ea-4197-85eb-43e2bd36d175&nbd_source=informz
Artículo invitado: «¿Has demostrado hoy que eres humano?» Contenido abierto y recolección web en la era de la IA
Por Kate Dohe
7 de octubre de 2025
Nota del editor: La publicación de hoy es de Kate Dohe. Kate es directora de Programas e Iniciativas Digitales de las Bibliotecas de la Universidad de Maryland. Supervisa una amplia cartera que incluye la gestión de las plataformas y aplicaciones de las bibliotecas, la presencia en la web y las estrategias de descubrimiento, las iniciativas digitales y la producción y conservación de contenidos digitales.
Imagina una fiesta callejera o un flash mob ocupando tu biblioteca, día tras día, impidiendo que los usuarios utilicen los recursos o realicen cualquier tarea. Cada vez más personal de la biblioteca tiene que desviarse para gestionar estos flash mobs, pero casi no hay mecanismos para impedirles el acceso a la biblioteca sin limitar el acceso a los usuarios habituales. Todas las soluciones internas que prueba su equipo de acceso solo funcionan temporalmente, en el mejor de los casos, lo que empuja a su equipo a considerar la inversión en nuevos y costosos torniquetes y guardias de seguridad independientes... de una empresa que, casualmente, tiene estrechas relaciones industriales con los flash mobs. Esto puede parecer absurdo, pero es efectivamente lo que está sucediendo con las propiedades de las bibliotecas digitales, que abarcan colecciones digitales, repositorios institucionales, catálogos, sistemas de archivo y plataformas de descubrimiento.
Los bots de recolección web con IA se están convirtiendo en un importante problema de gestión informática para los sitios web con gran cantidad de contenido en numerosos sectores. Se trata de una consecuencia tanto de la explosión de la demanda del mercado como de las opciones técnicas y el enorme consumo de recursos de los recolectores con IA en comparación con los rastreadores web tradicionales. Para entrenar los modelos de IA de forma eficaz, los operadores humanos necesitan recopilar y mantener un corpus masivo de contenido digital. Gran parte de esos datos se agregan de forma indiscriminada, sin tener en cuenta los derechos o deseos de los creadores originales, ni de los editores web y las plataformas que ofrecen el contenido. Esta actividad es ampliamente conocida y constituye en sí misma un tema legal y ético complejo.
Los rastreadores web, también conocidos como «bots» o recolectores, han sido una parte establecida y esencial de Internet durante décadas; en particular, son los que dan soporte a los motores de búsqueda y a los archivos web. Históricamente, estos bots han seguido reglas predecibles, a menudo estipuladas en un archivo de texto «robots», sobre la velocidad de recolección, las páginas que se deben excluir e incluso los bots que se permiten o se deniegan. La cantidad de estos operadores de bots tradicionales también ha sido limitada.
Las bibliotecas se han beneficiado enormemente al permitir el acceso a los recolectores de Google, Microsoft, DuckDuckGo, Internet Archive y otros indexadores bien comportados durante los últimos treinta años, y muchos repositorios de acceso abierto dependen en gran medida del tráfico de referencia de los motores de búsqueda, así como de los servicios Wayback Machine y ArchiveIt de Internet Archive. Este acuerdo mutuamente beneficioso es el resultado de muchos años de comunicación abierta y colaboración entre la comunidad de profesionales de las bibliotecas digitales y los ingenieros de esas organizaciones, lo que ha dado lugar a las normas de recolección y los estándares de intercambio de datos que sustentan los sistemas bibliotecarios abiertos.
(Mal) comportamiento de los bots de IA
Los recolectores de IA se diferencian de estos rastreadores tradicionales en varios aspectos clave. En primer lugar, son más numerosos: hay más personas, investigadores de IA y empresas privadas dedicadas al negocio de la formación en IA que las que han gestionado motores de búsqueda. Dado que ese grupo tan amplio y diverso de recolectores tiene motivos y métodos diferentes para recolectar contenido, las propiedades web experimentan un volumen considerablemente mayor de eventos de rastreo. Esto provoca un aumento de la carga en la red causada por la recolección de bots y obliga a los administradores de sistemas a jugar sin cesar al «whack-a-mole» con los bots. Sin nadie a quien contactar para calibrar el rastreador y mantenerlo dentro de los límites del sitio (como sería el caso de Google o Microsoft), la siguiente opción disponible para los administradores del sitio es bloquear los recolectores que se comportan mal, lo que solo funciona hasta que aparece el siguiente.
En segundo lugar, estos bots también pueden infringir muchas de las normas establecidas para los rastreadores web: los bots con peor comportamiento ignoran cualquier instrucción del sitio que figure en el archivo robots. Además, en lugar de utilizar un único rastreador para buscar actualizaciones periódicamente, los operadores de IA envían deliberadamente redes de bots a una única propiedad web para descargar el máximo contenido posible, lo más rápido posible, lo que genera una presión considerable sobre el uso de los recursos del servidor y hace que el sitio o sus servicios sean inestables para los usuarios legítimos. En el proceso, intentan eludir las técnicas tradicionales de gestión del tráfico suplantando a los visitantes humanos del sitio y desarrollando estrategias cada vez más sofisticadas para evadir cualquier bloqueo a nivel del sistema, por lo que intentar bloquear los bots significa potencialmente bloquear a nuestros usuarios humanos.
No todos los actores buscan activamente eludir los límites; muchos simplemente desconocen las normas y prácticas históricas que han evolucionado con el tiempo para gestionar el rastreo web. La facilidad con la que ahora cualquiera puede desarrollar e implementar un rastreador de IA y crear su propio servicio de IA significa que hay miles de nuevos rastreadores, desde investigadores hasta aspirantes a tecnólogos simplemente curiosos o hackers de scripts extraescolares, todos ellos entrando en un espacio tecnológico que antes estaba limitado a las grandes empresas. Esta nueva frontera abierta hace mucho más difícil negociar y aplicar buenas prácticas que impongan límites razonables al rastreo sin bloquear el uso legítimo y poner en peligro las relaciones y acuerdos existentes que han funcionado durante años.
Los bots como ataque de denegación de servicio
Como resultado, cuando estos rastreadores invaden un sitio web, imitan eficazmente un ataque distribuido de denegación de servicio (DDoS), un ataque malicioso común diseñado para dejar fuera de línea un sitio web al saturar el servidor con solicitudes de contenido. Si bien los administradores del sitio pueden responder a incidentes ocasionales en el momento, pueden ser extremadamente difíciles de gestionar de forma recurrente y exigen mucha atención por parte de los equipos de sistemas.
Dependiendo de la infraestructura de una organización, esto puede afectar a una sola aplicación o puede tener un efecto dominó en todo un grupo de sistemas al desviar recursos de otras aplicaciones en un esfuerzo por mantener el sitio que se está recolectando en línea, o agotar los recursos informáticos aguas arriba o aguas abajo del sitio web afectado. Estos rastreos son costosos, especialmente en infraestructuras en la nube como Amazon Web Services, ya que pueden inflar enormemente el ancho de banda y el uso de memoria de una aplicación con increíble rapidez. Hacen que los análisis del sitio sean prácticamente inútiles. Exigen una gran cantidad de atención por parte de los administradores de TI, lo que les aleja de otras tareas de seguridad esenciales. Muchos administradores de sitios de todos los rincones de la web han luchado contra las recolecciones de IA, desde foros de discusión de la vieja escuela hasta plataformas de comercio electrónico, y ha surgido toda una industria artesanal de soluciones de TI para empresas con el fin de combatir el problema.
Este es un problema pernicioso para las bibliotecas académicas, en aspectos que difieren de otras industrias. Las bibliotecas han invertido mucho dinero, tiempo y personal en el ecosistema digital abierto durante las últimas décadas, y un repositorio individual puede contener fácilmente muchos terabytes de contenido único y disponible públicamente. Queremos que esos recursos se encuentren y se utilicen, y históricamente hemos fomentado la recolección mediante bots para la búsqueda y el descubrimiento de contenido digital abierto mediante la generación de metadatos estructurados y fáciles de rastrear. Estas inversiones profesionales nos convierten ahora en un objetivo especialmente atractivo para los recolectores de IA, ya que pueden obtener datos de mucha mayor calidad para el entrenamiento de modelos que otras propiedades.
Las bibliotecas tienden a generar grandes cantidades de enlaces en nuestro contenido original, como guías de investigación, así como en nuestras interfaces de búsqueda, por lo que los rastreadores que normalmente entrarían y saldrían de un sitio web más tradicional permanecen en él, consumiendo recursos de la biblioteca durante horas, descargando grandes corpus de texto y medios, y siguiendo enlaces generados para realizar consultas de búsqueda cuyas combinaciones pueden ser casi infinitas. Los equipos y recursos de TI de las bibliotecas suelen ser mucho más reducidos que los de las organizaciones comerciales, y dependemos en gran medida de la infraestructura de código abierto para dar soporte y mantener nuestros sistemas. Entre la IA y el aumento de los ataques de ciberseguridad contra el patrimonio cultural y las instituciones de educación superior, esos equipos se encuentran efectivamente en una carrera armamentística imposible de ganar. En el reciente informe técnico de Michael Weinberg, «¿Están los bots de IA dejando fuera de línea el patrimonio cultural?», se puede encontrar un análisis exhaustivo de este problema y del alcance de su impacto.
Por último, las bibliotecas y los sistemas digitales que mantenemos deben ofrecer fundamentalmente permanencia y estabilidad a nuestras comunidades y usuarios. Les decimos que Handle funcionará, que el documento está disponible y que el índice de búsqueda es receptivo. El incumplimiento de esa promesa erosiona la confianza de los usuarios en nuestros sistemas y los empuja hacia otras fuentes y servicios que no velan por sus intereses.
Estrategias de respuesta
Las estrategias técnicas específicas para gestionar estos problemas quedan fuera del alcance de este artículo y, de hecho, resulta contraproducente difundirlas ampliamente, ya que la comunidad de rastreadores podría analizar esos métodos para eludirlos. Sin embargo, las soluciones suelen clasificarse en unas pocas categorías generales, todas ellas bien conocidas por los rastreadores de IA.
Bloqueo de direcciones IP: El bloqueo de IP a gran escala en el momento del evento es uno de los mecanismos más comunes, que a menudo da como resultado el bloqueo temporal de millones de IP. Este enfoque «justo a tiempo» es frustrante y agotador para el personal de sistemas y no contribuye mucho a la gestión de los costes de red. Existen diversas «listas de bloqueo de IA» disponibles (algunas gratuitas y otras de pago), pero estas y otras medidas de bloqueo masivo también pueden dar lugar a una mayor incidencia de falsos positivos, lo que significa que los visitantes legítimos también se ven bloqueados sin posibilidad de recurso. Este método se considera ahora en su mayor parte ineficaz, ya que las redes de bots de IA ahora falsifican fácilmente las direcciones o pueden desplegarse desde cualquier lugar de forma geográficamente distribuida.
Comprobaciones de humanidad: Las «comprobaciones de humanidad» proporcionadas por los proveedores, como los CAPTCHA y el producto Turnstile de Cloudflare, piden a los usuarios finales que demuestren que son humanos, ya sea haciendo clic en algo de la página o mediante un análisis adicional de su comportamiento en la web y su navegador. Estos servicios pueden resultar costosos para las bibliotecas, perjudicar la experiencia del usuario final, aumentar el tiempo que el personal dedica a la resolución de problemas y, en última instancia, crear barreras a la accesibilidad digital. También tienen el efecto indeseable de bloquear los rastreadores legítimos, lo que afecta a las herramientas de análisis de sitios de Google y a otros agentes automatizados de los que dependemos.
Cortafuegos: Los servicios de cortafuegos mejorados que ofrecen los principales proveedores de infraestructura web, como Amazon, pueden requerir una inversión financiera considerable y, a menudo, están fuera del alcance de los presupuestos de las bibliotecas. Irónicamente, estos servicios suelen promocionar su uso de la IA para detectar bots de IA y responder a los eventos de recolección de datos de manera más eficaz. Irónicamente, también suelen vender sus servicios a los propios rastreadores de IA (además de ejecutar a menudo sus propios rastreos) y contribuyen a facilitar la avalancha de nuevos recolectores. Puede parecer, en cierta medida, como pagar dinero a una empresa para que nos defienda de las actividades de sus otros clientes.
Honeypots: Algunos desarrolladores web han creado estrategias para atrapar a los rastreadores, a menudo ocultando un enlace en una página web que los bots seguirán y que luego activará una prohibición de IP. Esto puede ser eficaz temporalmente, pero requiere un mantenimiento continuo. También hay que tener especial cuidado para evitar que estos honeypots afecten inadvertidamente a los usuarios de lectores de pantalla y otras tecnologías de asistencia.
Autenticación/listas blancas: Restringir totalmente el acceso al contenido y a los sistemas a los usuarios autenticados o incluidos en la lista blanca, impidiendo el acceso abierto a los materiales. De todos los métodos enumerados, esta es la solución más barata y eficaz en este momento, aunque sea contraria a los principios de acceso público de muchas bibliotecas.
La mayoría de las instituciones implementan una combinación de estas técnicas y ajustan constantemente sus estrategias en una carrera armamentística sin fin con los rastreadores. No existe una solución única para todos los casos y, al igual que ocurre con las prácticas de ciberseguridad en general, el enfoque más eficaz sigue el modelo de defensa en profundidad: emplear estrategias en todos los niveles de su entorno informático, desde los routers que dirigen el tráfico a su institución hasta las aplicaciones que gestionan y distribuyen su contenido.
El camino por delante
Los rastreadores de IA, sus repercusiones y las soluciones especulativas plantean una serie de importantes cuestiones éticas y estratégicas que las bibliotecas deben abordar. ¿Es esto realmente lo que entendemos por «abierto»? ¿Podemos diferenciar el comportamiento de nuestros sistemas de los motivos de la persona u organización que los opera? ¿Debemos dedicarnos a juzgar qué visitantes y usos de los sitios web son «buenos» y cuáles «malos»? ¿Cómo evaluamos los riesgos de las soluciones técnicas, especialmente cuando ponen a las bibliotecas y los datos de uso de los usuarios a merced de los mismos intereses corporativos que están impulsando el auge de la IA? Si nuestro contenido no se incluye en los datos de entrenamiento de la IA, ¿estamos contribuyendo a los problemas de desinformación de la IA? ¿Cómo gestionamos la necesidad de administrar nuestros sistemas cuando muchas de nuestras instituciones insisten en que innovemos en esta área (y, a veces, nos asociemos directamente con una empresa de IA)? Estas son preguntas difíciles que los tecnólogos no pueden responder sin el apoyo y el compromiso de los líderes.
Si las tendencias actuales en la recolección de IA no se revierten, la capacidad continua de las bibliotecas para ofrecer contenidos y sistemas abiertos con nuestros niveles de inversión actuales se verá comprometida. Si las instituciones valoran los contenidos y los ecosistemas abiertos, los equipos tecnológicos que lo hacen posible necesitan urgentemente inversiones en personal, plataformas y resiliencia. Esas inversiones son cruciales a nivel local, donde los equipos de sistemas responden a todas horas a las interrupciones críticas causadas por los bots y se ven desviados de otras tareas.
Estas inversiones también son esenciales en todo el ecosistema técnico de contenido abierto, de modo que las comunidades que mantienen repositorios abiertos y marcos de datos puedan desarrollar funciones más sofisticadas y evaluar estrategias colectivas para la gestión de bots. Estas conversaciones ya se están produciendo de forma orgánica en los canales Slack de profesionales y en las comunidades de código abierto. Un ejemplo entre muchos es la comunidad Aggressive AI Harvesting of Digital Resources (Recolección agresiva de recursos digitales por parte de la IA) y sus grupos de trabajo, como Fedora AI Solutions y Metrics interest group. Dedicar tiempo y fondos para apoyar las respuestas a nivel comunitario es esencial para la supervivencia del ecosistema de acceso abierto.
Dejar que los sistemas bibliotecarios fracasen bajo la presión de la recolección de datos por parte de la IA conlleva costes reales para nuestra credibilidad, nuestra capacidad para crear nuevas funciones y nuestro compromiso fundamental con la estabilidad y la preservación de los contenidos y las plataformas que están bajo nuestro cuidado. El difícil momento tecnológico y político que vivimos hace que las bibliotecas digitales abiertas y fiables sean más importantes que nunca, ya que ofrecen al mundo lo que Wikimedia describe como «conocimiento como servicio». Es imperativo que estemos a la altura de los retos existenciales a los que se enfrentan nuestra profesión, nuestras comunidades y nuestras naciones. Sin embargo, nuestro personal y nuestra infraestructura no pueden hacer frente a esas amenazas con los niveles de inversión actuales, y nuestros usuarios y comunidades pronto se cansarán de los flash mobs que derriban nuestras estanterías virtuales y empezarán a buscar información en otros lugares, probablemente en los servicios de IA que actualmente atacan nuestras bibliotecas y organizaciones de información digital.
///////////////////////
Guest Post — “Have You Proved You’re Human Today?” Open Content and Web Harvesting in the AI EraBy Kate Dohe
Oct 7, 2025
Editor’s Note: Today’s post is by Kate Dohe. Kate is the Director of Digital Programs and Initiatives at the University of Maryland Libraries. She oversees a wide portfolio that includes management of Libraries’ platforms and applications, web presence and discovery strategies, digital initiatives, and the production and preservation of digital content.
Imagine a block party or a flash mob occupying your library, day after day, making it impossible for patrons to use resources or do any work. More and more library staff need to be diverted to manage these flash mobs, but have almost no mechanisms for preventing them from accessing the library without limiting access to regular patrons. Every in-house solution your access team tries only works temporarily at best, pushing your team to consider investing in expensive new turnstiles and independent security guards…from a company that happens to have close industry relationships with the flash mobs. This might seem absurd, but it’s effectively what is happening to digital library properties, encompassing digital collections, institutional repositories, catalogs, archival systems, and discovery platforms.
AI web harvesting bots are emerging as a significant IT management problem for content-rich websites across numerous industries. This is a byproduct of both the exploding market demand, as well as the technical choices and tremendous resource consumption of AI harvesters compared to traditional web crawlers. To train AI models effectively, the human operators need to collect and maintain a massive corpus of digital content. Much of that data is aggregated indiscriminately, without regard for the rights or wishes of the original creators, or of web publishers and platforms that offer the content. This activity is widely known, and a complex legal and ethical topic in and of itself.
Web crawlers, also known as “bots” or harvesters, have been an established and essential part of the internet for decades — in particular, they are what support search engines and web archives. Those bots have historically followed predictable rules, often stipulated in a “robots” text file, about the rate of harvesting, which pages to exclude, and even which bots are allowed or denied. The quantity of these traditional bot operators has been limited as well.
Libraries have benefited enormously from allowing harvesters from Google, Microsoft, DuckDuckGo, Internet Archive, and other well-behaved indexers over the past thirty years, and many open access repositories rely heavily on search engine referral traffic, as well as the Internet Archive’s Wayback Machine and ArchiveIt services. This mutually beneficial arrangement is the product of many years of open communication and collaboration between the digital library practitioner community and engineers at those organizations, which has led to the harvesting norms and data sharing standards that sustain open library systems.
AI Bot (Mis)BehaviorAI harvesters are different from these traditional crawlers in a few key ways. First, there are simply more of them — more individuals, AI researchers, and private companies are in the AI training business than have ever run search engines. Because that large and diverse group of harvesters all have different motives and methods for harvesting content, web properties experience substantially higher volumes of crawl events. That leads to increased network strain caused by bot harvesting, and puts system administrators in the position of endlessly playing “whack-a-mole” with bots. Without someone to contact about calibrating the crawler to stay under site limits (as would be the case with Google or Microsoft), the next option available to site administrators is blocking badly behaved harvesters, which only works until the next one pops up.
Second, those bots can also violate many of the established rules for web crawlers — the worst behaved bots disregard any site instructions in the robots file. In addition, rather than using a single crawler to poll periodically for updates, the AI operators deliberately send networks of bots to a single web property to download as much content as possible, as quickly as possible, creating substantial stress on the server’s resource usage and making the site or its services unstable for legitimate patrons. In the process, they attempt to get around traditional traffic management techniques by impersonating human site visitors and developing increasingly sophisticated strategies to evade any system-level blocking, so attempting to block bots means potentially blocking our human users.
Not all the actors are actively looking to circumvent limits; many are simply ignorant of the historical standards and practices that have evolved over time to manage web crawling. The ease with which anyone can now develop and deploy an AI crawler and put up their own AI service means there are thousands of new crawlers, ranging from researchers to the simply curious aspiring technologist to after-school script hackers, all entering a technology space formerly limited to large corporations. This new open frontier makes it much more difficult to negotiate and enforce good practices that impose reasonable limits on crawling without blocking legitimate use and endangering existing relationships and agreements that have worked for years.
Bots as a Denial-as-Service AttackAs a result, when these crawlers swarm a website, it effectively mimics a distributed denial-of-service (DDoS) attack, a common malicious attack designed to take a website offline by overwhelming the server with content requests. While site administrators can respond to occasional incidents in the moment, they can be exceedingly difficult to manage on a recurring basis and demand a great deal of attention from systems teams.
Depending on an organization’s infrastructure, this may affect a single application, or it may have a ripple effect on an entire group of systems by diverting resources away from other applications in an effort to keep the site being harvested online, or exhausting computing resources upstream or downstream of the affected website. These crawls are expensive, especially in cloud infrastructure like Amazon Web Services, because they can grossly inflate bandwidth and memory usage for an application incredibly quickly. They render site analytics virtually useless. They demand a large amount of attention from IT administrators, diverting them from other essential security work. Many site administrators from all corners of the web have struggled with AI harvests, ranging from old-school discussion forums to e-commerce platforms, and an entire cottage industry of enterprise IT solutions have sprung up to combat the problem.
This is a pernicious problem for academic libraries, in ways that differ from other industries. Libraries have invested a great deal of money, time, and personnel in the open digital ecosystem over the last few decades, and an individual repository might easily contain many terabytes of publicly available, unique content. We want those resources to be found and used, and we have historically encouraged bot harvesting for search and discovery of open digital content by generating structured, crawl-friendly metadata. These professional investments now make us a uniquely appealing target for AI harvesters, since they can get much higher quality data for model training purposes than other properties.
Libraries tend to generate large amounts of links in our original content like research guides, as well as our search interfaces, so crawlers that would ordinarily be “in and out” of a more traditional website stay around, consuming library resources for hours, downloading large corpora of text and media, and following generated links to search queries whose combinations can be almost infinite. Library IT teams and resources tend to be much leaner than commercial organizations, and we rely heavily on open source infrastructure to support and maintain our systems. Between AI and the rise of cybersecurity attacks on cultural heritage and higher education institutions, those teams are effectively in an unwinnable arms race. A thorough analysis of this problem and the extent of its impact can be found in Michael Weinberg’s recent white paper, “Are AI Bots Knocking Cultural Heritage Offline?”
Finally, libraries and the digital systems we maintain must fundamentally offer permanence and stability to our communities and users. We tell them that the Handle will work, that the document is available, and that the search index is responsive. Failing to deliver on that promise erodes patron trust in our systems and pushes them to other sources and services that do not have their best interests at heart.
Strategies for ResponseSpecific technical strategies to manage these problems are outside the scope of this article, and in fact are counter-productive to share widely, since the crawler community can then analyze those methods in order to circumvent them. However, solutions tend to fall into a handful of broad categories, all of them well-known to AI crawlers.
IP Address Blocking: Large-scale IP blocking at the time of the event is one of the most common mechanisms, often resulting in millions of IPs being blocked temporarily. This “just in time” approach is frustrating and taxing for systems personnel and does little for network cost management. There are a variety of “AI block lists” available (some free, some paid), but these and other mass-blocking measures can also result in a higher incidence of false positives–meaning legitimate visitors are also blocked from access with no recourse. This method is now considered mostly ineffective, as AI bot networks now easily spoof addresses or can be deployed from anywhere in a geographically distributed fashion.
Humanity Checks: Vendor-provided “humanity checks” like CAPTCHAs and Cloudflare’s turnstile product ask end users to demonstrate they’re human, either by clicking something on the page or from additional analysis of their web behavior and browser. These can be costly services for libraries, detrimental to the end user experience, increase staff time required for troubleshooting, and ultimately lead to digital accessibility barriers. They also have the undesirable effect of blocking legitimate crawlers, affecting Google site analytics tools and other automated agents we rely on.
Firewalls: Enhanced firewall services offered by major web infrastructure providers like Amazon, which can require considerable financial investment, are often out of reach of library budgets. Ironically, these services often tout their use of AI to detect AI bots and respond to harvesting events more effectively. Ironically, they also often sell their services to AI crawlers themselves (as well as often running their own crawls), and help enable the flood of new harvesters in the first place. It can feel more than a little like paying protection money for a company to defend us from the activities of their other customers.
Honeypots: Some web developers have developed strategies to trap crawlers, often by hiding a link on a webpage that the bots will follow and then trigger an IP ban. This can be temporarily effective but requires continual maintenance. Special care also needs to be taken to keep these honeypots from inadvertently affecting users of screen reader and other assistive technologies.
Authentication/Whitelisting: Fully restrict access to content and systems to authenticated or whitelisted users, preventing open access to materials. Of all methods listed, this is the cheapest and most effective solution at this time, even though it is antithetical to the public access principles of many libraries.
Most institutions implement a mix of these techniques, and are constantly adjusting their strategies in a never-ending arms race with crawlers. There is no one-size-fits-all solution, and as is the case with cybersecurity practices in general, the most effective approach follows the defense-in-depth model: employ strategies at all levels of your IT environment, from the routers that direct traffic to your institution to the applications that manage and deliver your content.
The Path AheadAI crawlers, their impacts, and speculative solutions, raise a number of large ethical and strategic questions for libraries to grapple with. Is this really what we meant by “open”? Can we differentiate the behavior in our systems from the motives of the operating individual or organization, and should we be in the business of judging “good” and “bad” site visitors and uses? How do we evaluate the risks of technical solutions, particularly when they put libraries and patron usage data at the mercy of the same corporate interests that are driving the AI boom in the first place? If our content is not included in AI training data, are we then contributing to AI’s misinformation problems? How do we navigate the need to manage our systems when many of our institutions insist that we innovate in this area (and sometimes directly partner with an AI company)? These are hard questions that the technologists can’t answer without support and engagement from leadership.
If current trends in AI harvesting do not reverse, then libraries’ continued ability to offer open content and systems at our current investment levels will be put in jeopardy. If institutions value open content and ecosystems, then the technology teams that make it possible urgently need investment — in people, in platforms, in resilience. Those investments are crucial at the local level, where systems teams are responding at all hours to critical outages caused by bots and being diverted from other work.
Such investments are also essential across the open content technical ecosystem, so the communities that maintain open repositories and data frameworks can develop more sophisticated features and evaluate collective strategies for bot management. These conversations are already happening organically in practitioner Slack channels and open source communities. One example among many is the Aggressive AI Harvesting of Digital Resources community conversations, and its working groups like the Fedora AI Solutions and Metrics interest group. Devoting personnel time and funding to support community-level responses are essential for the open access ecosystem’s survival.
Letting library systems fail under the strain of AI harvesting comes with real costs to our credibility, our capacity to build new features, and our fundamental commitment to the stability and preservation of the content and platforms under our care. Our fraught technological and political moment makes trustworthy and open digital libraries more vital than ever before, offering what Wikimedia describes as “knowledge-as-a-service” to the world. It is imperative that we rise to the existential challenges our profession, communities, and nations face. However, our staff and infrastructure cannot keep up with those threats at their current investment levels, and our patrons and communities will soon grow tired of the flash mobs knocking over our virtual stacks and start looking for information elsewhere, likely from the AI services that are currently attacking our libraries and digital information organizations.
Acknowledgements: This article is the product of larger community and working group conversations about AI bots and the repository ecosystem, and I am grateful for the additional contributions and feedback of Andy Goldstein, Rebekah Kati, Rosalyn Metz, Scott Prater, Michael Weinberg Alexander Berg-Weiß, Robin Desmeules, Tim Shearer, and Andrea Wallace.
Kate DoheKate Dohe (she/her) is the Director of Digital Programs and Initiatives at the University of Maryland Libraries. She oversees a wide portfolio that includes management of Libraries' platforms and applications, web presence and discovery strategies, digital initiatives, and the production and preservation of digital content. Her research explores the intersection of digital and critical librarianship, and her select publications include “Care, Code, and Digital Libraries: Embracing Critical Practice in Digital Library Communities” (In the Library with the Lead Pipe), and "Precedented: Open Digital Research Practices in Latin America" (with Michael Scott, in Digital Libraries Across Continents).