miércoles, 1 de octubre de 2025

¿Quién controla el conocimiento en la era de la IA? Parte 1

Publicado en The Scholarly Kitchen
https://scholarlykitchen.sspnet.org/2025/08/12/guest-post-who-controls-knowledge-in-the-age-of-ai-part-1/?informz=1&nbd=567d61ec-36ea-4197-85eb-43e2bd36d175&nbd_source=informz 




Artículo invitado: ¿Quién controla el conocimiento en la era de la IA? Parte 1


Por Amy Brand, Dashiel Carrera, Katy Gero y Susan Silbey.

12 de agosto de 2025



Nota del editor: El artículo de hoy está escrito por Amy Brand, Dashiel Carrera, Katy Gero y Susan Silbey. Amy es directora de MIT Press y cofundadora del MIT Knowledge Futures Group. Dashiel es investigador visitante de doctorado en Informática en la Universidad de Columbia. Katy es investigadora en interacción persona-ordenador centrada en la creatividad, las tecnologías de la escritura y la ética de la IA. Susan es profesora de Humanidades Leon y Anne Goldberg y profesora de Sociología y Antropología en el MIT, con un nombramiento adicional en la Sloan School of Management



El auge de los modelos de lenguaje grandes (LLM) está transformando la producción de conocimiento y planteando cuestiones urgentes para la comunicación de la investigación y la publicación en general. A partir de las respuestas a una encuesta cualitativa realizada a más de 850 autores de libros académicos de diversos campos e instituciones, destacamos la preocupación generalizada por el uso sin licencia de publicaciones científicas y académicas protegidas por derechos de autor para el entrenamiento de la IA. La mayoría de los autores no se oponen a la IA generativa, pero están totalmente a favor del consentimiento, la atribución y la compensación como condiciones para el uso de su trabajo. Mientras se debate activamente la cuestión jurídica clave —si el entrenamiento de LLM con contenido protegido por derechos de autor es un uso legítimo—, las universidades y las editoriales deben tomar la iniciativa en el desarrollo de marcos transparentes y respetuosos con los derechos para la concesión de licencias de LLM que tengan en cuenta factores legales, éticos y epistémicos. Estas decisiones determinarán no solo el futuro de la autoría y la integridad de la investigación, sino también la confianza del público en general en la forma en que se crea, se accede y se gestiona el conocimiento en la era digital. Aquí analizamos los resultados de nuestra encuesta y mañana ofreceremos recomendaciones para las partes interesadas. 


Las instituciones de investigación de Estados Unidos y otros países se encuentran atravesando un momento de extraordinario potencial y profunda amenaza. La tecnología de IA generativa, incluidos los modelos de lenguaje grandes (LLM), promete vías transformadoras para el descubrimiento científico, el nuevo conocimiento y el aprendizaje acelerado. Al mismo tiempo, plantea cuestiones urgentes sobre el uso honesto y adecuado de los contenidos publicados. También están en juego los derechos de los autores y creadores, así como la integridad a largo plazo de nuestros ecosistemas de producción de conocimiento. Estas tensiones se desarrollan en un contexto de ataques políticos sostenidos contra la ciencia y la educación superior, la disminución de la confianza pública en las instituciones en general, la desinformación y la información errónea rampantes en nuestros canales de información, y los crecientes esfuerzos por mercantilizar y privatizar el conocimiento. A medida que prospera la información fabricada, socavando el valor de los hechos respaldados por pruebas empíricas fiables y válidas, ¿cómo podemos transmitir confianza y verificar las afirmaciones de verdad, incluidas las afirmaciones científicas? En resumen, ¿quién controla el futuro del conocimiento?


A finales de 2024, MIT Press encuestó a unos 6,000 autores de sus libros sobre su opinión acerca de las prácticas de formación de LLM y recibió más de 850 respuestas cualitativas de autores de todo el mundo, que trabajan en diversos campos del espectro académico, con una fuerte representación en las áreas STEAM (ciencia, tecnología, ingeniería, artes y matemáticas). El objetivo de la encuesta era informar sobre las prácticas de concesión de licencias y colaboración de LLM de la editorial, en particular para garantizar que dichas prácticas se ajustaran a las prioridades de los investigadores que publican obras de formato largo. Los comentarios anónimos y codificados de los autores revelan un profundo malestar por el uso generalizado sin licencia de sus obras publicadas para entrenar modelos LLM. De hecho, muchos consideran que el entrenamiento con sus obras protegidas por derechos de autor sin su consentimiento es una forma de explotación con fines comerciales, y que el crecimiento no regulado de los modelos LLM es una amenaza potencial para la misión fundamental de las instituciones de investigación de promover el conocimiento y buscar la verdad. 


Dicho esto, una clara mayoría de los encuestados expresó su apoyo a las asociaciones bien pensadas entre editoriales académicas y desarrolladores de LLM, así como su interés en contribuir a las innovaciones impulsadas por LLM en el descubrimiento de conocimientos en las condiciones adecuadas. Esas condiciones incluyen la transparencia en las licencias, la atribución y el consentimiento, principios que se ajustan a los valores académicos y prosociales. También incluyen una compensación justa, defendida no solo por interés propio, sino también por el interés en mantener editoriales académicas no comerciales, como las editoriales universitarias y las sociedades científicas.


Las conclusiones que se presentan a continuación ofrecen una base sólida para las políticas académicas y públicas. Como instituciones comprometidas con el bien público, las universidades deben actuar con rapidez y determinación para establecer una gobernanza con múltiples partes interesadas y desarrollar políticas y prácticas de IA basadas en pruebas que acojan la innovación sin abandonar los valores académicos y científicos tradicionales. Es esencial que las instituciones de enseñanza superior logren el equilibrio adecuado en los debates actuales sobre cómo se utilizan los trabajos académicos, científicos y creativos para entrenar los LLM, teniendo en cuenta factores legales, éticos y epistémicos. 


Los LLM dependen de grandes cantidades de datos textuales y de otro tipo para su entrenamiento, muchos de los cuales se recopilan actualmente sin permiso de libros, revistas y sitios web. Esto les permite realizar una variedad de tareas útiles, como producir textos contextualmente relevantes, inferir información, traducir idiomas, resumir documentos y responder preguntas. Las publicaciones académicas en ciencia y otras disciplinas son especialmente valiosas como datos de entrenamiento para los LLM. Se ha demostrado que los libros son especialmente eficaces para mejorar el rendimiento de los modelos debido a la alta calidad de su prosa y a la coherencia de sus textos largos.


Aunque la legalidad de la formación sobre obras protegidas por derechos de autor sin autorización previa se está sometiendo actualmente a prueba en los tribunales, lo que está en juego desde el punto de vista epistemológico ya está claro. Los autores y otros creadores no son meros «productores de contenidos», sino productores de explicaciones fiables, veraces, originales y comprensibles sobre el mundo y su funcionamiento. La experiencia de leer un libro proporciona al lector una visión genuina de la perspectiva de otra persona y una profundidad de comprensión que, por ejemplo, una fugaz actualización en las redes sociales rara vez logra. Como escribió uno de nuestros encuestados: «Algunos de los momentos más importantes de la vida de las personas se encuentran en los encuentros profundos y enriquecedores con la obra escrita, que dan forma a quienes somos y en quiénes nos convertimos. ¿Por qué querríamos convertir esto en un caos abstracto de datos de entrenamiento, una serie de notas triviales y a menudo incorrectas y datos falsos?». En general, los autores que respondieron a nuestra encuesta buscan aprovechar el potencial de estas nuevas tecnologías sin socavar los incentivos para consumir y producir obras originales de formato largo.  


Resultados de la encuesta


La encuesta de MIT Press preguntó a los autores si apoyarían la concesión de licencias y el uso de sus obras para la formación en LLM y en qué condiciones lo harían. Los resultados son claros: los autores no se oponen a la IA generativa en sí misma, pero se oponen firmemente a las prácticas extractivas no reguladas y les preocupan las repercusiones a largo plazo del desarrollo desenfrenado de la IA generativa en la empresa académica y científica.  


Fuerte oposición a la formación sin licencia


Algunos autores expresaron opiniones muy negativas sobre el uso de sus obras para la formación en LLM, con respuestas enfáticas como «¡Por supuesto que no!», «¡NI HABLAR!» y «Me opongo rotundamente a que mi obra se utilice de esta manera». Estos encuestados plantearon una serie de objeciones, desde preocupaciones sobre la fiabilidad y la credibilidad de los LLM (por ejemplo, describiéndolos como máquinas propensas a las alucinaciones que producen contenidos «plagados de vaguedades, atribuciones erróneas y errores»), hasta sus costes medioambientales (la tecnología «consume grandes cantidades de agua y acelera el cambio climático irreversible») y la ética de la investigación (« no hay garantía de que los resultados futuros [de los LLM] sean coherentes con las aprobaciones éticas a las que se adhieren los investigadores (incluidos sus autores)»). También surgieron preocupaciones sobre el reduccionismo y las distorsiones epistemológicas; como dijo un autor, «La investigación, el esfuerzo, el enfoque y la perspectiva humana... se ven inherentemente aplanados o directamente borrados por estas herramientas. Es difícil ver cómo las ideas principales de un texto académico no se mezclarán con otras ideas, perdiendo todo matiz y textura». 


Mientras que alrededor del 10 % de los autores se mostraron ambivalentes o indecisos, el grupo más numeroso (50 %) se mostró abierto o apoyó activamente la concesión de licencias bajo ciertas condiciones. Esperan que los acuerdos de licencia incluyan una compensación adecuada y una atribución fiable. Algunos miembros de este grupo expresaron su resignación; como dijo un autor: «No estoy de acuerdo con esta práctica, pero creo que es inevitable. Los autores deberían recibir información detallada sobre el uso de su trabajo y una remuneración económica». Sin embargo, otros veían la formación como una forma de difundir sus ideas («aumenta las posibilidades de que las ideas de un autor se incorporen al panorama intelectual»), contribuir a un nuevo modo de síntesis y descubrimiento del conocimiento (« Lo veo como una oportunidad para que el trabajo se integre en un banco de conocimientos universal que pueda sintetizarse con otros trabajos para obtener beneficios positivos»), mejorar la calidad de los LLM («la calidad de la IA depende de la calidad de los datos») o abrir una fuente de ingresos para ellos mismos o para los editores («la IA está generando mucho dinero, por lo que debería haber suficiente para todos»). 


Una pequeña minoría apoya el uso no regulado.


Solo el 3 % de los autores indicaron que apoyan el uso totalmente no regulado (sin consentimiento, compensación o atribución) de sus publicaciones para la formación en LLM, y un 3 % adicional apoya el uso sin consentimiento ni compensación, pero solo siempre que se atribuya adecuadamente la autoría. Unos pocos de estos autores señalaron explícitamente que, en su opinión, la formación entra dentro de la exención de «uso legítimo» de los derechos de autor. Como dijo uno de ellos: «Quiero que mi trabajo forme parte del legado escrito, con o sin mi nombre... Las ideas deben difundirse y combinarse con tantas otras ideas como sea posible».


La atribución es una exigencia innegociable


La atribución y el reconocimiento son los pilares de la producción de conocimiento académico. No se trata simplemente de una cuestión de reconocimiento personal o de agradecimiento por el esfuerzo o la creatividad, sino que son los medios para identificar y constituir la comunidad cuyas explicaciones y evaluaciones establecen el consenso sobre la validez de las afirmaciones de conocimiento. 


De hecho, el requisito de atribución también es una norma en el intercambio de contenidos abiertos. La licencia Creative Commons más popular es CC BY, que permite a otros utilizar, distribuir, remezclar, modificar y desarrollar tu trabajo, incluso con fines comerciales, siempre y cuando se cite la obra original. La atribución también proporciona un registro de cómo las ideas se conectan y se desarrollan entre sí, al hacer visibles los vínculos entre los productores de conocimiento. El preentrenamiento estándar de los LLM, en el que los modelos se entrenan con grandes cantidades de datos indiferenciados, dificulta la atribución, ya que el texto generado refleja los patrones de palabras de los datos de entrenamiento sin vincularlos a fuentes específicas. Por el contrario, enfoques como la generación aumentada por recuperación (RAG) o los protocolos de contexto de modelos (MCP) dan a los LLM acceso a determinados datos en el momento de la inferencia (en lugar de durante el entrenamiento), lo que permite vincular la información de la fuente al contenido generado. 


Cuando se les preguntó, la mayoría de los autores coincidieron en que preferirían que cualquier socio potencial de LLM proporcionara una atribución fiable a su trabajo si éste influyera significativamente en la respuesta a una consulta de LLM. Muchos afirmaron que las editoriales deberían exigir la atribución como parte de cualquier acuerdo de licencia y exigir a los socios de IA que encontraran una solución o prescindieran de los datos. Algunos querían que los sistemas de IA se ajustaran a las normas académicas de atribución y afirmaron que «se sentirían más cómodos con el uso de su trabajo por parte de la IA si los sistemas se rigieran por las mismas normas de atribución y antiplagio que los autores humanos».


Sin embargo, algunos autores no estaban seguros de si los LLM podrían cumplir alguna vez ese requisito, ni de cómo definir un requisito de atribución dada la forma en que se entrenan los LLM. Como dijo un autor, «las respuestas a las consultas [LLM] nunca serán seleccionadas ni controladas en cuanto a calidad como se supone que debe hacerse con un texto académico». Otros señalaron que «el problema técnico de garantizar respuestas «verdaderas» es considerable» y que «el efecto de cualquier trabajo individual se distribuye entre miles de millones de elementos de la red, y no hay forma de rastrear qué trabajo influye en qué respuestas», lo que suscita dudas sobre la atribución como solución a sus preocupaciones.


Si sus escritos se utilizaban para entrenar modelos de lenguaje grande (LLM), muchos autores también temían que los modelos tergiversaran o atribuyeran erróneamente su trabajo, por ejemplo, utilizando potencialmente su nombre para difundir desinformación. Un autor señaló que «ChatGPT puede afirmar con seguridad que yo he dicho o escrito algo que no he dicho ni escrito. Ha habido muchos ejemplos de ello». Otros se hicieron eco de argumentos comunes contra la presunción central de la tecnología: que los LLM crean la ilusión de una escritura y un razonamiento a nivel humano al encadenar palabras de forma probabilística. Esto, como dijo un autor, «socavó fundamentalmente todo el proyecto de publicación y producción de conocimiento».



La remuneración de los autores y la sostenibilidad del ecosistema del conocimiento


Varios encuestados expresaron su preocupación por el hecho de que los modelos generativos pudieran «reducir los incentivos para producir la obra original en la que se basan estos modelos», lo que podría dar lugar a un «sistema que, en última instancia, pretende hacer que [los autores] sean prescindibles». Un futuro así no solo disuadiría la producción de conocimiento humano, sino que también podría exacerbar los problemas existentes de desigualdad económica y laboral en la industria editorial, en consonancia con «los problemas de larga data de las editoriales con ánimo de lucro que se benefician de trabajos no remunerados o apenas remunerados». Algunos opinaron que podría ser más adecuado negociar acuerdos de licencia para entrenar LLM que estén controlados públicamente y sirvan al bien común. Como señaló un escritor, «los gigantes tecnológicos ganan miles de millones gracias a la investigación financiada con dinero público y nosotros tenemos que pagar por sus servicios». 


Algunos autores sugirieron que merecen una compensación significativa y propusieron diversos modelos de compensación que esperarían o preferirían, como pagos únicos, micropagos cuando se utiliza el material, cuotas anuales por licencia o un porcentaje de los beneficios de los proveedores de IA. Su interés en los acuerdos de licencia dependía de la cantidad de compensación que pudieran recibir, con compensaciones propuestas que iban desde «del mismo orden que la compensación total por las ventas de libros» hasta «cientos de miles de dólares por libro».  Mientras que estos autores esperaban grandes cantidades de compensación («igual o superior a cualquier anticipo que recibí por el trabajo»), otros esperaban obtener solo unos centavos. Muchos también indicaron que les gustaría que las editoriales se beneficiaran de las asociaciones de formación en LLM, en particular para mantener el tipo de publicación académica impulsada por una misión que ya se enfrenta a una precariedad financiera. 


Preguntas de los autores


Aunque la encuesta solo preguntaba directamente sobre los acuerdos de licencia, los autores plantearon una gran variedad de preocupaciones a nivel sistémico: cómo la desinformación y la atribución errónea de la IA generativa pueden socavar los ecosistemas de producción de conocimiento, cómo el consumo energético de los LLM podría dañar el medio ambiente, cómo la IA afecta a la ética de la investigación y cómo los acuerdos de licencia pueden contribuir a aumentar las desigualdades económicas. Aun así, muchos se mostraron optimistas en cuanto a que los libros científicos y académicos podrían contribuir a esta nueva tecnología si las editoriales ayudan a garantizar las licencias y otras asociaciones de formación en LLM que se ajusten a los intereses de los investigadores y las instituciones de investigación. 


Los encuestados no tenían claro qué marcos legales podían servir mejor a sus intereses. Muchos apelaron a la ley de derechos de autor para proteger su trabajo, por ejemplo: «Las editoriales no deberían vender material protegido por derechos de autor a empresas de IA», frente a «Estoy encantado de compartir mi material protegido por derechos de autor sin coste alguno». Varios señalaron que las cuestiones relacionadas con los derechos de autor aún deben resolverse en los tribunales, y una pequeña minoría se pronunció explícitamente a favor o en contra de que el uso de material protegido por derechos de autor para la formación se considere una exención de «uso legítimo» de los derechos de autor.


Del mismo modo, hubo desacuerdo sobre si los libros que se publican en acceso abierto para su lectura también están abiertos por defecto para la formación en LLM. Algunos expresaron su convicción de que «el uso de conjuntos de materiales de acceso abierto para la formación está legalmente permitido», mientras que otros señalaron que los LLM tendrían que respetar adecuadamente la licencia abierta mediante la «producción de obras derivadas con la atribución adecuada», lo que actualmente no es el caso de la mayoría de los modelos. Otro autor señaló que «el acceso abierto (que yo apoyo) no debería significar acceso abierto al robo de ideas o de méritos». 


Amy Brand


Dashiel Carrera


Katy Gero


Susan Silbey


**********************************************************


Guest Post — Who Controls Knowledge in the Age of AI? Part 1



Editor’s Note: Today’s post is by Amy Brand, Dashiel Carrera, Katy Gero, and Susan Silbey. Amy is Director of the MIT Press and Co-founder of the MIT Knowledge Futures Group. Dashiel is a Visiting PhD Researcher in Computer Science at Columbia University. Katy is a human-computer interaction researcher focused on creativity, writing technologies and the ethics of AI. Susan is the Leon and Anne Goldberg Professor of Humanities and Professor of Sociology and Anthropology at MIT, with an additional appointment in the Sloan School of Management.  

The rise of large language models (LLMs) is reshaping knowledge production, raising urgent questions for research communication and publishing writ large. Drawing on qualitative survey responses from over 850 academic book authors from across a range of fields and institutions, we highlight widespread concern about the unlicensed use of in-copyright scientific and scholarly publications for AI training. Most authors are not opposed to generative AI, but they strongly favor consent, attribution, and compensation as conditions for use of their work. While the key legal question — whether LLM training on in-copyright content is a fair use — is being actively litigated, universities and publishers must take the lead in developing transparent, rights-respecting frameworks for LLM licensing that consider legal, ethical, and epistemic factors. These decisions will shape not only the future of authorship and research integrity, but the broader public trust in how knowledge is created, accessed, and governed in the digital age. Here we discuss our survey results, and tomorrow we will offer recommendations for stakeholders.  

Research institutions in the United States and elsewhere are navigating a moment of extraordinary potential and profound threat. Generative AI technology including Large Language Models (LLMs) promise transformative pathways for scientific discovery, new knowledge, and accelerated learning. At the same time, they raise urgent questions about the honest and appropriate use of published content. The rights of authors and creators, and the longer-term integrity of our knowledge production ecosystems, are also at stake. These tensions are unfolding against a backdrop of sustained political attacks on science and higher education, declining public trust in institutions generally, rampant mis- and disinformation in our information channels, and growing efforts to commodify and privatize knowledge. As fabricated information thrives, undermining the value of facts supported with reliable and valid empirical evidence, how do we signal trust and verify assertions of truth, including scientific claims? In short, who controls the future of knowledge?  

In late 2024, the MIT Press surveyed ~6,000 of its book authors on attitudes towards LLM training practices and received over 850 qualitative survey responses from authors around the world, working in fields across the academic spectrum, with strong representation in STEAM (science, technology, engineering, arts, and mathematics) areas. The purpose of the survey was to inform the Press’s LLM licensing and partnership practices, in particular to ensure those practices align with the priorities of researchers who publish long-form works. The anonymized, coded author comments reveal deep discomfort with the widespread unlicensed use of their published work to train LLMs. Indeed, many view training on their in-copyright work without consent as a form of exploitation for commercial gain, and the unregulated growth of LLMs as a potential threat to the core mission of research institutions to advance knowledge and pursue truth. 

That said, a clear majority of respondents expressed support for well thought-out partnerships between academic publishers and LLM developers, and interest in contributing to LLM-driven innovations in knowledge discovery under the right conditions. Those conditions include licensing transparency, attribution, and consent — principles that align with academic, prosocial values. They also include fair compensation, advocated not only from self-interest but also from an interest in sustaining non-commercial academic publishers like university presses and scientific societies.

The findings reported below offer a powerful foundation for academic and public policies. As institutions committed to the public good, universities should move swiftly and deliberately to establish multi-stakeholder governance and develop evidence-based AI policies and practices that embrace innovation without abandoning long held academic and scientific values. It is essential for institutions of higher learning to strike the right balance in current debates over how scholarly, scientific, and creative work is used to train LLMs, by taking legal, ethical, and epistemic factors into consideration.  

LLMs depend on vast quantities of textual and other data for training, much of it currently being scraped without permission from books, journals, and websites. This enables them to perform a variety of useful tasks, such as producing contextually relevant text, inferring information, translating languages, summarizing documents, and answering questions. Published scholarship in science and other disciplines is uniquely valuable as training data for LLMs. Books have been shown to be especially effective in improving model performance due to their high-quality prose and long-form coherence. 

While the legality of training on in-copyright works without prior authorization is currently being tested in the courts, the epistemological stakes are already clear. Authors and other creators are not merely “content producers”; they are producers of reliably truthful, original, and understandable explanations about the world and how it works. The experience of reading a book grants the reader genuine insight into someone else’s perspective and a depth of understanding that, for example, a fleeting social media update rarely achieves. As one of our respondents wrote, “Some of the most important moments of people’s lives are in the deep, rich encounters with written work they shape who we are and who we become. Why would we seek to rip this up into an abstracted mess of training data, a series of trivial and often incorrect Cliff Notes and factoids?” Overall, the authors who responded to our survey seek to reap the promise of these new technologies without undermining incentives to consume and produce original longform works.  

Survey findings

The MIT Press survey asked authors whether and under what conditions they would support the licensing and use of their work for LLM training. The findings are clear: authors are not opposed to generative AI per se, but they are strongly opposed to unregulated, extractive practices and worry about the long-term impacts of unbridled generative AI development on the scholarly and scientific enterprise.  

Strong opposition to unlicensed training

Some authors expressed strongly negative sentiments about the use of their works for LLM training, with emphatic responses such as “Absolutely not!” “HELL NO” and “I am very strongly opposed to having my work used in this way.” These respondents provided a range of objections, from concerns about the trustworthiness and reliability of LLMs (for example, describing them as hallucination-prone machines that produce content “rife with vagaries, misattribution, and error“), to their environmental costs (the technology “uses vast amounts of water, and it accelerates irreversible climate change”), to research ethics (“there is no guarantee that [LLMs’] future outputs will be consistent with the ethical approvals that researchers (including your authors) adhere to”). Concerns about reductionism and epistemological distortions also surfaced; as one author put it, “The research, effort, focus, and human perspective … inherently get flattened or downright erased by such tools. It’s hard to see how the primary ideas of an academic text won’t be mashed together with other ideas, losing all nuance and texture.” 

Whereas about 10% of authors were ambivalent or undecided, the largest group of authors (50%) were open to or actively supported licensing under certain conditions. They expect licensing deals to contain appropriate compensation and reliable attribution. Some in this group expressed resignation; as one author said, “I do not agree with the practice, but believe it is inevitable. Authors should be provided with details of our work’s use and receive monetary remuneration.” However, others saw training as a way to spread their ideas (“it increases the chances that an author’s ideas are incorporated into the intellectual landscape”), contribute to a new mode of knowledge synthesis and discovery (“I view it as an opportunity for the work to be integrated into a universal knowledge bank that can be synthesized with other works for positive benefit”), improve the quality of LLMs (“the quality of AI is dependent on the quality of the data”), or open up a source of income either for themselves or for publishers (“AI is making lots of money, so there should be plenty to go around”).  

Small minority support unregulated use

Only 3% of authors indicated that they support entirely unregulated use (without consent, compensation, or attribution) of their publications for LLM training, with an additional 3% supporting use without consent or compensation, but only as long as authorship is appropriately attributed. A handful of these authors explicitly noted that they believed training falls under the “fair use” exemption from copyright. As one author said, “I want my work to be part of the written legacy with or without my name attached … Ideas should spread and play with as many other ideas as possible.”  

Attribution is a non-negotiable demand

Attribution and credit are bedrocks of academic knowledge production. They are not merely a matter of personal recognition or acknowledgement for effort or creativity; they are the means of identifying and constituting the community whose explanations and evaluations establish consensus on the validity of knowledge claims. 

Indeed, the requirement of attribution is a norm in open content sharing too. The most popular Creative Commons license is CC BY, which allows others to use, distribute, remix, tweak, and build upon your work, even commercially, as long as they give credit to the original work. Attribution also provides a record of how ideas connect and build upon one another, by making the links among knowledge producers visible. Standard LLM pre-training — where models train on large amounts of undifferentiated data — makes attribution difficult, as generated text reflects word patterns in the training data without linking back to specific sources. In contrast, approaches like Retrieval-Augmented Generation (RAG) or Model Context Protocols (MCP) give LLMs access to certain data at inference time (rather than during training), allowing source information to be linked to generated content. 

When asked, most authors agreed that they would prefer any potential LLM partner to provide reliable attribution to their work if that work significantly informs an LLM query response. Many said publishers should require attribution as part of any licensing deal and require AI partners to find a solution or go without the data. Some wanted AI systems to align with academic attribution norms and stated that they would “be more comfortable with AI use of my work if the systems were held to the same standards of attribution and anti-plagiarism as human authors.”

Some authors were, however, unsure whether LLMs could ever meet such a requirement, or how to define an attribution requirement given the way LLMs are trained. As one author put it, “[LLM] query responses will never be curated/quality-controlled the way an academic text is supposed to be.” Others noted that “the technical problem of ensuring ‘true’ responses is a substantial one” and that “the effect of any single work is spread across billions of elements in the network, and there is no way to trace which work influence[s] which answers,” raising doubts about attribution as a solution to their concerns.  

If their writing was used to train LLMs, many authors were also concerned that the models would misrepresent or misattribute their work, for example potentially using their name to spread disinformation. One author noted that “ChatGPT may confidently claim that I said/wrote something that I have not. There have been many examples of that.” More still echoed common arguments against the central conceit of the technology: that LLMs cast the illusion of human-level writing and reasoning by probabilistically stringing together words. This, as one author put it, “fundamentally undermined the entire publishing and knowledge production project.”

Author compensation and the sustainability of the knowledge ecosystem  

Several respondents expressed concern that generative models could “reduce the incentives for producing the original work on which these models are based” perhaps leading to a “system which ultimately seeks to make [authors] redundant.” Such a future would not only deter human knowledge production but could also exacerbate existing issues of wealth and labor inequality in the publishing industry, in line with “long standing problems of for-profit publishers profiting on unpaid or barely paid work”. Some opined that it may be more appropriate to broker licensing deals to train LLMs which are publicly controlled and serve the public good. As one writer noted “the tech giants earn billions from research funded with public money and we have to pay for their services.”   

Some authors suggested that they deserve significant compensation and floated a variety of compensation models they would expect or prefer, such as one-time payments, micropayments when material is used, annual licensing fees, or a percentage of AI vendor profits. Their interest in licensing deals was contingent on the quantity of compensation they could receive, with proposed compensation ranging from “on the same order of total compensation for book sales” to “in the hundreds of thousands of dollars per book”.  While these authors expected large amounts of compensation (“equal to or greater than any advance I received for the work”), others expected they would get only pennies. Many also indicated they would like to see the publishers benefit from LLM training partnerships, in particular to sustain the kind of mission-driven academic publishing that is already facing financial precarity. 

Author questions

Although the survey asked directly about licensing deals only, authors raised a myriad of system-level concerns: how misinformation and misattribution from generative AI may undermine knowledge-production ecosystems, how LLM energy consumption could harm the environment, how AI impacts research ethics, and how licensing deals may contribute to increasing wealth inequalities. Still, many remained optimistic that scientific and scholarly books could contribute to this new technology if publishers help secure licensing and other LLM training partnerships that align with the interests of researchers and research institutions.   

Respondents were unclear about which legal frameworks may best serve their interests. Many called upon copyright law to protect their work, e.g., “Publishers should not sell copyright material to AI companies,” versus, “I am happy to share my copyrighted material without charge.” Several noted that copyright issues are still to be adjudicated in the courts, with a small minority explicitly arguing for or against the use of copyrighted material for training to be deemed a “fair use” exemption to copyright.

Similarly, there was disagreement over whether books that are published open access for reading are also open by default for LLM training. Some expressed the belief that “the use for training sets of open access materials is legally allowed” while others noted that LLMs would have to properly honor the open license via “producing derivative works with proper attribution” which is not currently the case for most models. Another author noted that “Open Access (which I support) should not mean Open to Theft of ideas or Credit.” 

Amy Brand

Amy Brand is Director and Publisher of the MIT Press, a role she has held since 2015. A cognitive scientist by training, she earned her PhD from MIT and has held leadership roles at CrossRef, Harvard, and Digital Science. She is a co-creator of the CRediT taxonomy, a founding member of the ORCID Board, and producer of the documentary Picture a Scientist. Brand is widely recognized for her contributions to research infrastructure, scholarly communication, and equity in science. Her honors include the Council of Science Editors Award and the AAAS Kavli Science Journalism Gold Award.


Dashiel Carrera

Dashiel Carrera is a Visiting PhD Researcher in Computer Science at Columbia University. His research is broadly concerned with the impacts of AI on the Arts and he runs workshops and gives talks to prepare arts communities for the onset of Generative AI. He's previously conducted research at the MIT Media Lab and Harvard's metaLab and his work has been published in top venues like CHI, DIS, CSCW, Creativity and Cognition, and Digital Humanities Quarterly. Also a novelist and sound media artis, he is the author of The Deer (Dalkey Archive, 2022) and his work has been exhibited at Inter/Access, UKAI Projects, ELO, HackPrinceton and elsewhere.


Katy Gero

Katy Gero is a human-computer interaction researcher focused on creativity, writing technologies, and the ethics of AI. She is a Lecturer in the School of Computer Science at the University of Sydney and previously held fellowships at Harvard University and the Library Innovation Lab. Her research explores how language models impact creative practice, ownership, and learning, with a growing interest in community-driven AI. She holds a PhD from Columbia University and a BS from MIT, and her work has been supported by the NSF, Amazon, and the Brown Institute. Also a poet and essayist, she is the author of The Anxiety of Conception (2025) and co-edits Ensemble Park, a magazine for human-computer co-writing.


Susan Silbey

Susan Silbey is the Leon and Anne Goldberg Professor of Humanities and Professor of Sociology and Anthropology at MIT, with an additional appointment in the Sloan School of Management. She is a leading scholar of legal consciousness and organizational governance, known for her work on how people experience law and how institutions manage compliance and risk. She holds a PhD from the University of Chicago and has received numerous honors, including a Guggenheim Fellowship and MIT’s Killian Faculty Achievement Award. At MIT, she has also served as Chair of the Faculty and played a key role in interdisciplinary governance. Her influential books include The Common Place of Law and Law and Science.


¿Quién controla el conocimiento en la era de la IA? Parte 1

Publicado en The Scholarly Kitchen https://scholarlykitchen.sspnet.org/2025/08/12/guest-post-who-controls-knowledge-in-the-age-of-ai-part-1/...