Publicado en Nature
https://www.nature.com/articles/d41586-024-02838-z
Propiedad intelectual y privacidad de los datos: los riesgos ocultos de la IA
Las herramientas de inteligencia artificial generativa han sido ampliamente adoptadas en el mundo académico, pero es posible que los usuarios no sean conscientes de todos sus riesgos inherentes.
Por Amanda Heidt
Timothée Poisot, ecólogo computacional de la Universidad de Montreal (Canadá), ha hecho carrera estudiando la biodiversidad mundial. Un principio rector de su investigación es que debe ser útil, afirma Poisot, como espera que lo sea a finales de este año, cuando se una a otros trabajos que se están estudiando en la 16ª Conferencia de las Partes (COP16) del Convenio de las Naciones Unidas sobre la Diversidad Biológica en Cali (Colombia). «Cada dato científico que producimos y que es examinado por los responsables políticos y las partes interesadas es a la vez emocionante y un poco aterrador, ya que es mucho lo que está en juego», afirma.
Pero a Poisot le preocupa que la inteligencia artificial (IA) interfiera en la relación entre ciencia y política en el futuro. Chatbots como Bing de Microsoft, Gemini de Google y ChatGPT, creados por la empresa tecnológica OpenAI de San Francisco (California), se entrenaron utilizando un corpus de datos extraídos de Internet, entre los que probablemente se encuentra el trabajo de Poisot. Pero como los chatbots no suelen citar el contenido original en sus resultados, los autores no pueden saber cómo se utiliza su trabajo ni comprobar la credibilidad de las afirmaciones de la IA.
Según Poisot, es probable que las afirmaciones no verificadas de los chatbots lleguen a reuniones importantes como la COP16, donde corren el riesgo de ahogar a la ciencia sólida.
«Existe la expectativa de que la investigación y la síntesis se hagan de forma transparente, pero si empezamos a subcontratar esos procesos a una IA, no hay forma de saber quién hizo qué, de dónde procede la información y a quién hay que reconocer el mérito», afirma.
Desde la llegada de ChatGPT en noviembre de 2022, parece que no hay parte del proceso de investigación que los chatbots no hayan tocado. Las herramientas de IA generativa (genAI) ya pueden realizar búsquedas bibliográficas, redactar manuscritos, solicitudes de subvención y comentarios de revisión por pares, e incluso producir código informático. Sin embargo, como las herramientas se entrenan con enormes conjuntos de datos -que a menudo no se hacen públicos-, estos ayudantes digitales también pueden entrar en conflicto con las normas de propiedad, plagio y privacidad de formas inesperadas que no pueden abordarse en los marcos legales actuales. Y como la genAI, supervisada sobre todo por empresas privadas, entra cada vez más en el dominio público, a menudo recae en los usuarios la responsabilidad de utilizar las herramientas de forma responsable.
Recompensas para los robots
La tecnología subyacente a la genAI, desarrollada por primera vez en instituciones públicas en la década de 1960, ha pasado a manos de empresas privadas, que no suelen tener incentivos para dar prioridad a la transparencia o el acceso abierto. Como resultado, la mecánica interna de los chatbots genAI es casi siempre una caja negra -una serie de algoritmos que no se entienden completamente, ni siquiera por sus creadores- y la atribución de fuentes a menudo se borra de la salida. Esto hace que sea casi imposible saber exactamente qué se ha incluido en la respuesta de un modelo a una pregunta.
Hasta ahora, organizaciones como OpenAI han pedido a los usuarios que se aseguren de que los resultados utilizados en otros trabajos no infringen las leyes, incluidas las de propiedad intelectual y derechos de autor, ni divulgan información confidencial, como la ubicación, el sexo, la edad, el origen étnico o los datos de contacto de una persona. Algunos estudios han demostrado que las herramientas genAI pueden hacer ambas cosas1,2.
Los chatbots son potentes en parte porque han aprendido de casi toda la información de Internet -obtenida a través de acuerdos de licencia con editores como Associated Press y plataformas de medios sociales como Reddit, o mediante amplias búsquedas de contenidos de libre acceso- y destacan en la identificación de patrones en montañas de datos. Por ejemplo, el modelo GPT-3.5, en el que se basa una versión de ChatGPT, se entrenó con unos 300.000 millones de palabras, que utiliza para crear cadenas de texto basadas en algoritmos predictivos.
Las empresas de IA están cada vez más interesadas en desarrollar productos dirigidos al mundo académico. Varias han lanzado motores de búsqueda basados en IA. En mayo, OpenAI anunció ChatGPT Edu, una plataforma que añade capacidades analíticas adicionales al popular chatbot de la empresa e incluye la posibilidad de crear versiones personalizadas de ChatGPT.
Dos estudios realizados este año han hallado pruebas del uso generalizado de genAI para redactar manuscritos científicos publicados3 y comentarios de revisión por pares4, a pesar de que las editoriales intentan poner barreras al uso de la IA prohibiéndola o pidiendo a los redactores que revelen si la utilizan y cuándo. Los juristas e investigadores que hablaron con Nature dejaron claro que, cuando los académicos utilizan chatbots de este modo, se exponen a riesgos que podrían no prever o comprender plenamente. «La gente que utiliza estos modelos no tiene ni idea de lo que realmente son capaces de hacer, y me gustaría que se tomaran más en serio su protección y la de sus datos», afirma Ben Zhao, un investigador de seguridad informática de la Universidad de Chicago (Illinois) que desarrolla herramientas para proteger el trabajo creativo, como el arte y la fotografía, contra el scraping o la imitación por parte de la IA.
Un portavoz de OpenAI se puso en contacto con él para pedirle que comentara la situación y dijo que la empresa estaba estudiando la forma de mejorar el proceso de exclusión. «Como empresa de investigación, creemos que la IA ofrece enormes beneficios para el mundo académico y el progreso de la ciencia», afirma el portavoz. «Respetamos que algunos propietarios de contenidos, incluidos los académicos, no quieran que sus obras de acceso público se utilicen para ayudar a enseñar nuestra IA, y por eso les ofrecemos formas de excluirse. También estamos explorando qué otras herramientas pueden ser útiles.»
En ámbitos como el académico, en el que los resultados de la investigación están ligados al éxito profesional y al prestigio, perder la atribución no sólo priva a las personas de una compensación, sino que también perpetúa el daño a la reputación. «Eliminar los nombres de las personas de su trabajo puede ser muy perjudicial, sobre todo para los científicos que empiezan su carrera o las personas que trabajan en lugares del Sur», afirma Evan Spotte-Smith, químico computacional de la Universidad Carnegie Mellon de Pittsburgh (Pensilvania), que evita utilizar la IA por razones éticas y morales. Las investigaciones han demostrado que los trabajos de los miembros de grupos marginados en la ciencia se publican y citan con menos frecuencia que la media5 y, en general, tienen menos oportunidades de progresar. Según Spotte-Smith, la IA puede agravar aún más estos problemas: no atribuir el trabajo de una persona «crea una nueva forma de “colonialismo digital”, que nos permite acceder a lo que producen nuestros colegas sin necesidad de relacionarnos con ellos».
Hoy en día, los académicos tienen pocos recursos para decidir cómo se utilizan sus datos o para que los modelos de IA existentes los «desaprendan »6 . La investigación suele publicarse en acceso abierto, y es más difícil litigar por el uso indebido de artículos o libros publicados que por el de una pieza musical o una obra de arte. Zhao afirma que la mayoría de las políticas de exclusión voluntaria «son, en el mejor de los casos, una esperanza y un sueño», y que muchos investigadores ni siquiera poseen los derechos de su producción creativa, ya que los han cedido a instituciones o editoriales que, a su vez, pueden asociarse con empresas de IA que buscan utilizar su corpus para entrenar nuevos modelos y crear productos que puedan comercializarse de nuevo a los académicos.
Los representantes de las editoriales Springer Nature, la Asociación Estadounidense para el Avance de la Ciencia (que publica la familia de revistas Science), PLOS y Elsevier afirman que no han suscrito acuerdos de licencia de este tipo, aunque algunos, incluidos los de las revistas Science, Springer Nature y PLOS, señalan que las revistas sí revelan el uso de la IA en la edición y revisión por pares y para comprobar el plagio. (Springer Nature publica Nature, pero la revista es editorialmente independiente de su editor).
A algunos autores les inquieta la noticia de que su trabajo vaya a alimentar algoritmos de IA (véase «Cómo proteger su propiedad intelectual de la IA»). «No estoy seguro de poder predecir todas las formas en que la IA podría afectarme a mí o a mi trabajo, y eso me frustra y me asusta un poco», afirma Edward Ballister, biólogo oncólogo de la Universidad de Columbia, en Nueva York. «Creo que las instituciones y los editores tienen la responsabilidad de pensar en lo que todo esto significa y de ser abiertos y comunicativos sobre sus planes».
Cómo proteger la propiedad intelectual de la IA
En última instancia, las nuevas leyes establecerán expectativas más sólidas en torno a la propiedad y la transparencia de los datos utilizados para entrenar modelos de IA generativa (genAI). Mientras tanto, hay algunas medidas que los investigadores pueden tomar para proteger su propiedad intelectual (PI) y salvaguardar los datos sensibles.
1. Reflexionar críticamente sobre si la IA es realmente necesaria.
Abstenerse de utilizar genAI puede parecer como perder una oportunidad de oro. Pero para ciertas disciplinas -especialmente las que implican datos sensibles, como los diagnósticos médicos- dejarla pasar podría ser la opción más ética. «Ahora mismo no tenemos una buena forma de hacer olvidar a la IA, por lo que el uso de estos modelos en entornos sanitarios sigue estando muy limitado», afirma Uri Gal, informático de la Universidad de Sídney (Australia), que estudia la ética de las tecnologías digitales.
2. Si utiliza IA, aplique medidas de protección.
En general, los especialistas coinciden en que es casi imposible proteger completamente sus datos de los «web scrapers», herramientas que extraen datos de Internet. Sin embargo, hay algunos pasos -como alojar los datos localmente en un servidor privado o hacer que los recursos estén abiertos y disponibles, pero sólo bajo petición- que pueden añadir una capa adicional de supervisión. Varias empresas, entre ellas OpenAI, Microsoft e IBM, permiten a los clientes crear sus propios chatbots, entrenados con sus propios datos, que pueden ser aislados de esta manera.
3. Cuando sea posible, opte por la exclusión.
La aplicabilidad de las políticas de exclusión voluntaria que omiten los datos de los conjuntos de entrenamiento de IA varía ampliamente, pero empresas como Slack, Adobe, Quora, Squarespace, Substack y OpenAI ofrecen opciones para evitar el scraping de contenidos. Sin embargo, algunas plataformas hacen el proceso más difícil que otras o limitan la opción a ciertos tipos de cuenta. Si eres bueno codificando, puedes modificar el archivo robots.txt de tu sitio web personal, que indica a los rastreadores web si tienen permiso para visitar tu página, para evitar que las herramientas raspen tu contenido.
4. Si puedes, «envenena» tus datos.
Los científicos ya pueden detectar si se han incluido productos visuales, como imágenes o gráficos, en un conjunto de entrenamiento, y han desarrollado herramientas que pueden «envenenar» los datos de forma que los modelos de IA entrenados con ellos se rompan de forma impredecible. «Básicamente, enseñamos a los modelos que una vaca es algo con cuatro ruedas y un bonito guardabarros», explica Ben Zhao, investigador de seguridad informática de la Universidad de Chicago (Illinois). Zhao trabajó en una herramienta de este tipo, llamada Nightshade, que manipula los píxeles individuales de una imagen para que un modelo de IA asocie el patrón corrupto con un tipo diferente de imagen (un perro en lugar de un gato, por ejemplo). Por desgracia, aún no existen herramientas similares para envenenar la escritura.
5. Expresa tus preocupaciones.
A menudo, los académicos ceden su propiedad intelectual a instituciones o editoriales, lo que les resta influencia a la hora de decidir cómo se utilizan sus datos. Sin embargo, Christopher Cornelison, Director de Desarrollo de la Propiedad Intelectual de la Universidad Estatal de Kennesaw, en Georgia, afirma que merece la pena iniciar una conversación con su institución o editorial si tiene dudas. Estas entidades podrían estar mejor situadas para negociar un acuerdo de licencia con una empresa de IA o entablar un litigio cuando parezca probable que se produzca una infracción. «Desde luego, no queremos una relación de confrontación con nuestro profesorado, y lo que se espera es que trabajemos por un objetivo común», afirma.
Sin embargo, hay indicios de que los editores se dan cuenta del malestar de los científicos y actúan en consecuencia. Daniel Weld, científico jefe del motor de búsqueda de IA Semantic Scholar, con sede en la Universidad de Washington en Seattle, ha observado que cada vez más editores y particulares solicitan retroactivamente que los artículos del corpus de Semantic Scholar no se utilicen para entrenar modelos de IA.
La ley interviene
La política internacional no ha hecho más que ponerse al día con la irrupción de la tecnología de la IA, y es probable que aún falten años para obtener respuestas claras a cuestiones fundamentales, como qué lugar ocupan los resultados de la IA en la legislación vigente sobre derechos de autor, a quién pertenecen esos derechos y qué deben tener en cuenta las empresas de IA cuando introducen datos en sus modelos. «Nos encontramos en un periodo en el que los avances tecnológicos son muy rápidos, pero la legislación va con retraso», afirma Christophe Geiger, jurista de la Universidad Luiss Guido Carli de Roma. «El reto es cómo establecemos un marco jurídico que no desincentive el progreso, pero que siga velando por nuestros derechos humanos».
Incluso mientras los observadores se acomodan para lo que podría ser una larga espera, Peter Yu, abogado de propiedad intelectual y académico legal de la Facultad de Derecho de la Universidad A&M de Texas en Fort Worth, dice que la jurisprudencia estadounidense existente sugiere que los tribunales serán más propensos a ponerse del lado de las empresas de IA, en parte porque Estados Unidos a menudo prioriza el desarrollo de nuevas tecnologías. «Eso ayuda a impulsar la tecnología a un alto nivel en los EE.UU. cuando muchos otros países todavía están tratando de ponerse al día, pero hace que sea más difícil para los creadores perseguir la sospecha de infracción».
La Unión Europea, por el contrario, ha favorecido históricamente la protección de las personas frente al desarrollo de nuevas tecnologías. En mayo, aprobó la primera ley integral sobre IA del mundo, la Ley de IA. En ella se clasifican los usos de la IA en función de sus riesgos potenciales para la salud, la seguridad o los derechos fundamentales de las personas, y se establecen las correspondientes salvaguardias. Algunas aplicaciones, como el uso de IA para deducir datos personales sensibles, estarán prohibidas. La ley entrará en vigor en 2026 y se aplicará a los modelos que operen en la UE.
Es probable que el impacto de la Ley de IA en el mundo académico sea mínimo, ya que la política contempla amplias exenciones para los productos utilizados en investigación y desarrollo. Pero Dragoş Tudorache, miembro del Parlamento Europeo y uno de los dos principales negociadores de la Ley de IA, espera que la ley tenga efectos de goteo sobre la transparencia. En virtud de la ley, las empresas de IA que produzcan modelos de «propósito general», como los chatbots, estarán sujetas a nuevos requisitos, incluida la rendición de cuentas sobre cómo se entrenan sus modelos y cuánta energía consumen, y tendrán que ofrecer políticas de exclusión voluntaria y hacerlas cumplir. Cualquier grupo que infrinja la ley podría ser multado con hasta el 7% de sus beneficios anuales.
Tudorache ve el acto como el reconocimiento de una nueva realidad en la que la IA ha llegado para quedarse. «Hemos tenido muchas otras revoluciones industriales en la historia de la humanidad, y todas ellas han afectado profundamente a distintos sectores de la economía y la sociedad en general, pero creo que ninguna de ellas ha tenido el profundo efecto transformador que creo que va a tener la IA», afirma.
***********************************************
CAREER GUIDE
04 September 2024
Generative artificial-intelligence tools have been widely adopted across academia, but users might not be aware of all their inherent risks.
By Amanda Heidt
Timothée Poisot, a computational ecologist at the University of Montreal in Canada, has made a successful career out of studying the world’s biodiversity. A guiding principle for his research is that it must be useful, Poisot says, as he hopes it will be later this year, when it joins other work being considered at the 16th Conference of the Parties (COP16) to the United Nations Convention on Biological Diversity in Cali, Colombia. “Every piece of science we produce that is looked at by policymakers and stakeholders is both exciting and a little terrifying, since there are real stakes to it,” he says.
But Poisot worries that artificial intelligence (AI) will interfere with the relationship between science and policy in the future. Chatbots such as Microsoft’s Bing, Google’s Gemini and ChatGPT, made by tech firm OpenAI in San Francisco, California, were trained using a corpus of data scraped from the Internet — which probably includes Poisot’s work. But because chatbots don’t often cite the original content in their outputs, authors are stripped of the ability to understand how their work is used and to check the credibility of the AI’s statements. It seems, Poisot says, that unvetted claims produced by chatbots are likely to make their way into consequential meetings such as COP16, where they risk drowning out solid science.
“There’s an expectation that the research and synthesis is being done transparently, but if we start outsourcing those processes to an AI, there’s no way to know who did what and where the information is coming from and who should be credited,” he says.
Since ChatGPT’s arrival in November 2022, it seems that there’s no part of the research process that chatbots haven’t touched. Generative AI (genAI) tools can now perform literature searches; write manuscripts, grant applications and peer-review comments; and even produce computer code. Yet, because the tools are trained on huge data sets — that often are not made public — these digital helpers can also clash with ownership, plagiarism and privacy standards in unexpected ways that cannot be addressed under current legal frameworks. And as genAI, overseen mostly by private companies, increasingly enters the public domain, the onus is often on users to ensure that they are using the tools responsibly.
Bot bountyThe technology underlying genAI, which was first developed at public institutions in the 1960s, has now been taken over by private companies, which usually have no incentive to prioritize transparency or open access. As a result, the inner mechanics of genAI chatbots are almost always a black box — a series of algorithms that aren’t fully understood, even by their creators — and attribution of sources is often scrubbed from the output. This makes it nearly impossible to know exactly what has gone into a model’s answer to a prompt. Organizations such as OpenAI have so far asked users to ensure that outputs used in other work do not violate laws, including intellectual-property and copyright regulations, or divulge sensitive information, such as a person’s location, gender, age, ethnicity or contact information. Studies have shown that genAI tools might do both1,2.
Chatbots are powerful in part because they have learnt from nearly all the information on the Internet — obtained through licensing agreements with publishers such as the Associated Press and social-media platforms including Reddit, or through broad trawls of freely accessible content — and they excel at identifying patterns in mountains of data. For example, the GPT-3.5 model, which underlies one version of ChatGPT, was trained on roughly 300 billion words, which it uses to create strings of text on the basis of predictive algorithms.
AI companies are increasingly interested in developing products marketed to academics. Several have released AI-powered search engines. In May, OpenAI announced ChatGPT Edu, a platform that layers extra analytical capabilities onto the company’s popular chatbot and includes the ability to build custom versions of ChatGPT.
Two studies this year have found evidence of widespread genAI use to write both published scientific manuscripts3 and peer-review comments4, even as publishers attempt to place guardrails around the use of AI by either banning it or asking writers to disclose whether and when AI is used. Legal scholars and researchers who spoke to Nature made it clear that, when academics use chatbots in this way, they open themselves up to risks that they might not fully anticipate or understand. “People who are using these models have no idea what they’re really capable of, and I wish they’d take protecting themselves and their data more seriously,” says Ben Zhao, a computer-security researcher at the University of Chicago in Illinois who develops tools to shield creative work, such as art and photography, from being scraped or mimicked by AI.
When contacted for comment, an OpenAI spokesperson said the company was looking into ways to improve the opt-out process. “As a research company, we believe that AI offers huge benefits for academia and the progress of science,” the spokesperson says. “We respect that some content owners, including academics, may not want their publicly available works used to help teach our AI, which is why we offer ways for them to opt out. We’re also exploring what other tools may be useful.”
In fields such as academia, in which research output is linked to professional success and prestige, losing out on attribution not only denies people compensation, but also perpetuates reputational harm. “Removing peoples’ names from their work can be really damaging, especially for early-career scientists or people working in places in the global south,” says Evan Spotte-Smith, a computational chemist at Carnegie Mellon University in Pittsburgh, Pennsylvania, who avoids using AI for ethical and moral reasons. Research has shown that members of groups that are marginalized in science have their work published and cited less frequently than average5, and overall have access to fewer opportunities for advancement. AI stands to further exacerbate these challenges, Spotte-Smith says: failing to attribute someone’s work to them “creates a new form of ‘digital colonialism’, where we’re able to get access to what colleagues are producing without needing to actually engage with them”.
Academics today have little recourse in directing how their data are used or having them ‘unlearnt’ by existing AI models6. Research is often published open access, and it is more challenging to litigate the misuse of published papers or books than that of a piece of music or a work of art. Zhao says that most opt-out policies “are at best a hope and a dream”, and many researchers don’t even own the rights to their creative output, having signed them over to institutions or publishers that in turn can enter partnerships with AI companies seeking to use their corpus to train new models and create products that can be marketed back to academics.
Representatives of the publishers Springer Nature, the American Association for the Advancement of Science (which publishes the Science family of journals), PLOS and Elsevier say they have not entered such licensing agreements — although some, including those for the Science journals, Springer Nature and PLOS, noted that the journals do disclose the use of AI in editing and peer review and to check for plagiarism. (Springer Nature publishes Nature, but the journal is editorially independent from its publisher.)
Other publishers, such as Wiley and Oxford University Press, have brokered deals with AI companies. Taylor & Francis, for example, has a US$10-million agreement with Microsoft. The Cambridge University Press (CUP) has not yet entered any partnerships, but is developing policies that will offer an ‘opt-in’ agreement to authors, who will receive remuneration. In a statement to The Bookseller magazine discussing future plans for the CUP — which oversees 45,000 print titles, more than 24,000 e-books and more than 300 research journals — Mandy Hill, the company’s managing director of academic publishing, who is based in Oxford, UK, said that it “will put authors’ interests and desires first, before allowing their work to be licensed for GenAI”.
Some authors are unsettled by the news that their work will be fed into AI algorithms (see ‘How to protect your intellectual property from AI’). “I don’t feel confident that I can predict all the ways AI might impact me or my work, and that feels frustrating and a little frightening,” says Edward Ballister, a cancer biologist at Columbia University in New York City. “I think institutions and publishers have a responsibility to think about what this all means and to be open and communicative about their plans.”
How to protect your intellectual property from AINew laws will ultimately establish more robust expectations around ownership and transparency of the data used to train generative AI (genAI) models. Meanwhile, there are a few steps that researchers can take to protect their intellectual property (IP) and safeguard sensitive data.
1. Think critically about whether AI is truly needed.Abstaining from using genAI might feel like missing out on a golden opportunity. But for certain disciplines — particularly those that involve sensitive data, such as medical diagnoses — giving it a miss could be the more ethical option. “Right now, we don’t really have a good way of making AI forget, so there are still a lot of constraints on using these models in health-care settings,” says Uri Gal, an informatician at the University of Sydney in Australia, who studies the ethics of digital technologies.
2. If you do use AI, implement safeguards.Specialists broadly agree that it’s nearly impossible to completely shield your data from web scrapers, tools that extract data from the Internet. However, there are some steps — such as hosting data locally on a private server or making resources open and available, but only by request — that can add an extra layer of oversight. Several companies, including OpenAI, Microsoft and IBM, allow customers to create their own chatbots, trained on their own data, that can be isolated in this way.
3. When possible, opt out.The enforceability of opt-out policies that omit data from AI training sets varies widely, but companies such as Slack, Adobe, Quora, Squarespace, Substack and OpenAI all offer options to prevent content from being scraped. However, some platforms make the process more challenging than others or limit the option to certain types of account. If you’re good at coding, you can modify your personal website’s robots.txt file, which tells web crawlers whether they are allowed to visit your page, to keep the tools from scraping your content.
4. If you can, ‘poison’ your data.Scientists can now detect whether visual products, such as images or graphics, have been included in a training set, and have developed tools that can ‘poison’ data such that AI models trained on them break in unpredictable ways. “We basically teach the models that a cow is something with four wheels and a nice fender,” says Ben Zhao, a computer-security researcher at the University of Chicago in Illinois. Zhao worked on one such tool, called Nightshade, which manipulates the individual pixels of an image so that an AI model associates the corrupted pattern with a different type of image (a dog instead of a cat, for example). Unfortunately, there are not yet similar tools for poisoning writing.
5. Voice your concerns.Academics often sign their IP over to institutions or publishers, giving them less leverage in deciding how their data are used. But Christopher Cornelison, the director of IP development at Kennesaw State University in Georgia, says it’s worth starting a conversation with your institution or publisher if you have concerns. These entities could be better placed to broker a licensing agreement with an AI company or pursue litigation when infringement seems likely to happen. “We certainly don’t want an adversarial relationship with our faculty, and the expectation is that we’re working towards a common goal,” he says.
Some evidence suggests that publishers are noting scientists’ discomfort and acting accordingly, however. Daniel Weld, chief scientist at the AI search engine Semantic Scholar, based at the University of Washington in Seattle, has noticed that more publishers and individuals are reaching out to retroactively request that papers in the Semantic Scholar corpus not be used to train AI models.
The law weighs in
International policy is only now catching up with the burst of AI technology, and clear answers to foundational questions — such as where AI output falls under existing copyright legislation, who owns that copyright and what AI companies need to consider when they feed data into their models — are probably years away. “We are now in this period where there are very fast technological developments, but the legislation is lagging,” says Christophe Geiger, a legal scholar at Luiss Guido Carli University in Rome. “The challenge is how we establish a legal framework that will not disincentivize progress, but still take care of our human rights.”
Even as observers settle in for what could be a long wait, Peter Yu, an intellectual-property lawyer and legal scholar at Texas A&M University School of Law in Fort Worth, says that existing US case law suggests that the courts will be more likely to side with AI companies, in part because the United States often prioritizes the development of new technologies. “That helps push technology to a high level in the US when a lot of other countries are still trying to catch up, but it makes it more challenging for creators to pursue suspected infringement.”
The European Union, by contrast, has historically favoured personal protections over the development of new technologies. In May, it approved the world’s first comprehensive AI law, the AI Act. This broadly categorizes uses of AI on the basis of their potential risks to people’s health, safety or fundamental rights, and mandates corresponding safeguards. Some applications, such as using AI to infer sensitive personal details, will be banned. The law will be rolled out over the next two years, coming into full effect in 2026, and applies to models operating in the EU.
The impact of the AI Act on academia is likely to be minimal, because the policy gives broad exemptions for products used in research and development. But Dragoş Tudorache, a member of the European Parliament and one of the two lead negotiators of the AI Act, hopes the law will have trickle-down effects on transparency. Under the act, AI companies producing “general purpose” models, such as chatbots, will be subject to new requirements, including an accounting of how their models are trained and how much energy they use, and will need to offer opt-out policies and enforce them. Any group that violates the act could be fined as much as 7% of its annual profits.
Tudorache sees the act as an acknowledgement of a new reality in which AI is here to stay. “We’ve had many other industrial revolutions in the history of mankind, and they all profoundly affected different sectors of the economy and society at large, but I think none of them have had the deep transformative effect that I think AI is going to have,” he says.
doi: https://doi.org/10.1038/d41586-024-02838-z
This article is part of Nature Career Guide: Faculty, an editorially independent supplement. Advertisers have no influence over the content.
ReferencesFranceschelli, G. & Musolesi, M. Data Policy 4, e17 (2022).
Staab, R., Vero, M., Balunovic, M. & Vechev, M. Preprint at arXiv https://doi.org/10.48550/arXiv.2310.07298 (2023).
Liang, W. et al. Preprint at arXiv https://doi.org/10.48550/arXiv.2404.01268 (2024).
Liang, W. et al. Preprint at arXiv https://doi.org/10.48550/arXiv.2403.07183 (2024).
Liu, F., Rahwan, T. & AlShebli, B. Proc. Natl Acad. Sci. USA 120, e2215324120 (2023).
Zhang, H., Nakamura, T., Isohara, T. & Sakurai, K. SN Comput. Sci. 4, 337 (2023).