Boletín SciELO-México: Propiedad intelectual

Mostrando entradas con la etiqueta Propiedad intelectual. Mostrar todas las entradas

lunes, 18 de mayo de 2026

ELSEVIER vs META-Zuckerberg: ladrón que roba a ladrón... o la defensa del negocio de los artículos científicos

Publicado en THE Times Higher Education
https://www.timeshighereducation.com/news/open-season-scholars-rights-if-elsevier-loses-meta-fight

«Se abrirá la veda» sobre los derechos de los investigadores si Elsevier pierde la batalla contra Meta

Según los expertos, una derrota del gigante editorial en su demanda judicial sobre el rastreo mediante IA dificultará mucho más que los investigadores puedan controlar cómo se utilizan sus trabajos

Publicado el 15 de mayo de 2026

Mientras que la editorial académica más grande del mundo se ha enfrentado a boicots y a dimisiones masivas de editores de revistas debido a las preocupaciones sobre sus precios y márgenes de beneficio, el anuncio de Elsevier de que se une a una demanda colectiva junto con otras cuatro editoriales importantes para demandar a Meta y a su fundador, Mark Zuckerberg, por «infracción deliberada de millones de obras textuales… para desarrollar los modelos de lenguaje a gran escala (LLM) Llama de Meta» podría atraer un apoyo significativo de la comunidad académica, según afirmó Alina Trapova, profesora de Derecho de la Propiedad Intelectual en la Facultad de Derecho de la UCL.

«Puede que los académicos no hayan considerado a Elsevier como la editorial más favorable a lo largo de los años, pero ahora parece que está luchando por los derechos de los autores», declaró Trapova a Times Higher Education con motivo de la primera demanda relacionada con la inteligencia artificial (IA) presentada por varias editoriales líderes.

Alegaban que Meta había recopilado millones de artículos y libros pirateados ilegalmente para entrenar su modelo de IA generativa, el cual, a su vez, había devuelto a Internet unos 40 terabytes de datos, equivalentes a unos 5 millones de libros. Muchos de los resúmenes de Llama sobre resultados de investigación contienen alucinaciones e inexactitudes que podrían dañar la credibilidad de los académicos, afirma Elsevier.

«Para los académicos, obtener reconocimiento a través de la atribución es realmente importante. Necesitamos que esas atribuciones nos lleguen a nosotros, en lugar de que nuestro trabajo acabe convertido en resúmenes anónimos generados por IA o en una simple alucinación», afirmó Trapova al explicar por qué los académicos se pondrán del lado de Elsevier.

Meta alega que el uso que hace de los artículos para entrenar su LLM constituye un «uso legítimo», pero, de aceptarse, esto ignoraría los derechos de los autores sobre sus propios materiales, que Elsevier ha tratado de gestionar mediante acuerdos individuales, continuó Trapova.

«Se ha pedido a los colaboradores que firmen estos documentos indicando si permiten que su trabajo se utilice en diferentes contextos; Meta ha interpretado este acuerdo en el sentido de que “podemos hacer lo que queramos con este trabajo”, lo cual es una maniobra realmente desagradable», afirmó.

En este sentido, «está en juego la integridad académica», aunque «este no es el aspecto central de la demanda», continuó Trapova.

«Para Elsevier, esta demanda tiene como objetivo principal proteger su modelo de negocio, y los derechos de autor son el mecanismo legal para hacerlo. Pero también velará por los intereses de los autores y creadores», afirmó.

Aunque a muchos académicos les resulte difícil simpatizar con Elsevier —cuya empresa matriz, RELX, tiene una capitalización bursátil de 43 000 millones de libras—, la defensa jurídica de sus intereses económicos podría contribuir a reforzar el control que los autores tienen sobre sus obras y el uso que se hace de ellas, señaló Trapova. «El caso no se centra principalmente en la integridad de la investigación: el marco jurídico de EE. UU. tiene un aspecto moral, pero las protecciones en este ámbito son mucho más débiles. Por eso, lo que realmente se debate en los tribunales gira en torno a la pérdida económica», afirmó.

Emily Hudson, profesora de Derecho en la Universidad de Oxford, cuya investigación se centra en los derechos de propiedad intelectual, coincidió en que los académicos se pondrán en su mayoría del lado de Elsevier.

«Hay mucho apoyo... a las acciones legales contra las empresas tecnológicas», explicó Hudson, y añadió: «Esto no quiere decir que los académicos estén en contra del uso y el desarrollo de la IA en sí. Más bien, creo que la preocupación se refiere a cómo se está utilizando la IA».

«Si un investigador quiere utilizar mis artículos para, por ejemplo, desarrollar una IA que ayude a diagnosticar enfermedades, entonces me parecería bien que lo hiciera de forma gratuita y, de hecho, sin pedirme permiso. Por otro lado, me sentiría mucho menos cómoda si una empresa tecnológica utilizara el mismo conjunto de artículos para desarrollar un producto de IA generativa que ayude a los usuarios a redactar correos electrónicos o escribir ensayos», explicó.

«Dicho esto, debemos tener claro que los intereses de las editoriales y los académicos no coinciden del todo», afirmó Hudson, señalando que un acuerdo de compromiso podría ser aceptable para Elsevier, pero no para los autores.

«En este caso, dado que son las editoriales las que impulsan el asunto, es posible que el resultado final que ellas prefieren o consideran aceptable (como acuerdos de licencia con empresas tecnológicas) no sea el preferido por los autores académicos. Así pues, aunque tanto las editoriales como los autores puedan tener interés en demostrar que las empresas han infringido los derechos de autor en el desarrollo actual de la IA, puede que no haya acuerdo sobre cómo se debería gestionar esto en el futuro».

Sin embargo, Caroline Ball, responsable de participación comunitaria en Open Book Collective, una organización que defiende la publicación de acceso abierto, afirmó que el enfrentamiento entre Elsevier y Meta era «complicado» para los académicos.

«Es más complicado que el caso de piratería de libros de Anthropic, ya que en aquel caso los derechos de los autores eran el núcleo del asunto, y cualquier compensación económica iría destinada principalmente a los autores», afirmó Ball en referencia al acuerdo de 1100 millones de libras esterlinas alcanzado en septiembre de 2025.

«Si Elsevier ganara y obtuviera una indemnización o compensación, es poco probable que nada de eso llegara a las instituciones o a los académicos, ya que, en la mayoría de los casos, estos habrán cedido sus derechos a Elsevier en el momento de la publicación. Así que solo supondrá más dinero para Elsevier a costa del trabajo académico de estos», afirmó.

«Si Meta ganara y su uso generalizado de material protegido por derechos de autor se considerara legal, o lo que es más probable en los tribunales estadounidenses, “uso legítimo”, entonces se abriría la veda sobre el material protegido por derechos de autor», continuó Ball, añadiendo: «¡Sospecho que para la mayoría de nosotros en la comunidad académica se trata de un caso de “una plaga para ambas partes”!».

*****************************************

Open season’ on scholars’ rights if Elsevier loses Meta fight

Loss for the publishing giant in its legal action over AI crawling will make it much harder for scholars to assert control on how their outputs are used, say experts

Published on May 15, 2026

Last updated May 15, 2026

Jack Grove

Twitter: @jgro_the

While the world’s largest academic publisher has faced boycotts and mass walkouts by journal editors over concerns over its prices and profit margins, Elsevier’s announcement that it is joining a class action with four other major publishers to sue Meta and its founder Mark Zuckerberg over “wilful infringement of millions of textual works…to develop Meta’s Llama large language models (LLM)” may attract significant support from the scholarly community, said Alina Trapova, lecturer in intellectual property law at UCL’s Faculty of Laws.

“Academics might not see Elsevier as the friendliest publisher over the years but now it seems it is fighting for the rights of authors,” Trapova told Times Higher Education on the first artificial intelligence (AI) action brought by several leading publishing houses.

They allege Meta scraped millions of illegally pirated articles and books to train its generative AI model, which has, in turn, returned about 40 terabytes of data, equivalent to about 5 million books, to the internet. Many of the Lllama summaries of research outputs contain hallucinations and inaccuracies which could potentially damage the credibility of academics, claims Elsevier.

“For academics, getting recognition through attribution is really important for us. We need those attributions coming to us rather than having our work spat out in anonymous AI summaries or a hallucination,” said Trapova on why academics will side with Elsevier.

Meta claims its use of articles for training its LLM represents “fair use” but, if accepted, this would ignore authors’ rights to their own materials which Elsevier had sought to manage via individual agreements, continued Trapova.

“Contributors have been asked to sign these documents stating whether they permit their work to be used in different contexts – Meta has interpreted this agreement as that ‘we can do anything with this work’ which is a really nasty move,” she said.

In this respect, “academic integrity is at stake”, although “this is not the central piece of the claim”, Trapova continued.

“For Elsevier this lawsuit is about mainly about protecting their business model and copyright is the legal mechanism to do this. But it will also be looking after the interests of authors and creators,” she said.

While many academics may find it hard to sympathise with Elsevier, whose owner RELX has a market capitalisation of £43 billion, its legal defence of its economic interests may help to uphold how authors can control their works and how they are used, said Trapova. “The case isn’t primarily about research integrity – the legal framework in the US does have a moral side but protections on this side are much weaker. That is why what is actually in court is framed around economic loss,” she said.

Emily Hudson, professor of law at the University of Oxford, whose research centres on intellectual property rights, agreed that academics will mostly side with Elsevier.

“There is a lot of support...for legal actions against tech companies,” explained Hudson, adding: “This is not to suggest that academics are against the use and development of AI, per se. Rather, I think the concern relates to how AI is being used.”

“If a researcher wants to train on my papers to, say, develop an AI that helps diagnose diseases, then I may be happy for them to do so for free, and indeed without asking me for permission. On the other hand, I may be far less comfortable with a tech firm training on the same set of papers to develop a generative AI product that helps users draft emails or write essays,” she explained.

“That said, we need to be clear that the interests of publishers and academics do not completely align,” said Hudson, noting that a compromise deal might be acceptable to Elsevier but not authors.

“In this case, because we have publishers driving the case, it may be that their preferred or acceptable endpoint (such as licensing deals with tech firms) may not be that preferred by academic authors. So while both publishers and authors may have an interest in showing that firms have infringed copyright in existing AI development, there may not be agreement on how this should be handled in the future.”

However, Caroline Ball, community engagement lead at the Open Book Collective, which champions open access publishing, said the Elsevier-Meta face-off was a “complicated one” for academics.

“It’s more complicated than the Anthropic book piracy case, since in that case authors’ rights were at the heart of the issue, and any financial recompense would go to the authors, mostly,” said Ball on the £1.1 billion settlement agreed in September 2025.

“Should Elsevier win and get a payout or compensation, it’s unlikely any of that would make its way back to institutions or academics, since in most cases they will have signed their rights over to Elsevier at the point of publication. So it will be just more money for Elsevier on the basis of their academic labour,” she said.

“Should Meta win, and their wholesale use of copyright material be deemed legal, or more likely in US courts, ‘fair use’, then it’s open season on copyrighted material,” Ball continued, adding: “I suspect for most of us in the academic community it’s a case of ‘a plague on both your houses’!”

jack.grove@timeshighereducation.com

domingo, 3 de mayo de 2026

Publicación informe FESABID: propiedad intelectual y ciencia abierta

Publicación informe FESABID: propiedad intelectual y ciencia abierta

Buenas tardes,

Compartimos la publicación del nuevo informe FESABID “Tensiones y soluciones en la relación propiedad intelectual-investigación abierta”, elaborado por Raquel de Román, profesora titular de Derecho Civil de la Universidad de Burgos.

El informe, coordinado por el Grupo de Trabajo de Propiedad Intelectual de FESABID, analiza las tensiones entre la legislación española de propiedad intelectual y el paradigma de la ciencia abierta, e incluye propuestas concretas de reforma legislativa en España.

Puedes leer la noticia completa y descargar el informe en:
https://www.fesabid.org/informe-propiedad-intelectual-acceso-abierto-espana/

Puedes valorarlo en este formulario y, si te interesa, dejarnos tu correo electrónico para recibir información sobre futuras acciones relacionadas con el informe.

Es posible que este mensaje llegue duplicado a través de distintas listas de distribución.

Un saludo,

FESABID

viernes, 14 de marzo de 2025

Todas las grandes IA han ignorado las leyes del copyright. Lo alucinante es que sigue sin haber consecuencias

Publicado en Xataka
https://www.xataka.com/legislacion-y-derechos/todas-grandes-ia-han-ignorado-leyes-copyright-alucinante-que-sigue-haber-consecuencias

Todas las grandes IA han ignorado las leyes del copyright. Lo alucinante es que sigue sin haber consecuencias

La reciente demanda de grupos editoriales franceses a Meta es otro ejemplo más de la lucha contra la violación de los derechos de autor al entrenar modelos de IA

Javier Pastor

Las editoriales francesas están hartas y acaban de demandar a Meta
por violación del copyright. No son las primeras ni serán las últimas,
pero el problema no es ese: el problema es que las empresas de IA
han usado contenidos con derechos de autor para entrenar sus
modelos, y es como si no pasara nada.

Todo sigue igual. Han pasado más dos años desde que
Getty denunciara a Stable Diffusion, a la que acusaba de robar sus
fotos para entrenar su modelo de IA de generación de imágenes.
Aquella fue la primera de una gran lista de demandas por
exactamente lo mismo, pero a pesar del tiempo que ha transcurrido,
no ha habido novedades al respecto. Es como si lo que hizo
Stable Diffusion —como las demás— acabara en un segundo
plano para los tribunales de justicia.

¿Copyqué? La sospecha sobre este tipo de comportamientos ha sido
constante, y lo era ya antes de que se lanzase ChatGPT en
noviembre de 2022. Meses antes, en junio, DALL-E fue acusada
de basarse en imágenes con derechos de autor de creadores
que no recibían nada a cambio. Microsoft, OpenAI y GitHub
también fueron demandados unas semanas antes del lanzamiento de ChatGPT, pero esta vez porque GitHub Copilot había sido entrenado
sin permiso con código de diversos desarrolladores que
no habían dado su permiso. Un juez de California
desestimó prácticamente todas las reclamaciones de los demandantes en julio de 2024.

Pocas sentencias castigan a las empresas de IA. Por ahora
las sentencias que se han producido, como la mencionada,
dan la victoria aparente a las empresas de IA. Ocurrió
por ejemplo con una demanda contra OpenAI,
que la empresa logró ganar. Eso sí, dicha victoria puede salirle cara
en su otra gran demanda pendiente con The New York Times,
que puede alegar que sufrió un perjuicio demostrable.

¿Uso justo? El juicio del caso de The New York Times contra OpenAI
se inició en enero de 2025 y es sin duda uno de los más importantes
en este ámbito. La empresa liderada por Sam Altman
—que ha usado todos los datos que ha podido— se escuda
en que ellos hacen un "uso justo" de los contenidos para
poder entrenar sus modelos. Lo curioso es que por un lado
dicen eso, y por el otro han ido llegando a acuerdos millonarios con plataformas como Reddit y medios o editoriales como El País
precisamente para licenciar sus contenidos y evitar nuevas demandas.

Lo de Meta es otro nivel. Los extremos a los que están llegando
las empresas para tener datos de calidad con los que entrenar
sus modelos de IA son extraordinarios. Perplexity se saltó las barreras
de internet, pero lo de Meta fue aún más llamativo: hace poco
supimos que habían utilizado más de 80 TB de libros descargados vía BitTorrent para entrenar su modelo. Muchos de ellos con derechos
de autor, algo que ha provocado muchas críticas y la
reciente demanda de algunos grupos editoriales franceses.

No parece haber castigo. Pero como decimos, ese robo histórico de
propiedad intelectual parece estar ya asumido: no hay sentencias
que hayan castigado esas violaciones del copyright de momento,
y es como si colectivamente se hubieran ignorado esas violaciones
porque la IA ofrece ventajas interesantes. Pero nos estamos
olvidando de cómo las han obtenido... o eso parece.

En Xataka | 5.000 "tokens" de mi blog están siendo usados
para entrenar una IA. No he dado mi permiso

miércoles, 19 de febrero de 2025

Propiedad intelectual y privacidad de los datos: los riesgos ocultos de la IA

Publicado en Nature
https://www.nature.com/articles/d41586-024-02838-z

Propiedad intelectual y privacidad de los datos: los riesgos ocultos de la IA

Las herramientas de inteligencia artificial generativa han sido ampliamente adoptadas en el mundo académico, pero es posible que los usuarios no sean conscientes de todos sus riesgos inherentes.

Por Amanda Heidt

Timothée Poisot, ecólogo computacional de la Universidad de Montreal (Canadá), ha hecho carrera estudiando la biodiversidad mundial. Un principio rector de su investigación es que debe ser útil, afirma Poisot, como espera que lo sea a finales de este año, cuando se una a otros trabajos que se están estudiando en la 16ª Conferencia de las Partes (COP16) del Convenio de las Naciones Unidas sobre la Diversidad Biológica en Cali (Colombia). «Cada dato científico que producimos y que es examinado por los responsables políticos y las partes interesadas es a la vez emocionante y un poco aterrador, ya que es mucho lo que está en juego», afirma.

Pero a Poisot le preocupa que la inteligencia artificial (IA) interfiera en la relación entre ciencia y política en el futuro. Chatbots como Bing de Microsoft, Gemini de Google y ChatGPT, creados por la empresa tecnológica OpenAI de San Francisco (California), se entrenaron utilizando un corpus de datos extraídos de Internet, entre los que probablemente se encuentra el trabajo de Poisot. Pero como los chatbots no suelen citar el contenido original en sus resultados, los autores no pueden saber cómo se utiliza su trabajo ni comprobar la credibilidad de las afirmaciones de la IA.

Según Poisot, es probable que las afirmaciones no verificadas de los chatbots lleguen a reuniones importantes como la COP16, donde corren el riesgo de ahogar a la ciencia sólida.

«Existe la expectativa de que la investigación y la síntesis se hagan de forma transparente, pero si empezamos a subcontratar esos procesos a una IA, no hay forma de saber quién hizo qué, de dónde procede la información y a quién hay que reconocer el mérito», afirma.

Desde la llegada de ChatGPT en noviembre de 2022, parece que no hay parte del proceso de investigación que los chatbots no hayan tocado. Las herramientas de IA generativa (genAI) ya pueden realizar búsquedas bibliográficas, redactar manuscritos, solicitudes de subvención y comentarios de revisión por pares, e incluso producir código informático. Sin embargo, como las herramientas se entrenan con enormes conjuntos de datos -que a menudo no se hacen públicos-, estos ayudantes digitales también pueden entrar en conflicto con las normas de propiedad, plagio y privacidad de formas inesperadas que no pueden abordarse en los marcos legales actuales. Y como la genAI, supervisada sobre todo por empresas privadas, entra cada vez más en el dominio público, a menudo recae en los usuarios la responsabilidad de utilizar las herramientas de forma responsable.

Recompensas para los robots

La tecnología subyacente a la genAI, desarrollada por primera vez en instituciones públicas en la década de 1960, ha pasado a manos de empresas privadas, que no suelen tener incentivos para dar prioridad a la transparencia o el acceso abierto. Como resultado, la mecánica interna de los chatbots genAI es casi siempre una caja negra -una serie de algoritmos que no se entienden completamente, ni siquiera por sus creadores- y la atribución de fuentes a menudo se borra de la salida. Esto hace que sea casi imposible saber exactamente qué se ha incluido en la respuesta de un modelo a una pregunta.

Hasta ahora, organizaciones como OpenAI han pedido a los usuarios que se aseguren de que los resultados utilizados en otros trabajos no infringen las leyes, incluidas las de propiedad intelectual y derechos de autor, ni divulgan información confidencial, como la ubicación, el sexo, la edad, el origen étnico o los datos de contacto de una persona. Algunos estudios han demostrado que las herramientas genAI pueden hacer ambas cosas1,2.

Los chatbots son potentes en parte porque han aprendido de casi toda la información de Internet -obtenida a través de acuerdos de licencia con editores como Associated Press y plataformas de medios sociales como Reddit, o mediante amplias búsquedas de contenidos de libre acceso- y destacan en la identificación de patrones en montañas de datos. Por ejemplo, el modelo GPT-3.5, en el que se basa una versión de ChatGPT, se entrenó con unos 300.000 millones de palabras, que utiliza para crear cadenas de texto basadas en algoritmos predictivos.

Las empresas de IA están cada vez más interesadas en desarrollar productos dirigidos al mundo académico. Varias han lanzado motores de búsqueda basados en IA. En mayo, OpenAI anunció ChatGPT Edu, una plataforma que añade capacidades analíticas adicionales al popular chatbot de la empresa e incluye la posibilidad de crear versiones personalizadas de ChatGPT.

Dos estudios realizados este año han hallado pruebas del uso generalizado de genAI para redactar manuscritos científicos publicados3 y comentarios de revisión por pares4, a pesar de que las editoriales intentan poner barreras al uso de la IA prohibiéndola o pidiendo a los redactores que revelen si la utilizan y cuándo. Los juristas e investigadores que hablaron con Nature dejaron claro que, cuando los académicos utilizan chatbots de este modo, se exponen a riesgos que podrían no prever o comprender plenamente. «La gente que utiliza estos modelos no tiene ni idea de lo que realmente son capaces de hacer, y me gustaría que se tomaran más en serio su protección y la de sus datos», afirma Ben Zhao, un investigador de seguridad informática de la Universidad de Chicago (Illinois) que desarrolla herramientas para proteger el trabajo creativo, como el arte y la fotografía, contra el scraping o la imitación por parte de la IA.

Un portavoz de OpenAI se puso en contacto con él para pedirle que comentara la situación y dijo que la empresa estaba estudiando la forma de mejorar el proceso de exclusión. «Como empresa de investigación, creemos que la IA ofrece enormes beneficios para el mundo académico y el progreso de la ciencia», afirma el portavoz. «Respetamos que algunos propietarios de contenidos, incluidos los académicos, no quieran que sus obras de acceso público se utilicen para ayudar a enseñar nuestra IA, y por eso les ofrecemos formas de excluirse. También estamos explorando qué otras herramientas pueden ser útiles.»

En ámbitos como el académico, en el que los resultados de la investigación están ligados al éxito profesional y al prestigio, perder la atribución no sólo priva a las personas de una compensación, sino que también perpetúa el daño a la reputación. «Eliminar los nombres de las personas de su trabajo puede ser muy perjudicial, sobre todo para los científicos que empiezan su carrera o las personas que trabajan en lugares del Sur», afirma Evan Spotte-Smith, químico computacional de la Universidad Carnegie Mellon de Pittsburgh (Pensilvania), que evita utilizar la IA por razones éticas y morales. Las investigaciones han demostrado que los trabajos de los miembros de grupos marginados en la ciencia se publican y citan con menos frecuencia que la media5 y, en general, tienen menos oportunidades de progresar. Según Spotte-Smith, la IA puede agravar aún más estos problemas: no atribuir el trabajo de una persona «crea una nueva forma de “colonialismo digital”, que nos permite acceder a lo que producen nuestros colegas sin necesidad de relacionarnos con ellos».

Hoy en día, los académicos tienen pocos recursos para decidir cómo se utilizan sus datos o para que los modelos de IA existentes los «desaprendan »6 . La investigación suele publicarse en acceso abierto, y es más difícil litigar por el uso indebido de artículos o libros publicados que por el de una pieza musical o una obra de arte. Zhao afirma que la mayoría de las políticas de exclusión voluntaria «son, en el mejor de los casos, una esperanza y un sueño», y que muchos investigadores ni siquiera poseen los derechos de su producción creativa, ya que los han cedido a instituciones o editoriales que, a su vez, pueden asociarse con empresas de IA que buscan utilizar su corpus para entrenar nuevos modelos y crear productos que puedan comercializarse de nuevo a los académicos.

Los representantes de las editoriales Springer Nature, la Asociación Estadounidense para el Avance de la Ciencia (que publica la familia de revistas Science), PLOS y Elsevier afirman que no han suscrito acuerdos de licencia de este tipo, aunque algunos, incluidos los de las revistas Science, Springer Nature y PLOS, señalan que las revistas sí revelan el uso de la IA en la edición y revisión por pares y para comprobar el plagio. (Springer Nature publica Nature, pero la revista es editorialmente independiente de su editor).

A algunos autores les inquieta la noticia de que su trabajo vaya a alimentar algoritmos de IA (véase «Cómo proteger su propiedad intelectual de la IA»). «No estoy seguro de poder predecir todas las formas en que la IA podría afectarme a mí o a mi trabajo, y eso me frustra y me asusta un poco», afirma Edward Ballister, biólogo oncólogo de la Universidad de Columbia, en Nueva York. «Creo que las instituciones y los editores tienen la responsabilidad de pensar en lo que todo esto significa y de ser abiertos y comunicativos sobre sus planes».

Cómo proteger la propiedad intelectual de la IA

En última instancia, las nuevas leyes establecerán expectativas más sólidas en torno a la propiedad y la transparencia de los datos utilizados para entrenar modelos de IA generativa (genAI). Mientras tanto, hay algunas medidas que los investigadores pueden tomar para proteger su propiedad intelectual (PI) y salvaguardar los datos sensibles.

1. Reflexionar críticamente sobre si la IA es realmente necesaria.

Abstenerse de utilizar genAI puede parecer como perder una oportunidad de oro. Pero para ciertas disciplinas -especialmente las que implican datos sensibles, como los diagnósticos médicos- dejarla pasar podría ser la opción más ética. «Ahora mismo no tenemos una buena forma de hacer olvidar a la IA, por lo que el uso de estos modelos en entornos sanitarios sigue estando muy limitado», afirma Uri Gal, informático de la Universidad de Sídney (Australia), que estudia la ética de las tecnologías digitales.

2. Si utiliza IA, aplique medidas de protección.

En general, los especialistas coinciden en que es casi imposible proteger completamente sus datos de los «web scrapers», herramientas que extraen datos de Internet. Sin embargo, hay algunos pasos -como alojar los datos localmente en un servidor privado o hacer que los recursos estén abiertos y disponibles, pero sólo bajo petición- que pueden añadir una capa adicional de supervisión. Varias empresas, entre ellas OpenAI, Microsoft e IBM, permiten a los clientes crear sus propios chatbots, entrenados con sus propios datos, que pueden ser aislados de esta manera.

3. Cuando sea posible, opte por la exclusión.

La aplicabilidad de las políticas de exclusión voluntaria que omiten los datos de los conjuntos de entrenamiento de IA varía ampliamente, pero empresas como Slack, Adobe, Quora, Squarespace, Substack y OpenAI ofrecen opciones para evitar el scraping de contenidos. Sin embargo, algunas plataformas hacen el proceso más difícil que otras o limitan la opción a ciertos tipos de cuenta. Si eres bueno codificando, puedes modificar el archivo robots.txt de tu sitio web personal, que indica a los rastreadores web si tienen permiso para visitar tu página, para evitar que las herramientas raspen tu contenido.

4. Si puedes, «envenena» tus datos.

Los científicos ya pueden detectar si se han incluido productos visuales, como imágenes o gráficos, en un conjunto de entrenamiento, y han desarrollado herramientas que pueden «envenenar» los datos de forma que los modelos de IA entrenados con ellos se rompan de forma impredecible. «Básicamente, enseñamos a los modelos que una vaca es algo con cuatro ruedas y un bonito guardabarros», explica Ben Zhao, investigador de seguridad informática de la Universidad de Chicago (Illinois). Zhao trabajó en una herramienta de este tipo, llamada Nightshade, que manipula los píxeles individuales de una imagen para que un modelo de IA asocie el patrón corrupto con un tipo diferente de imagen (un perro en lugar de un gato, por ejemplo). Por desgracia, aún no existen herramientas similares para envenenar la escritura.

5. Expresa tus preocupaciones.

A menudo, los académicos ceden su propiedad intelectual a instituciones o editoriales, lo que les resta influencia a la hora de decidir cómo se utilizan sus datos. Sin embargo, Christopher Cornelison, Director de Desarrollo de la Propiedad Intelectual de la Universidad Estatal de Kennesaw, en Georgia, afirma que merece la pena iniciar una conversación con su institución o editorial si tiene dudas. Estas entidades podrían estar mejor situadas para negociar un acuerdo de licencia con una empresa de IA o entablar un litigio cuando parezca probable que se produzca una infracción. «Desde luego, no queremos una relación de confrontación con nuestro profesorado, y lo que se espera es que trabajemos por un objetivo común», afirma.

Sin embargo, hay indicios de que los editores se dan cuenta del malestar de los científicos y actúan en consecuencia. Daniel Weld, científico jefe del motor de búsqueda de IA Semantic Scholar, con sede en la Universidad de Washington en Seattle, ha observado que cada vez más editores y particulares solicitan retroactivamente que los artículos del corpus de Semantic Scholar no se utilicen para entrenar modelos de IA.

La ley interviene

La política internacional no ha hecho más que ponerse al día con la irrupción de la tecnología de la IA, y es probable que aún falten años para obtener respuestas claras a cuestiones fundamentales, como qué lugar ocupan los resultados de la IA en la legislación vigente sobre derechos de autor, a quién pertenecen esos derechos y qué deben tener en cuenta las empresas de IA cuando introducen datos en sus modelos. «Nos encontramos en un periodo en el que los avances tecnológicos son muy rápidos, pero la legislación va con retraso», afirma Christophe Geiger, jurista de la Universidad Luiss Guido Carli de Roma. «El reto es cómo establecemos un marco jurídico que no desincentive el progreso, pero que siga velando por nuestros derechos humanos».

Incluso mientras los observadores se acomodan para lo que podría ser una larga espera, Peter Yu, abogado de propiedad intelectual y académico legal de la Facultad de Derecho de la Universidad A&M de Texas en Fort Worth, dice que la jurisprudencia estadounidense existente sugiere que los tribunales serán más propensos a ponerse del lado de las empresas de IA, en parte porque Estados Unidos a menudo prioriza el desarrollo de nuevas tecnologías. «Eso ayuda a impulsar la tecnología a un alto nivel en los EE.UU. cuando muchos otros países todavía están tratando de ponerse al día, pero hace que sea más difícil para los creadores perseguir la sospecha de infracción».

La Unión Europea, por el contrario, ha favorecido históricamente la protección de las personas frente al desarrollo de nuevas tecnologías. En mayo, aprobó la primera ley integral sobre IA del mundo, la Ley de IA. En ella se clasifican los usos de la IA en función de sus riesgos potenciales para la salud, la seguridad o los derechos fundamentales de las personas, y se establecen las correspondientes salvaguardias. Algunas aplicaciones, como el uso de IA para deducir datos personales sensibles, estarán prohibidas. La ley entrará en vigor en 2026 y se aplicará a los modelos que operen en la UE.

Es probable que el impacto de la Ley de IA en el mundo académico sea mínimo, ya que la política contempla amplias exenciones para los productos utilizados en investigación y desarrollo. Pero Dragoş Tudorache, miembro del Parlamento Europeo y uno de los dos principales negociadores de la Ley de IA, espera que la ley tenga efectos de goteo sobre la transparencia. En virtud de la ley, las empresas de IA que produzcan modelos de «propósito general», como los chatbots, estarán sujetas a nuevos requisitos, incluida la rendición de cuentas sobre cómo se entrenan sus modelos y cuánta energía consumen, y tendrán que ofrecer políticas de exclusión voluntaria y hacerlas cumplir. Cualquier grupo que infrinja la ley podría ser multado con hasta el 7% de sus beneficios anuales.

Tudorache ve el acto como el reconocimiento de una nueva realidad en la que la IA ha llegado para quedarse. «Hemos tenido muchas otras revoluciones industriales en la historia de la humanidad, y todas ellas han afectado profundamente a distintos sectores de la economía y la sociedad en general, pero creo que ninguna de ellas ha tenido el profundo efecto transformador que creo que va a tener la IA», afirma.

***********************************************

CAREER GUIDE
04 September 2024

Intellectual property and data privacy: the hidden risks of AI

Generative artificial-intelligence tools have been widely adopted across academia, but users might not be aware of all their inherent risks.

By Amanda Heidt

Timothée Poisot, a computational ecologist at the University of Montreal in Canada, has made a successful career out of studying the world’s biodiversity. A guiding principle for his research is that it must be useful, Poisot says, as he hopes it will be later this year, when it joins other work being considered at the 16th Conference of the Parties (COP16) to the United Nations Convention on Biological Diversity in Cali, Colombia. “Every piece of science we produce that is looked at by policymakers and stakeholders is both exciting and a little terrifying, since there are real stakes to it,” he says.

But Poisot worries that artificial intelligence (AI) will interfere with the relationship between science and policy in the future. Chatbots such as Microsoft’s Bing, Google’s Gemini and ChatGPT, made by tech firm OpenAI in San Francisco, California, were trained using a corpus of data scraped from the Internet — which probably includes Poisot’s work. But because chatbots don’t often cite the original content in their outputs, authors are stripped of the ability to understand how their work is used and to check the credibility of the AI’s statements. It seems, Poisot says, that unvetted claims produced by chatbots are likely to make their way into consequential meetings such as COP16, where they risk drowning out solid science.

“There’s an expectation that the research and synthesis is being done transparently, but if we start outsourcing those processes to an AI, there’s no way to know who did what and where the information is coming from and who should be credited,” he says.

Since ChatGPT’s arrival in November 2022, it seems that there’s no part of the research process that chatbots haven’t touched. Generative AI (genAI) tools can now perform literature searches; write manuscripts, grant applications and peer-review comments; and even produce computer code. Yet, because the tools are trained on huge data sets — that often are not made public — these digital helpers can also clash with ownership, plagiarism and privacy standards in unexpected ways that cannot be addressed under current legal frameworks. And as genAI, overseen mostly by private companies, increasingly enters the public domain, the onus is often on users to ensure that they are using the tools responsibly.

Bot bounty

The technology underlying genAI, which was first developed at public institutions in the 1960s, has now been taken over by private companies, which usually have no incentive to prioritize transparency or open access. As a result, the inner mechanics of genAI chatbots are almost always a black box — a series of algorithms that aren’t fully understood, even by their creators — and attribution of sources is often scrubbed from the output. This makes it nearly impossible to know exactly what has gone into a model’s answer to a prompt. Organizations such as OpenAI have so far asked users to ensure that outputs used in other work do not violate laws, including intellectual-property and copyright regulations, or divulge sensitive information, such as a person’s location, gender, age, ethnicity or contact information. Studies have shown that genAI tools might do both1,2.

Chatbots are powerful in part because they have learnt from nearly all the information on the Internet — obtained through licensing agreements with publishers such as the Associated Press and social-media platforms including Reddit, or through broad trawls of freely accessible content — and they excel at identifying patterns in mountains of data. For example, the GPT-3.5 model, which underlies one version of ChatGPT, was trained on roughly 300 billion words, which it uses to create strings of text on the basis of predictive algorithms.

AI companies are increasingly interested in developing products marketed to academics. Several have released AI-powered search engines. In May, OpenAI announced ChatGPT Edu, a platform that layers extra analytical capabilities onto the company’s popular chatbot and includes the ability to build custom versions of ChatGPT.

Two studies this year have found evidence of widespread genAI use to write both published scientific manuscripts3 and peer-review comments4, even as publishers attempt to place guardrails around the use of AI by either banning it or asking writers to disclose whether and when AI is used. Legal scholars and researchers who spoke to Nature made it clear that, when academics use chatbots in this way, they open themselves up to risks that they might not fully anticipate or understand. “People who are using these models have no idea what they’re really capable of, and I wish they’d take protecting themselves and their data more seriously,” says Ben Zhao, a computer-security researcher at the University of Chicago in Illinois who develops tools to shield creative work, such as art and photography, from being scraped or mimicked by AI.

When contacted for comment, an OpenAI spokesperson said the company was looking into ways to improve the opt-out process. “As a research company, we believe that AI offers huge benefits for academia and the progress of science,” the spokesperson says. “We respect that some content owners, including academics, may not want their publicly available works used to help teach our AI, which is why we offer ways for them to opt out. We’re also exploring what other tools may be useful.”

In fields such as academia, in which research output is linked to professional success and prestige, losing out on attribution not only denies people compensation, but also perpetuates reputational harm. “Removing peoples’ names from their work can be really damaging, especially for early-career scientists or people working in places in the global south,” says Evan Spotte-Smith, a computational chemist at Carnegie Mellon University in Pittsburgh, Pennsylvania, who avoids using AI for ethical and moral reasons. Research has shown that members of groups that are marginalized in science have their work published and cited less frequently than average 5, and overall have access to fewer opportunities for advancement. AI stands to further exacerbate these challenges, Spotte-Smith says: failing to attribute someone’s work to them “creates a new form of ‘digital colonialism’, where we’re able to get access to what colleagues are producing without needing to actually engage with them”.

Academics today have little recourse in directing how their data are used or having them ‘unlearnt’ by existing AI models6. Research is often published open access, and it is more challenging to litigate the misuse of published papers or books than that of a piece of music or a work of art. Zhao says that most opt-out policies “are at best a hope and a dream”, and many researchers don’t even own the rights to their creative output, having signed them over to institutions or publishers that in turn can enter partnerships with AI companies seeking to use their corpus to train new models and create products that can be marketed back to academics.

Representatives of the publishers Springer Nature, the American Association for the Advancement of Science (which publishes the Science family of journals), PLOS and Elsevier say they have not entered such licensing agreements — although some, including those for the Science journals, Springer Nature and PLOS, noted that the journals do disclose the use of AI in editing and peer review and to check for plagiarism. (Springer Nature publishes Nature, but the journal is editorially independent from its publisher.)

Other publishers, such as Wiley and Oxford University Press, have brokered deals with AI companies. Taylor & Francis, for example, has a US$10-million agreement with Microsoft. The Cambridge University Press (CUP) has not yet entered any partnerships, but is developing policies that will offer an ‘opt-in’ agreement to authors, who will receive remuneration. In a statement to The Bookseller magazine discussing future plans for the CUP — which oversees 45,000 print titles, more than 24,000 e-books and more than 300 research journals — Mandy Hill, the company’s managing director of academic publishing, who is based in Oxford, UK, said that it “will put authors’ interests and desires first, before allowing their work to be licensed for GenAI”.

Some authors are unsettled by the news that their work will be fed into AI algorithms (see ‘How to protect your intellectual property from AI’). “I don’t feel confident that I can predict all the ways AI might impact me or my work, and that feels frustrating and a little frightening,” says Edward Ballister, a cancer biologist at Columbia University in New York City. “I think institutions and publishers have a responsibility to think about what this all means and to be open and communicative about their plans.”

How to protect your intellectual property from AI

New laws will ultimately establish more robust expectations around ownership and transparency of the data used to train generative AI (genAI) models. Meanwhile, there are a few steps that researchers can take to protect their intellectual property (IP) and safeguard sensitive data.

1. Think critically about whether AI is truly needed.

Abstaining from using genAI might feel like missing out on a golden opportunity. But for certain disciplines — particularly those that involve sensitive data, such as medical diagnoses — giving it a miss could be the more ethical option. “Right now, we don’t really have a good way of making AI forget, so there are still a lot of constraints on using these models in health-care settings,” says Uri Gal, an informatician at the University of Sydney in Australia, who studies the ethics of digital technologies.

2. If you do use AI, implement safeguards.

Specialists broadly agree that it’s nearly impossible to completely shield your data from web scrapers, tools that extract data from the Internet. However, there are some steps — such as hosting data locally on a private server or making resources open and available, but only by request — that can add an extra layer of oversight. Several companies, including OpenAI, Microsoft and IBM, allow customers to create their own chatbots, trained on their own data, that can be isolated in this way.

3. When possible, opt out.

The enforceability of opt-out policies that omit data from AI training sets varies widely, but companies such as Slack, Adobe, Quora, Squarespace, Substack and OpenAI all offer options to prevent content from being scraped. However, some platforms make the process more challenging than others or limit the option to certain types of account. If you’re good at coding, you can modify your personal website’s robots.txt file, which tells web crawlers whether they are allowed to visit your page, to keep the tools from scraping your content.

4. If you can, ‘poison’ your data.

Scientists can now detect whether visual products, such as images or graphics, have been included in a training set, and have developed tools that can ‘poison’ data such that AI models trained on them break in unpredictable ways. “We basically teach the models that a cow is something with four wheels and a nice fender,” says Ben Zhao, a computer-security researcher at the University of Chicago in Illinois. Zhao worked on one such tool, called Nightshade, which manipulates the individual pixels of an image so that an AI model associates the corrupted pattern with a different type of image (a dog instead of a cat, for example). Unfortunately, there are not yet similar tools for poisoning writing.

5. Voice your concerns.

Academics often sign their IP over to institutions or publishers, giving them less leverage in deciding how their data are used. But Christopher Cornelison, the director of IP development at Kennesaw State University in Georgia, says it’s worth starting a conversation with your institution or publisher if you have concerns. These entities could be better placed to broker a licensing agreement with an AI company or pursue litigation when infringement seems likely to happen. “We certainly don’t want an adversarial relationship with our faculty, and the expectation is that we’re working towards a common goal,” he says.

Some evidence suggests that publishers are noting scientists’ discomfort and acting accordingly, however. Daniel Weld, chief scientist at the AI search engine Semantic Scholar, based at the University of Washington in Seattle, has noticed that more publishers and individuals are reaching out to retroactively request that papers in the Semantic Scholar corpus not be used to train AI models.

The law weighs in

International policy is only now catching up with the burst of AI technology, and clear answers to foundational questions — such as where AI output falls under existing copyright legislation, who owns that copyright and what AI companies need to consider when they feed data into their models — are probably years away. “We are now in this period where there are very fast technological developments, but the legislation is lagging,” says Christophe Geiger, a legal scholar at Luiss Guido Carli University in Rome. “The challenge is how we establish a legal framework that will not disincentivize progress, but still take care of our human rights.”

Even as observers settle in for what could be a long wait, Peter Yu, an intellectual-property lawyer and legal scholar at Texas A&M University School of Law in Fort Worth, says that existing US case law suggests that the courts will be more likely to side with AI companies, in part because the United States often prioritizes the development of new technologies. “That helps push technology to a high level in the US when a lot of other countries are still trying to catch up, but it makes it more challenging for creators to pursue suspected infringement.”

The European Union, by contrast, has historically favoured personal protections over the development of new technologies. In May, it approved the world’s first comprehensive AI law, the AI Act. This broadly categorizes uses of AI on the basis of their potential risks to people’s health, safety or fundamental rights, and mandates corresponding safeguards. Some applications, such as using AI to infer sensitive personal details, will be banned. The law will be rolled out over the next two years, coming into full effect in 2026, and applies to models operating in the EU.

The impact of the AI Act on academia is likely to be minimal, because the policy gives broad exemptions for products used in research and development. But Dragoş Tudorache, a member of the European Parliament and one of the two lead negotiators of the AI Act, hopes the law will have trickle-down effects on transparency. Under the act, AI companies producing “general purpose” models, such as chatbots, will be subject to new requirements, including an accounting of how their models are trained and how much energy they use, and will need to offer opt-out policies and enforce them. Any group that violates the act could be fined as much as 7% of its annual profits.

Tudorache sees the act as an acknowledgement of a new reality in which AI is here to stay. “We’ve had many other industrial revolutions in the history of mankind, and they all profoundly affected different sectors of the economy and society at large, but I think none of them have had the deep transformative effect that I think AI is going to have,” he says.

doi: https://doi.org/10.1038/d41586-024-02838-z

This article is part of Nature Career Guide: Faculty, an editorially independent supplement. Advertisers have no influence over the content.

References

Franceschelli, G. & Musolesi, M. Data Policy 4, e17 (2022).
Article Google Scholar
Staab, R., Vero, M., Balunovic, M. & Vechev, M. Preprint at arXiv https://doi.org/10.48550/arXiv.2310.07298 (2023).
Liang, W. et al. Preprint at arXiv https://doi.org/10.48550/arXiv.2404.01268 (2024).
Liang, W. et al. Preprint at arXiv https://doi.org/10.48550/arXiv.2403.07183 (2024).
Liu, F., Rahwan, T. & AlShebli, B. Proc. Natl Acad. Sci. USA 120, e2215324120 (2023).
Article PubMed Google Scholar
Zhang, H., Nakamura, T., Isohara, T. & Sakurai, K. SN Comput. Sci. 4, 337 (2023).
Article Google Scholar

Boletín SciELO-México

lunes, 18 de mayo de 2026

ELSEVIER vs META-Zuckerberg: ladrón que roba a ladrón... o la defensa del negocio de los artículos científicos

domingo, 3 de mayo de 2026

Publicación informe FESABID: propiedad intelectual y ciencia abierta

viernes, 14 de marzo de 2025

Todas las grandes IA han ignorado las leyes del copyright. Lo alucinante es que sigue sin haber consecuencias

miércoles, 19 de febrero de 2025

Propiedad intelectual y privacidad de los datos: los riesgos ocultos de la IA

T-MEC digital: la revisión que expone la pugna tecnológica entre Washington y Pekín, con México como escenario clave

Denunciar abuso

Etiquetas