Mostrando entradas con la etiqueta Propiedad intelectual. Mostrar todas las entradas
Mostrando entradas con la etiqueta Propiedad intelectual. Mostrar todas las entradas

miércoles, 30 de octubre de 2024

La IA es global y los derechos de autor son nacionales: gana la IA

Publicado en Copyright Clearance Center
https://www.copyright.com/blog/is-ais-copyright-world-flat-or-will-ai-flatten-the-copyright-world/ 



¿El mundo de los derechos de autor es plano o la IA aplanará el mundo de los derechos de autor?


Por Carlo Scollo Lavizzari


25 de enero de 2024


Este artículo apareció originalmente en IPWatchdog y se vuelve a publicar con permiso.


"¿Es la deslocalización del entrenamiento de la IA una respuesta creíble y eficiente para minimizar los riesgos de cumplimiento de los derechos de autor o es la deslocalización un mero argumento teórico diseñado tanto para influir en los legisladores como para fines de relaciones gubernamentales?"


La Inteligencia Artificial (IA) es global, y las leyes de derechos de autor son nacionales. Así, algunos países tendrán leyes estrictas sobre la realización de copias de contenidos protegidos por derechos de autor para "entrenar" un sistema de IA, mientras que otros serán más relajados. Las leyes tienen que ver con la economía, y es probable que los países con leyes más relajadas sean países con industrias creativas más pequeñas y que deseen utilizar el régimen legal relajado para atraer inversiones en IA.


Las empresas de IA utilizarán estas diferencias jurisdiccionales como palanca para presionar a favor de la relajación de las normas legales en países con leyes más estrictas. Por ejemplo, la presentación de Open AI en una consulta de EE.UU. sobre IA y derechos de autor afirmaba lo siguiente: "Los obstáculos en materia de derechos de autor a la formación de sistemas de IA... tendrían consecuencias desastrosas". Y "...podrían poner en peligro el valor social de la tecnología, o [podrían] llevar la innovación a una jurisdicción extranjera con restricciones de derechos de autor menos estrictas".


Pero, ¿puede una empresa de IA trasladarse a otra jurisdicción y escapar a las consecuencias de los derechos de autor? Y un usuario de servicios de IA Generativa, ¿tendría muchas garantías con una herramienta de IA creada en una de las llamadas "jurisdicciones relajadas en materia de derechos de autor"? ¿Debería una empresa o un consumidor -o las entidades que aseguran a las empresas frente a reclamaciones por infracción de derechos de autor- estar seguro por una "declaración de origen (extranjero)" de cualquier sistema de IA en la medida en que la jurisdicción de origen sea conocida por permitir el uso sin licencia de obras preexistentes protegidas por derechos de autor en el entrenamiento de la IA o sea notoria por permitir transgresiones o por no hacer cumplir las leyes de derechos de autor en general?


Un dilema jurídico


Estas cuestiones implican el campo de minas jurídico de las denominadas normas de «conflicto» o «elección de leyes». Estas normas rigen qué leyes nacionales se aplican a un conjunto de hechos, actividades o conductas. ¿Es el país de origen del creador, o el país en el que está ubicada la empresa de IA, o el país en el que se almacenan los contenidos, o el país del usuario? ¿Es el lugar en el que tiene lugar cualquier acto relevante para los derechos de autor, o en el que dicho acto tiene un efecto perjudicial para los titulares de los derechos de autor?


En general, el principio de elección de la ley aplicable a las infracciones de la propiedad intelectual es la antigua máxima de «lex loci protectionis» (lo que en alemán se denomina «Schutzlandprinzip»): la ley aplicable es la del país donde se reclama la protección.


Sobre la base de estas normas ampliamente establecidas en materia de propiedad intelectual, la cuestión que se plantea es la siguiente (1) ¿quién está realizando una reproducción u otros actos que infrinjan una obra protegida por derechos de autor y (2) ¿dónde están siendo demandados?


En cuanto a (1): ¿Es el demandado o demandado (a) la empresa o individuo que creó, mantiene y actualiza, o controla de otro modo la herramienta de IA Generativa (a efectos de este artículo, supongamos que en una jurisdicción que permite el comportamiento), (b) la empresa o individuo que utiliza dicha herramienta (el «cliente» o usuario en tierra de una herramienta de IA Generativa) y que alimenta las preguntas e indicaciones, o (c) todos los anteriores? En caso afirmativo, ¿importa, según la legislación nacional aplicable, dónde se presenta la demanda, si hay un infractor primario o secundario en el escenario, y/o si existe una responsabilidad basada en la denominada responsabilidad indirecta o en la infracción indirecta de los derechos de autor?


La respuesta breve es que todas estas cuestiones se tratarán también con arreglo a la legislación del lugar para el que se reclama la protección.


Por ejemplo, la legislación del Reino Unido no permite explícitamente la minería de textos y datos de materiales protegidos por derechos de autor con fines comerciales sin licencia, mientras que la legislación de Singapur sí lo permite (cuando se ha accedido a ellos legalmente). Imaginemos que una entidad con sede en Singapur obtiene una IA comercial a través de la minería de textos y datos tras descargar materiales de un editor domiciliado en el Reino Unido con servidores en el Reino Unido que no concedió licencia sobre los derechos comerciales de minería de textos y datos a la entidad de Singapur. Esa entidad podría tener responsabilidad en el Reino Unido, al igual que sus usuarios radicados en el Reino Unido si utilizan un sistema de IA creado infringiendo la legislación británica.


Por supuesto, cada situación es específica, especialmente cuando se trata de leyes en jurisdicciones como Estados Unidos, donde la realización de copias para la IA es procesable y a menudo está sujeta a un análisis de uso justo basado en hechos.


Deslocalización: ¿Práctica o teórica?


Esto nos lleva a la pregunta de si la deslocalización de la formación de la IA es una respuesta creíble y eficiente para minimizar los riesgos de cumplimiento de los derechos de autor o si la deslocalización es simplemente un argumento teórico diseñado tanto para influir en los legisladores como para fines de relaciones gubernamentales. Yo argumentaría que si las empresas esperan tener una conducta global, la ley las obligará a cumplir con las leyes de derechos de autor de cada territorio en el que estén activas, al igual que se les exige que cumplan con las leyes de privacidad, protección de datos, seguridad del consumidor y otras leyes en los países donde hacen negocios, tienen activos y/o causan daño.



***********************




Is AI’s Copyright World Flat, or Will AI Flatten the Copyright World?

By Carlo Scollo Lavizzari
25 January 2024

This article originally appeared in IPWatchdog and is re-published with permission.

“Is offshoring the training of AI a credible and efficient response to minimize copyright compliance risks or is offshoring merely a theoretical argument designed to both influence lawmakers and for government relations purposes?”

Artificial Intelligence (AI) is global, and copyright laws are national. Thus, some countries will have strict laws on making copies of copyrighted content to “train” an AI system while others will be more relaxed. Laws are about economics, and countries with more relaxed laws are likely to be countries with smaller creative industries and which wish to use the relaxed legal regime to attract AI investment. 

AI companies will use these jurisdictional differences as leverage to lobby for the relaxation of legal standards in countries with stricter laws. For example, Open AI’s submission in a U.S. AI and Copyright Consultation stated the following: “Copyright Barriers to training AI systems … would have disastrous consequences.” And: “…could jeopardize the technology’s social value, or [could] drive innovation to a foreign jurisdiction with relaxed copyright constraints.”  

But can an AI company just move to a different jurisdiction and escape copyright consequences? And would a user of Generative AI services be much assured by an AI tool created in a so-called “relaxed copyright jurisdiction?” Should a company or consumer—or the entities insuring companies for copyright infringement claims—be assured by a “statement of (foreign) origin” of any AI system in as much as the jurisdiction of origin is known to allow the unlicensed use of pre-existing copyright works in the training of AI or is notorious for allowing transgressions or for failing to enforce copyright laws generally?

A Legal Quandary  

These questions implicate the legal minefield of so-called “conflict” or “choice of laws” rules. These rules govern which country’s laws apply to a set of facts, activities, or conduct. Is it the country of origin of the creator, or the country in which the AI company is located, or the country where the content is stored, or the country of the user? Is it the place where any copyright-relevant act takes place, or where any such act has an effect of harming copyright holders?

In general, the applicable choice of law principle for intellectual property infringements is the age-old maxim of “lex loci protectionis” (what in German is called the “Schutzlandprinzip”): the applicable law is the law of the country where protection is claimed.  

Based on these widely established rules for IP, the question then turns on: (1) who is engaged in a reproduction or other acts that infringe a copyright protected work and (2) where are they getting sued?

As to (1) above: Is the defendant or respondent to a lawsuit (a) the company or individual that created, maintains and updates, or otherwise controls the Generative AI tool (for purposes of this article let’s assume in a jurisdiction that allows the behavior), (b) the company or individual that uses such a tool (the “client” or on-shore user of a Generative AI tool) and who feeds the questions and prompts, or (c) all of the above? If all of the above, does it matter under applicable national law where the suit is filed, whether there is a primary or secondary infringer in the scenario, and/or a liability based on so-called vicarious liability or contributory copyright infringement available?  

The short answer is that all these questions will also be dealt with under the laws of the place for which protection is claimed.

For example, UK law explicitly does not permit text and data mining of copyright materials for commercial purposes without a license, while Singapore law does (where those have been lawfully accessed). Imagine that a Singapore-based entity trains a commercial AI through text and data mining after downloading materials from a UK domiciled publisher with servers in the UK which did not license the commercial text and data mining rights to the Singapore entity. That entity could have liability in the UK, as could its UK-based users if they use an AI system created in violation of UK law.   

Of course, each situation is fact specific, especially when dealing with laws in jurisdictions such as the United States, where the making of copies for AI is actionable and often subject to a fact-intensive fair use analysis.

Offshoring: Practical or Theoretical?

This leads to the question of whether or not offshoring the training of AI is a credible and efficient response to minimize copyright compliance risks or if offshoring is merely a theoretical argument designed to both influence lawmakers and for government relations purposes. I would argue that if companies expect to engage in global conduct, the law will force them to abide by the copyright laws of each territory in which they are active, just as they are required to comply with privacy, data protection, consumer safety and other laws in countries where they do business, have assets, and/or cause harm.


viernes, 25 de octubre de 2024

No pueden hacer todo Internet Archive y Wayback Machine / Por qué está desapareciendo para siempre una parte importante de la historia de internet (y qué se está haciendo para evitarlo)

Publicado en BBC News
https://www.bbc.com/mundo/articles/cpw5djwlpjpo




Por qué está desapareciendo para siempre una parte importante de la historia de internet (y qué se está haciendo para evitarlo)

  • Chris Stokel-Walker
  • Título del autor, BBC Future
  • 22 octubre 2024

Gracias a los fragmentos de papiro, mosaicos y tablillas de cera que han sobrevivido, es posible saber qué desayunaban los pompeyanos hace 2.000 años.

Si entiendes suficiente latín medieval, puedes saber cuánto ganado se criaba en las granjas de Northumberland en la Inglaterra del siglo XI, gracias al “Domesday Book”, el documento más antiguo que se conserva en los Archivos Nacionales de Reino Unido. Y, a través de cartas y novelas, se puede conocer la vida social de la época victoriana.

Pero, para los historiadores del futuro, podría llegar a ser difícil entender plenamente cómo vivíamos nuestras vidas a principios del siglo XXI. Esto se debe a que se podría borrar la historia de cómo vivimos nuestras vidas digitalmente y a la falta de esfuerzos oficiales para archivar la información del mundo tal como se produce en estos días.

Sin embargo, un grupo informal de organizaciones está haciendo frente a las fuerzas de la entropía digital, muchas de ellas operadas por voluntarios con poco apoyo institucional. Nada ejemplifica más la lucha por salvar la web que el Internet Archive, una organización estadounidense sin fines de lucro con sede en San Francisco, fundada en 1996 como un proyecto del pionero Brewster Kahle.

 La organización está embarcada en lo que puede ser el proyecto de archivo digital más ambicioso de todos los tiempos: ha reunido 866.000 millones de páginas web, 44 millones de libros, 10,6 millones de videos de películas y programas de televisión y más.

Alojadas en un puñado de centros de datos repartidos por todo el mundo, las colecciones del Internet Archive y de unos pocos grupos similares son lo único que se interpone en el camino del olvido digital.

"Los riesgos son múltiples. No sólo que la tecnología pueda fallar (eso sin duda sucede). Pero lo que es más importante, que las instituciones fallen o las empresas quiebren. Las organizaciones de noticias son absorbidas por otras organizaciones de noticias o, cada vez con más frecuencia, son cerradas", dice Mark Graham, director de la Wayback Machine, del Internet Archive, una herramienta que recopila y almacena instantáneas de sitios web para la posteridad.

Hay numerosos incentivos para poner contenido en línea, dice, pero hay poco que impulse a las empresas a mantenerlo a largo plazo.

A pesar de los logros del Internet Archive hasta ahora, la organización y otras similares se enfrentan a amenazas financieras, desafíos técnicos, ciberataques y batallas legales de empresas a las que no les gusta la idea de tener copias de su propiedad intelectual disponibles gratuitamente.

Y como muestran recientes derrotas judiciales, el proyecto de salvar internet podría ser tan fugaz como el contenido que intenta proteger.

"Cada vez más de nuestros esfuerzos intelectuales, más de nuestro entretenimiento, más de nuestras noticias y más de nuestras conversaciones existen sólo en un entorno digital", dice Graham. "Ese entorno es intrínsecamente frágil".

Una cuarta parte de todas las páginas web que existían en algún momento entre 2013 y 2023 ya no existen. Así lo indica un estudio reciente del Pew Research Center, un grupo de expertos con sede en Washington DC, que dio la voz de alarma sobre la desaparición de nuestra historia digital.

Los investigadores descubrieron que el problema es más agudo cuanto más antigua es una página web: el 38% de las páginas web a las que Pew intentó acceder que existían en 2013 ya no funcionan. Pero también es un problema para las publicaciones más recientes. Alrededor del 8% de las páginas web publicadas en algún momento de 2023 desaparecieron en octubre de ese mismo año.

Esto no es solo una preocupación para los aficionados a la historia y los obsesivos de internet. Según el estudio, uno de cada cinco sitios web gubernamentales contiene al menos un enlace roto. Pew descubrió que más de la mitad de los artículos de Wikipedia tienen un enlace roto en su sección de referencias, lo que significa que la evidencia que respalda la información de la enciclopedia en línea se está desintegrando lentamente.

Pero gracias al trabajo del Internet Archive, no todos esos enlaces inactivos son totalmente inaccesibles. Durante décadas, el proyecto de la Wayback Machine del Internet Archive ha enviado ejércitos de robots a recorrer los laberintos de internet. Estos sistemas descargan copias funcionales de sitios web a medida que cambian con el tiempo y las ponen a disposición del público de forma gratuita.

"Cuando analizamos cuántas de esas URL estaban disponibles en la Wayback Machine, descubrimos que dos tercios de ellas lo estaban de alguna manera", afirma. En ese sentido, el Internet Archive está haciendo lo que se propuso: está guardando registros de la sociedad en línea para la posteridad.

Algunas otras organizaciones trabajan en proyectos similares. La Biblioteca del Congreso de Estados Unidos, por ejemplo, conserva los sitios web del gobierno, los sitios de los miembros del Congreso y una colección de sitios de noticias estadounidenses. La Biblioteca del Congreso también conservó una copia de cada uno de los tuits enviados desde la fundación de Twitter (ahora conocido como X), hasta que el proyecto se cerró en 2017.

Otros gobiernos llevan a cabo sus propias iniciativas. El Archivo Web de Reino Unido realiza un rastreo anual de sitios web con nombres de dominio .UK, capturando una instantánea de la internet británica al menos una vez al año.

Pero el alcance de estos proyectos es limitado, mientras que el Internet Archive apunta a un enfoque integral. Dependiendo de lo que esté buscando, la colección del Internet Archive es tan completa que a veces puede parecer un registro funcionalmente completo de la web.

El éxito genera complacencia

Los documentos de acceso público del archivo ayudan a mantener registros de nuestras vidas en la era actual. Se ha convertido en una práctica habitual en Wikipedia citar copias de sitios web de la Wayback Machine del Internet Archive, en lugar de los sitios web originales.

La organización también preserva una vasta colección de medios que data de antes de la era digital. Libros, revistas y sitios web citan las copias digitales escaneadas del Internet Archive de libros que no están disponibles en bibliotecas físicas. Incluso actúa como una herramienta de preservación para el público; cualquiera puede cargar videos, sitios web y prácticamente cualquier otra cosa a los servidores de la organización.

Entre las principales colecciones que Wayback Machine ha rescatado del basurero digital se encuentran registros profundos de sitios web creados en GeoCities, un servicio de alojamiento web personal que ya no existe. Mucho antes de las redes sociales, GeoCities fue una de las primeras plataformas que facilitó a cualquiera la creación de su propio sitio web. Los historiadores consideran a GeoCities como uno de los capítulos más importantes de los primeros días de la World Wide Web; sin los esfuerzos del Internet Archive, la mayoría de sus sitios web se habrían perdido.

"Cada pocos años aparece una nueva plataforma y luego las fuerzas económicas de repente colapsan", dice Andrew Jackson, arquitecto técnico del registro de preservación de la Coalición para la Preservarción Digital, un grupo de defensa y organización benéfica con sede en Reino Unido que asesora sobre cómo preservar los archivos digitales en línea del mundo.

El sitio web de noticias tecnológicas CNET enfrentó una reacción negativa en 2023 después de que se informara que la empresa había eliminado decenas de miles de artículos, lo que equivale a décadas de historia perdida. Entre las respuestas de CNET se encontraba la promesa de que todos sus artículos eliminados se habían conservado en la Wayback Machine. Muchos críticos argumentaron que la empresa estaba dando por sentado el Internet Archive, delegando sus propias responsabilidades de archivo.

"Aunque Google y otros motores de búsqueda incentivan activamente que mantengamos URL estables, técnicamente es bastante difícil hacerlo", dice Jackson. "Cada vez que una nueva empresa renueva su sitio web, tiene que calcular cuántas de sus nuevas URL intentará mantener a lo largo del tiempo".

En este punto vale la pena recordar qué es el Internet Archive: una organización sin fines de lucro, financiada por donaciones de fundaciones benéficas. Se trata de un proyecto interminable con costos que crecen exponencialmente. El Internet Archive se ofreció como voluntario para asumir el papel de la biblioteca líder mundial para nuestras vidas digitales. A medida que la web se acerca a su cuarta década, este proyecto se ha convertido en un pilar fundamental de internet.

Pero a medida que aumenta nuestra dependencia del Internet Archive, también lo hacen las amenazas que socavan sus esfuerzos.

Amenazas

La semana pasada, la organización anunció una importante asociación con Google, en la que el gigante tecnológico incluirá enlaces a la Wayback Machine en los resultados de búsqueda, aunque no se publicaron detalles financieros del acuerdo.

Sin embargo, otras noticias recientes demuestran que el proyecto sigue siendo frágil. Esa vulnerabilidad quedó al descubierto en un caso judicial contra el Internet Archive por parte de cuatro grandes editoriales de libros, que alegaron que la práctica de escanear libros físicos y prestar copias digitales viola la ley de derechos de autor en EE.UU.

Antes de la pandemia, el Internet Archive solo prestaba una copia digital a la vez de cada libro físico de su colección. Pero durante los cierres por covid, la organización levantó esa restricción, permitiendo a los usuarios tomar prestadas copias digitales ilimitadas de libros para intentar compensar el cierre de las bibliotecas físicas.

Un tribunal estadounidense dictaminó que esa práctica era ilegal en 2023 y, a principios de septiembre, la apelación del Internet Archive contra esa decisión fue rechazada. La organización dijo anteriormente que acordó pagar a un grupo comercial de la industria editorial una suma no revelada en relación con el caso.

El Internet Archive se enfrenta a otro proceso judicial con las discográficas por digitalizar discos que podría costarle US$400 millones si pierde. Es una cantidad que podría poner en peligro la supervivencia de la organización sin ánimo de lucro.

Las batallas legales existenciales no son los únicos peligros que amenazan al mundo de la preservación digital. El Archivo Web de Reino Unido de la Biblioteca Británica enfrentó un ciberataque que dejó fuera de línea sus sistemas digitales en octubre de 2023. Casi un año después, este archivo todavía está lidiando con las consecuencias. El acceso en línea a gran parte de su colección sigue sin estar disponible.

En mayo de 2024, el Internet Archive anunció que se encontraba en medio de un gran ataque de denegación de servicio. En un ataque de este tipo, los vándalos u otros actores maliciosos establecen sistemas automatizados para bombardear sitios web con visitas, intentando sacarlos de línea sobrecargando sus servidores. En su punto máximo, se producían decenas de miles de visitas simultáneas cada segundo. Los servicios, incluida la Wayback Machine, dejaron de funcionar. Esto significó que el ritmo regular del archivo se interrumpió por un tiempo y, como resultado, podrían quedar lagunas permanentes en el registro histórico.

El Internet Archive "fue creado por una sola persona y se ha convertido en una especie de eje", dice Jackson. "También parece un punto único de fallo potencial. Aunque es mucho más sofisticado que un grupo de voluntarios, es una institución en una región, bajo un marco legal".

La organización comparte estas preocupaciones. Si el trabajo del Internet Archive se detuviera y "ese vacío no se llenara de inmediato, entonces gran parte de lo que está disponible actualmente en la web pública estaría en riesgo", dice Graham.

Tiene claro que el Internet Archive no se apartará de sus responsabilidades en un futuro próximo, pero el proyecto puede beneficiarse de ayuda externa. "Hay oportunidades para que muchos otros contribuyan de diversas maneras", dice.

Responsabilidades compartidas, prioridades divididas

Sin un esfuerzo formal para organizar los intentos para preservar internet, esto queda en manos de aficionados, voluntarios y unos pocos organismos no oficiales que generalmente operan de forma independiente.

"Tiene sentido que la respuesta del archivo esté descentralizada", dice Mar Hicks, historiador de tecnología de la Universidad de Virginia, en EE.UU. "Pero uno de los problemas es la variedad de prioridades".

Hicks señala que una de las primeras cosas que cualquier archivista considerará al crear un archivo es qué priorizar. "Y cuando está todo tan descentralizado, las prioridades van a ser muy diferentes", dice Hicks.

La preocupación sobre un enfoque tan ad hoc y descentralizado es que es posible que haya superposiciones, lo que significa que se desperdician valiosos recursos de archivo obteniendo copias duplicadas o triplicadas de los sitios web más populares, todo mientras se pasan por alto algunas áreas que pueden tener importancia histórica porque caen entre las responsabilidades de diferentes grupos.

"Los archiveros dirán que estos problemas existen desde hace mucho tiempo", dice Hicks. Pero se ven exacerbados por el nivel de material que se produce en nuestro mundo digital. Se envían casi 1.000 millones de correos electrónicos todos los días. YouTube informa que se publican en la plataforma más de 500 horas de contenido de video cada minuto.

Internet es "esencialmente una manguera de información y material", dice Hicks. "No tiene sentido tratar de capturar todo lo que sale de la manguera. Eso no tendría sentido desde el punto de vista de los recursos".

Para Hicks, debe haber algún tipo de prioridad sobre lo que se está salvando de las huellas digitales de nuestra generación. De lo contrario, corremos el riesgo de que el rápido aumento de los costes haga a un lado los esfuerzos por salvar la historia de la web, por no hablar de los océanos de archivos digitales que se encuentran fuera de línea.

"Si hay que conservarlo todo, resulta muy caro", afirma Jackson, de la Coalisión por la Preservación Digital. "A menudo hay contenidos más antiguos o menos atractivos que se pierden en el camino", afirma.

"No estamos conservando bien el mundo no occidental", admite Jackson. "Ahora hay lagunas en torno a la incompletitud en diferentes ámbitos culturales".

Y aunque muchas de esas organizaciones trabajan para luchar contra sus sesgos y prejuicios, a menudo se les deja que carguen con el peso de la tarea mientras los gobiernos y las empresas que gestionan las plataformas y los sitios web se quedan de brazos cruzados. "Los grupos independientes de personas, que simplemente se preocupan por ello y están dispuestas a dedicar su tiempo libre a ello, tienen más recursos y están más cualificados que las instituciones que son formalmente responsables", afirma Jackson.

Según Hicks, hay un vacío que pocas personas, salvo un puñado de archivistas obsesivos, están llenando. "No está claro de quién es la responsabilidad de archivar [internet] o a qué interés serviría", dice.

Una cosa sí está clara, señala Hicks: todos deberíamos contribuir para apoyar la lucha por la preservación. "Desde una perspectiva muy pragmática, si no pagamos a estas personas y nos aseguramos de que estos archivos estén financiados, no existirán en el futuro, se desintegrarán y entonces el objetivo de recopilarlos se habrá ido por la ventana", dice Hicks.

"Porque el objetivo del archivo no es simplemente recopilar, sino que persista indefinidamente en el futuro".

Este artículo fue publicado en BBC Future. Haz clic aquí para leer la versión oginal (en inglés). 

  

miércoles, 23 de octubre de 2024

Penguin Random House modifica sus pautas de derechos de autor para evitar entrenar IA con sus libros

Publicado en Proceso
https://www.proceso.com.mx/cultura/2024/10/21/penguin-random-house-modifica-sus-pautas-de-derechos-de-autor-para-evitar-entrenar-ia-con-sus-libros-338889.html



Penguin Random House modifica sus pautas de derechos de autor para evitar entrenar IA con sus libros

La compañía estadunidense compartió su enfoque respecto al uso responsable de la IA y la necesidad de proteger los derechos de autor en el entrenamiento de los modelos de lenguaje de gran tamaño (LLM) y otras herramientas de esta tecnología.

lunes, 21 de octubre de 2024 · 16:14

MADRID (Portaltic/EP) - El grupo editorial Penguin Random House modificó sus pautas de derechos de autor para señalar que no permite el uso o reproducción de "ninguna parte" de sus libros para entrenar tecnologías o sistemas de Inteligencia Artificial (IA), una medida que se incluirá en todos los títulos nuevos y en cualquier ejemplar del catálogo que se reimprima.

La compañía estadunidense compartió su enfoque respecto al uso responsable de la IA y la necesidad de proteger los derechos de autor en el entrenamiento de los modelos de lenguaje de gran tamaño (LLM) y otras herramientas de esta tecnología.

De hecho, tal y como ya trasladó en agosto de este año, en un comunicado en su blog, persigue el objetivo de defender "enérgicamente" la propiedad intelectual de sus autores y artistas, de cara a impulsar y recompensar la creatividad humana.

En este sentido, Penguin Random House modificó ahora el texto que introduce al principio de sus libros sobre las pautas de derechos de autor, para indicar que no permite el uso del contenido comprendido en el libro para entrenar modelos de IA.

Concretamente, la editorial incide en que que "ninguna parte" del libro puede utilizarse o reproducirse "con el propósito de entrenar tecnologías o sistemas de inteligencia artificial", tal y como ha podido conocer el medio The Bookseller. Esta nueva pauta se introducirá "en las páginas de los sellos editoriales" de todos los mercados que abarca Penguin Random House. Asimismo, se incorporará a cada nuevo libro publicado o edición reimpresa por la compañía.

Junto a ello, el grupo editorial también matizó que reserva sus libros de la "excepción de minería de textos y datos", de acuerdo con lo recogido en las leyes de la Unión Europea sobre excepciones y propiedad en minería de textos y datos. Es decir, que protege los títulos escritos por sus autores de que sean utilizados para la recolección de datos. En concreto, esta pauta sobre la excepción de minería y textos de datos se basa en el Artículo 4(3)de la Directiva 2019/790 sobre el Mercado Único Digital.

Con todo ello, Penguin Random House pretende evitar que los títulos publicados por su editorial se utilicen para alimentar el desarrollo de tecnologías de IA, como los 'chatbots' y asistentes o las herramientas de IA generativa.

No obstante, tal y como apuntó The Verge, se ha de tener en cuenta que esta modificación de las pautas de derechos de autor de la editorial no es un mecanismo legal para garantizar la protección de derechos de autor, si no más bien una advertencia informativa hacia los usuarios.

Esto se debe a que las normas de protección de los derechos de autor, en este caso, de los escritores, ya están dispuestas en las leyes aprobadas -como es el caso de la normativa de los derechos de autor de la Unión Europea-, independientemente de lo que señale Penguin Random House en sus libros.

Igualmente, se trata de una de las primeras editoriales de libros que hacen referencia explícitamente a la protección de la propiedad intelectual y derechos de autor con respecto al uso y entrenamiento de la IA.  


Editores se unen en coalición mundial vs robo de autoría por parte de la IAGen

Publicado en blog Universo Abierto
https://universoabierto.org/2024/10/23/los-editores-se-unen-a-una-coalicion-mundial-para-condenar-el-robo-de-la-autoria-por-parte-de-las-empresas-tecnologicas-para-la-alimentacion-de-la-ia-generativa/



Los editores se unen a una coalición mundial para condenar el robo de la autoría por parte de las empresas tecnológicas para la alimentación de la IA generativa


«Publishers Join with Worldwide Coalition to Condemn the Theft of Creative and Intellectual Authorship by Tech Companies for Generative AI Training – AAP», 22 de octubre de 2024.

Fuente
https://publishers.org/news/publishers-join-with-worldwide-coalition-to-condemn-the-theft-of-creative-and-intellectual-authorship-by-tech-companies-for-generative-ai-training/

El 22 de octubre de 2024, la Asociación de Editores de Estados Unidos (AAP) se unió a una coalición global formada por más de 10.000 creadores, incluidos autores, músicos, actores, artistas y fotógrafos, para denunciar el uso indebido de obras creativas e intelectuales por parte de grandes empresas tecnológicas para entrenar sus modelos de IA generativa. Esta práctica, según la coalición, implica la copia, ingestión y regeneración de obras como libros, periódicos, canciones y otras expresiones artísticas sin el consentimiento de sus creadores, lo que representa una violación de los principios fundamentales de derechos de autor.

Los modelos de IA generativa, que permiten a los usuarios acceder a herramientas avanzadas que pueden producir contenido nuevo basado en información previamente existente, se han vuelto muy populares en el ámbito de los consumidores. Sin embargo, según la coalición, estas tecnologías no podrían existir sin las obras originales de creadores humanos, cuyas producciones han sido utilizadas sin autorización en el desarrollo de estos sistemas. El uso indebido de dichas obras pone en peligro la propiedad intelectual de los creadores, quienes invierten tiempo, esfuerzo y recursos en generar contenido original.

La AAP, junto con otros socios de la coalición, ha hecho un llamado a los gobiernos y tribunales de todo el mundo para que refuercen los principios esenciales de los derechos de autor, argumentando que cualquier reproducción o creación de obras derivadas debe contar con el consentimiento explícito de los creadores. Estos derechos no solo protegen a los autores, sino que también garantizan la continuidad de las industrias creativas, que son esenciales para el desarrollo de la cultura y la educación.

Maria A. Pallante, presidenta y CEO de la AAP, destacó que los creadores trabajan al servicio del público global, buscando educar, informar e inspirar, mientras que las empresas tecnológicas están utilizando sus obras para generar ganancias sin regulación ni autorización. Pallante también enfatizó que las colaboraciones tecnológicas son valiosas para la industria editorial, pero deben basarse en acuerdos legales y respetuosos, no en la explotación sin control de obras ajenas.

Este es un momento crítico en el desarrollo de políticas sobre inteligencia artificial a nivel global, y los autores, junto con sus editores, exigen que se respeten los derechos de autor para proteger sus contribuciones y su trabajo. La coalición busca asegurar que las políticas de IA generativa tomen en cuenta los derechos de los creadores y establezcan mecanismos claros para la concesión de licencias y el respeto a las obras protegidas por derechos de autor.



viernes, 20 de septiembre de 2024

Las editoriales académicas y la IA no tienen por qué ser enemigas

Publicado en THE Times Higher Education
https://www.timeshighereducation.com/blog/academic-publishers-and-ai-do-not-need-be-enemies 


Las editoriales académicas y la IA no tienen por qué ser enemigas


Según David Clark, de Oxford University Press, las empresas de IA generativa deberían dejar de estafar a las editoriales y colaborar con ellas para enriquecer el saber académico.


4 de abril de 2024

David Clark

Twitter: @DavidClarkOUP


Miedo, desesperación, optimismo, ansiedad: durante gran parte del último año, se ha hecho referencia a todas estas emociones y más cuando se ha mencionado la IA generativa.


Sabemos que esta tecnología, impulsada por grandes modelos lingüísticos, dará forma a todo nuestro futuro, sobre todo como herramienta para el descubrimiento y la recuperación de conocimientos. Puede parecer que no está en nuestras manos, pero las editoriales académicas y los investigadores con los que colaboramos nos encontramos en una encrucijada: ¿nos resistimos o nos comprometemos?


A principios de este mes, la Publishers Association, la organización que agrupa a los editores del Reino Unido, escribió una carta a las empresas tecnológicas para expresar nuestra preocupación por el uso de obras protegidas por derechos de autor en la formación, el desarrollo y el funcionamiento de modelos de IA. En ella se subraya que «no autorizamos ni concedemos permiso para el uso de ninguna de sus obras protegidas por derechos de autor en relación con, sin limitación, la formación, el desarrollo o el funcionamiento de modelos de inteligencia artificial, incluidos los grandes modelos lingüísticos u otros productos de inteligencia artificial generativa». En resumidas cuentas, no estamos dispuestos a permitir que se utilicen las obras que hemos publicado, el trabajo de investigadores y autores de todo el mundo que se han esforzado mucho, a menos que se hayan acordado las licencias adecuadas.


Pero no se trata de resistirse a la IA generativa y a lo que puede ofrecer. Es una petición de compromiso, y de compromiso de buena fe.


La experiencia nos dice que no debemos quedarnos al margen en este momento. Del mismo modo que Google y otros motores de búsqueda se han convertido en la forma principal en que la mayoría de los académicos recuperan la literatura académica, y las editoriales académicas se han comprometido con ellos para que esto suceda, los grandes modelos lingüísticos crearán las herramientas que permitirán a los académicos y estudiantes acceder y comprender los últimos avances en la investigación.


Pero la forma en que permitimos que la IA dé forma al futuro de las comunicaciones académicas debe estar guiada por el conocimiento, la comprensión de las percepciones, las preocupaciones y las oportunidades potenciales para la comunidad académica. En Oxford University Press estamos realizando una encuesta entre los investigadores académicos para comprender mejor el impacto de la tecnología de IA en el proceso de investigación. Necesitamos conocer las experiencias de todo el espectro investigador, ya se trate de investigadores noveles o consolidados, de diferentes disciplinas y áreas temáticas, o de distintos países e idiomas. Comprender cómo se relacionan los estudiantes, investigadores y bibliotecarios con las tecnologías de IA generativa será fundamental para entender cómo debemos relacionarnos con estas tecnologías y con las empresas que las desarrollan.  


Hay, por supuesto, buenas razones para preocuparse. Como se afirma en la carta de la Asociación de Editores, los editores de todo el sector son conscientes del uso de «enormes cantidades de obras protegidas por derechos de autor sin la autorización del titular de los derechos en el entrenamiento, desarrollo y funcionamiento de modelos de IA». El riesgo para los editores y, fundamentalmente, para los autores de la investigación es el poder potencial de las tecnologías de IA para absorber, retener y reutilizar el conocimiento. Frente a estos riesgos, los editores están equilibrando la necesidad de adaptarse -y rápidamente- a este nuevo mundo, con la necesidad de garantizar que el material publicado no se pase por alto como fuente crítica de conocimiento ni se tome simplemente sin la debida autorización, remuneración y atribución.


Los editores y autores académicos tienen la responsabilidad de desempeñar un papel activo en el cambio del paradigma del conocimiento y, al hacerlo, crear la oportunidad de preservar el ecosistema que sustenta el mundo académico y la propiedad intelectual que lo sostiene. Una de las principales oportunidades es garantizar que la IA generativa respete la autoría y la propiedad intelectual, descubra contenidos y remita a los usuarios a las fuentes originales o primarias, y no fomente el plagio intencionado o no. 


La política recientemente propuesta para que las monografías estén disponibles gratuitamente bajo licencias de acceso abierto en un plazo de dos años a partir de su publicación, como parte de los requisitos del Marco de Excelencia en Investigación del Reino Unido, también plantea cuestiones críticas sobre la intersección de la IA y el acceso abierto para la comunidad académica. Poner los libros a disposición del acceso abierto bajo licencias Creative Commons Attribution (CC BY) entraña el riesgo de permitir usos comerciales generativos de IA de esas obras con escasas salvaguardias o recompensas para los autores.


No está claro, por ejemplo, cómo se puede atribuir adecuadamente a los autores su trabajo en un entorno de IA generativa. Abogamos firmemente por una relación de trabajo más amplia entre las empresas tecnológicas y los editores que se centre en los principios fundamentales de autorización y atribución, sea cual sea el modelo de publicación mediante el que se ponga a disposición la investigación.  


Con el tiempo, surgirán nuevos usos de la IA generativa que impulsarán nuevas formas de utilizar los contenidos. Esto dará lugar a nuevos usos de la erudición y a la propia erudición, así como a nuevas oportunidades de financiación. Si las futuras tecnologías de IA se desarrollan en colaboración con editores, investigadores y autores, se obtendrán herramientas mejores, más sostenibles y menos sesgadas, que a su vez se utilizarán para mejorar los resultados de la investigación. Un resultado beneficioso para todos.


David Clark es director general de la División Académica de Oxford University Press.


**********************


Academic publishers and AI do not need to be enemiesGenerative AI firms should stop ripping off publishers and instead work with them to enrich scholarship, says Oxford University Press’ David Clark

April 4, 2024

David Clark

Twitter: @DavidClarkOUP


Fear, despair, optimism, anxiety – for much of the last year, all these emotions and more have been referenced when generative AI has been mentioned.

We know that this technology, driven by large language models, will shape all our futures, not least as a tool for the discovery and retrieval of knowledge. This might feel like it is out of our hands but scholarly publishers, and the researchers we partner with, are at a crossroads – do we resist or do we engage? 

Earlier this month, the Publishers Association, the member organisation for UK publishers, wrote a letter to technology companies to express our concerns about the use of copyrighted works in the training, development and operation of AI models. It underlined that we “do not outside of any agreed licensing arrangements to the contrary, authorise or otherwise grant permission for the use of any of their copyright-protected works in relation to, without limitation, the training, development or operation of AI models including large language models or other generative AI products”. The bottom line is that we are not willing to let the works we have published, the work of hard-working researchers and authors across the world, be used unless appropriate licences have been agreed. 

But this is not about resisting generative AI and what it can offer. This is a request to engage, and to engage in good faith.

Experience tells us that we should not stand aside in this moment. Much as Google and other search engines have become the leading way in which most scholars retrieve academic literature, and academic publishers have engaged with them to make that happen, large language models will create the tools that enable scholars and students to access and understand the latest developments in research.

But how we allow AI to shape the future of scholarly communications must be insight-led, understanding the perceptions, concerns and potential opportunities for the scholarly community. At Oxford University Press, we are currently holding a survey of academic researchers to better understand the impacts of AI technology throughout the research process. We need to understand experiences across the research spectrum, be that early-career or established researchers, different disciplines and subject areas, or different countries and languages. Understanding how students, researchers and librarians engage with generative AI technologies will be critical to understanding how we should engage with these technologies and the companies developing them.  


There are, of course, good reasons to be concerned. As stated in the Publishers Association’s letter, publishers across the industry are aware of the use of “vast amounts of copyright-protected works without the authorisation of the right holder in the training, development, and operation of AI models”. The risk for publishers and, fundamentally, for research authors is the potential power of AI technologies to absorb, retain and re-use knowledge. Against these risks, publishers are balancing the need to adapt – and quickly – to this new world, with the need to ensure that published material is neither overlooked as a critical source of knowledge nor simply taken without appropriate authorisation, remuneration and attribution.

Scholarly publishers and authors have a responsibility to play an active role in how the knowledge paradigm shifts and, in doing so, create the opportunity to preserve the ecosystem that supports academia and the intellectual property which sustains it. Chief among the opportunities is the chance to ensure that generative AI respects authorship and intellectual property, discovers content and refers users to the original or primary sources, and does not encourage intentional or unintentional plagiarism.  

The recently proposed policy for monographs to be made freely available under open-access licences within two years of publication as part of the requirements for the UK’s Research Excellence Framework also raises critical questions about the intersection of AI and open access for the scholarly community. Making books available for open access under Creative Commons Attribution (CC BY) licences risks enabling commercial generative AI uses of those works with limited safeguards or recompense for authors.

It is unclear, for example, how authors can be properly attributed for their work within a generative AI environment. We advocate strongly for a broader working relationship between technology companies and publishers that centres on the core principles of authorisation and attribution, whatever the publishing model by which research is made available.  

Over time, new uses of generative AI will emerge, driving new ways of using content. This will lead to new uses of scholarship and new scholarship itself, as well as new funding opportunities. If future AI technologies are developed working with publishers, researchers and authors, it will lead to better, more sustainable and less biased tools, which will in turn be used to create improved research outcomes. A winning outcome for all.

David Clark is managing director of Oxford University Press’ Academic Division.


"¡Quemadlo con fuego!" - El uso de ChatGPT «polariza» a los revisores

Publicado en THE Times Higher Education https://www.timeshighereducation.com/news/corrupting-chatgpt-use-polarises-peer-reviewers   Quemadlo...