Mostrando entradas con la etiqueta Derechos de autor. Mostrar todas las entradas
Mostrando entradas con la etiqueta Derechos de autor. Mostrar todas las entradas

jueves, 20 de febrero de 2025

El cumplimiento de los derechos de autor y la concienciación sobre la IA, «más importantes que nunca»

Publicado en Research information
https://www.researchinformation.info/news/awareness-of-copyright-compliance-and-ai-tools-more-important-than-ever/





El cumplimiento de los derechos de autor y la concienciación sobre la IA, «más importantes que nunca»

28 de enero de 2025


La necesidad de concienciar sobre el cumplimiento de los derechos de autor y las herramientas de IA es más importante que nunca para evitar riesgos como la infracción de los derechos de autor, según un nuevo estudio publicado por Copyright Clearance Center.


El informe Tendencias en el uso de contenidos protegidos por derechos de autor, publicado en colaboración con Outsell, analiza las opiniones de los encuestados de nivel ejecutivo y revela que, aunque la adopción de la IA ha alcanzado el 97% en algunos sectores, solo el 77% de los encuestados conoce la política de derechos de autor de su organización y solo el 62% sabe que se aplica a la IA cuando se utilizan datos de terceros. 


Las empresas afirman que los datos también muestran un alejamiento gradual de los canales de comunicación tradicionales, con una preferencia por herramientas de colaboración como Teams, Slack y Google que aumenta del 33% en 2022 al 38% en 2024.


El informe señala que compartir información publicada de terceros y utilizarla con herramientas de IA sin obtener los permisos necesarios conlleva enormes riesgos potenciales de derechos de autor, con un número creciente de demandas relacionadas con la IA este último año.


Las últimas tendencias en el uso de contenidos reafirman la importancia de contar con una sólida política de derechos de autor, tomar medidas para apoyar la educación y la comunicación de los empleados sobre los derechos de autor, y desplegar soluciones de cumplimiento adecuadas, como una Licencia Anual de Derechos de Autor para apoyar un flujo de trabajo de contenido racionalizado.  


El informe afirma: «Muchas empresas hablan con más frecuencia de su política de derechos de autor con los empleados. Esto ha dado lugar a una mayor concienciación sobre las consideraciones relativas a los derechos de autor, aunque los empleados de organizaciones de todos los tipos y tamaños siguen informando de que comparten contenidos protegidos por derechos de autor de formas que pueden poner en peligro a sus organizaciones. Los intercambios ordinarios de contenidos que se producen de forma tan natural en el mundo digital pueden aumentar el riesgo de infracción de los derechos de autor, dando lugar a costosas demandas o acuerdos, y también pueden afectar a la reputación de la marca.


«Las respuestas a la encuesta indican que los ejecutivos tienen el nivel más alto de conocimiento de la política de derechos de autor en comparación con otros puestos de trabajo, pero su comportamiento real no siempre está alineado con las políticas de sus empresas, lo que subraya los elevados riesgos de cumplimiento asociados con los altos responsables de la toma de decisiones.»


Lea el informe completo en: https://www.copyright.com/resource-library/insights/outsell/


martes, 21 de enero de 2025

¿Ladrón que roba a ladrón tiene 100 años de perdón? Meta de Zuckerberg se piratea los libros de LibGen

Publicado en The Guardian
https://www.theguardian.com/technology/2025/jan/10/mark-zuckerberg-meta-books-ai-models-sarah-silverman 



Zuckerberg aprobó el uso de libros «pirateados» por Meta para entrenar modelos de IA, según sus autores


Sarah Silverman y otros denuncian ante los tribunales que el CEO aprobó el uso de datos a pesar de las advertencias.


Mark Zuckerberg aprobó el uso por parte de Meta de versiones «pirateadas» de libros protegidos por derechos de autor para entrenar los modelos de inteligencia artificial de la empresa, según alega un grupo de autores en una demanda presentada ante un tribunal estadounidense.


Citando comunicaciones internas de Meta, la demanda afirma que el director ejecutivo de la empresa de redes sociales respaldó el uso del conjunto de datos LibGen, un vasto archivo en línea de libros, a pesar de las advertencias dentro del equipo ejecutivo de IA de la empresa de que se trata de un conjunto de datos «que sabemos que es pirata».


El mensaje interno dice que el uso de una base de datos que contiene material pirateado podría debilitar las negociaciones del propietario de Facebook e Instagram con los reguladores, según la presentación. «La cobertura mediática que sugiere que hemos utilizado un conjunto de datos que sabemos que es pirata, como LibGen, puede debilitar nuestra posición negociadora con los reguladores».


El autor estadounidense Ta-Nehisi Coates, la cómica Sarah Silverman y los demás autores que demandan a Meta por infracción de derechos de autor hicieron las acusaciones en una presentación hecha pública el miércoles, ante un tribunal federal de California.


Los autores demandaron a Meta en 2023, alegando que la empresa de redes sociales utilizó indebidamente sus libros para entrenar a Llama, el gran modelo lingüístico que alimenta sus chatbots.


El conjunto de datos Library Genesis, o LibGen, es una «biblioteca en la sombra» originaria de Rusia que afirma contener millones de novelas, libros de no ficción y artículos de revistas científicas. El año pasado, un tribunal federal de Nueva York ordenó a los operadores anónimos de LibGen pagar a un grupo de editores 30 millones de dólares (24 millones de libras) en concepto de daños y perjuicios por infracción de derechos de autor.


El uso de contenidos protegidos por derechos de autor para entrenar modelos de IA se ha convertido en un campo de batalla legal en el desarrollo de herramientas de IA generativa como el chatbot ChatGPT, con profesionales creativos y editores advirtiendo de que utilizar su trabajo sin permiso pone en peligro sus medios de vida y modelos de negocio.


El expediente cita un memorando, que hace referencia a las iniciales de Mark Zuckerberg, en el que se señala que «después de la escalada a MZ», el equipo de IA de Meta «ha sido aprobado para utilizar LibGen».


Citando comunicaciones internas, el documento también afirma que los ingenieros de Meta hablaron de acceder a los datos de LibGen y revisarlos, pero dudaron en iniciar ese proceso porque «hacer torrenting», un término para compartir archivos entre iguales, desde «un portátil corporativo [propiedad de Meta] no parece correcto».  


Un juez de distrito estadounidense, Vince Chhabria, desestimó el año pasado las demandas de que el texto generado por los modelos de IA de Meta infringía los derechos de autor de los autores y que Meta sustraía ilegalmente la información de gestión de derechos de autor (CMI) de sus libros, que se refiere a información sobre la obra que incluye el título, el nombre del autor y el propietario de los derechos de autor. Sin embargo, los demandantes obtuvieron permiso para modificar sus demandas.


Los escritores argumentaron esta semana que las pruebas reforzaban sus alegaciones de infracción y justificaban la reactivación de su caso CMI y la adición de una nueva alegación de fraude informático.


En una vista celebrada el jueves, Chhabria declaró que permitiría a los autores presentar una demanda modificada, pero se mostró escéptico sobre el fundamento de las demandas por fraude y CMI.


Se ha contactado con Meta para que haga comentarios.


**************************************

Zuckerberg approved Meta’s use of ‘pirated’ books to train AI models, authors claim


Sarah Silverman and others file court case claiming CEO approved use of dataset despite warnings


Mark Zuckerberg approved Meta’s use of “pirated” versions of copyright-protected books to train the company’s artificial intelligence models, a group of authors has alleged in a US court filing.

Citing internal Meta communications, the filing claims that the social network company’s chief executive backed the use of the LibGen dataset, a vast online archive of books, despite warnings within the company’s AI executive team that it is a dataset “we know to be pirated”.

The internal message says that using a database containing pirated material could weaken the Facebook and Instagram owner’s negotiations with regulators, according to the filing. “Media coverage suggesting we have used a dataset we know to be pirated, such as LibGen, may undermine our negotiating position with regulators.”  

Read more

The US author Ta-Nehisi Coates, the comedian Sarah Silverman and the other authors suing Meta for copyright infringement made the accusations in a filing made public on Wednesday, in a California federal court.

The authors sued Meta in 2023, arguing that the social media company misused their books to train Llama, the large language model that powers its chatbots. 

The Library Genesis, or LibGen, dataset is a “shadow library” that originated in Russia and claims to contain millions of novels, nonfiction books and science magazine articles. Last year a New York federal court ordered LibGen’s anonymous operators to pay a group of publishers $30m (£24m) in damages for copyright infringement.

Use of copyrighted content in training AI models has become a legal battleground in the development of generative AI tools such as the ChatGPT chatbot, with creative professionals and publishers warning that using their work without permission is endangering their livelihoods and business models.  

The filing cites a memo, referring to Mark Zuckerberg’s initials, noting that “after escalation to MZ”, Meta’s AI team “has been approved to use LibGen”.

Quoting internal communications, the filing also says Meta engineers discussed accessing and reviewing LibGen data but hesitated on starting that process because “torrenting”, a term for peer-to-peer sharing of files, from “a [Meta-owned] corporate laptop doesn’t feel right”.  

A US district judge, Vince Chhabria, last year dismissed claims that text generated by Meta’s AI models infringed the authors’ copyrights and that Meta unlawfully stripped their books’ copyright management information (CMI), which refers to information about the work including the title, name of the author and copyright owner. However, the plaintiffs were given permission to amend their claims.

The writers argued this week that the evidence bolstered their infringement claims and justified reviving their CMI case and adding a new computer fraud allegation.

Chhabria said during a hearing on Thursday that he would allow the writers to file an amended complaint but expressed scepticism about the merits of the fraud and CMI claims.

Meta has been contacted for comment.

//////////////////


lunes, 20 de enero de 2025

Permitir que las Big Tech entrenen a las IA en la producción académica solo exacerbará la amenaza que supone para la docencia y la investigación, afirma Martyn Hammersley

Publicado en THE Times Higher Education
https://www.timeshighereducation.com/opinion/publishers-must-not-feed-machine-munching-through-academy 



Permitir que las Big Tech entrenen a las IA en la producción académica solo exacerbará la amenaza que supone para la docencia y la investigación, afirma Martyn Hammersley


26 de septiembre de 2024

Martyn Hammersley


El polémico acuerdo de Informa que permite utilizar artículos y libros académicos para entrenar los sistemas de inteligencia artificial de Microsoft plantea interrogantes sobre las responsabilidades de las editoriales académicas, sus relaciones con los autores y sus derechos legales sobre el contenido de lo que publican. Y es probable que estos interrogantes adquieran mayor relevancia a medida que, desafiando las quejas de los autores, las editoriales sigan adelante con otros acuerdos similares. 


Según Informa, propietaria de Taylor and Francis, Routledge y otros sellos académicos, el acuerdo «ampliará el uso de la IA dentro de nuestro negocio y subraya el valor único de nuestra propiedad intelectual»; se espera que sus «ingresos totales de la asociación de IA» superen los 75 millones de dólares en 2024. Supongo que no debería sorprendernos este deseo de explotar aún más el material académico que controla la empresa. Pero, ¿cómo encaja este acuerdo con la afirmación de Informa de que sus responsabilidades con los autores académicos son fundamentales? 


Los grandes modelos lingüísticos (LLM) ya están haciendo estragos en el mundo académico de varias maneras. La más obvia es que están causando considerables dificultades en la evaluación del trabajo de los estudiantes. Un ensayo elaborado con la ayuda de un LLM dice mucho más de las capacidades del software que de las del estudiante. Mejorar el rendimiento de los LLM empeorará el problema, porque será aún más difícil distinguir los ensayos escritos por bots de los escritos por humanos. ¿Quizás en el futuro los títulos deberían concederse a los desarrolladores de software en lugar de a los estudiantes?


Por supuesto, actualmente se dedican muchos esfuerzos a encontrar modos de evaluación que eviten el problema y a educar a estudiantes y académicos sobre cómo emplear la tecnología de forma responsable en la enseñanza y el aprendizaje. Incluso hay quienes ven con buenos ojos el papel de la IA. Sin embargo, a menudo parece que se trata simplemente de aceptar lo que se considera inevitable; tal optimismo es difícil de cuadrar con lo que está ocurriendo realmente sobre el terreno. 


Cuestiones similares se plantean en el contexto de la investigación, con un debate cada vez más intenso sobre cómo se utilizan -y podrían utilizarse- los LLM para elaborar artículos de revistas y libros. Aquí surgen cuestiones interesantes sobre la relación entre la investigación y la escritura. Algunos científicos sociales sostienen desde hace tiempo que son más o menos equivalentes: que, como dijo la socióloga Laurel Richardson hace muchos años, «la escritura es un método de investigación». Si esto es cierto, quizá la IA pueda tomar el relevo, sobre todo en las humanidades y las ciencias sociales, si éstas son «ciencias parlantes», como afirmó en su día otro sociólogo, Harold Garfinkel, basándose en que sus practicantes se dedican simplemente a «empujar palabras».


Sin embargo, si bien es cierto que en estos campos se publican demasiados trabajos de investigación en los que no se utilizan las palabras, no es así en todos los casos. Y, aunque lo fuera, podríamos preguntarnos si los programas de IA pueden utilizar las palabras con la misma eficacia que los humanos para desarrollar nuevos análisis empíricos y teorías. ¿No se limitan los LLM a reordenar y reformular lo que han masticado? Puede que sean capaces de resumir un artículo con eficacia, pero ¿pueden elaborar una crítica perspicaz del mismo? Esto es, sin duda, esencial si el conocimiento se desarrolla a través de la crítica, como han defendido Popper y otros.


Quizá no debamos descartar tan rápidamente la capacidad de la IA para llegar a ser realmente creativa. ¿Es posible que, al menos en algunos campos, los investigadores ya no tengan nada que hacer? Pero cabe preguntarse: ¿debería una editorial académica acelerar este proceso?


Otra cuestión es que Informa ni siquiera informó a los autores del acuerdo, y mucho menos les consultó al respecto: se informó por primera vez (de forma un tanto críptica) en un comunicado de prensa centrado en el mercado en mayo, y varios periódicos se hicieron eco de la noticia. ¿Qué nos dice esto sobre la actitud de las grandes editoriales? La implicación es que los autores académicos son meros proveedores de contenidos y que las empresas tienen vía libre para hacer lo que quieran con esos contenidos. En otras palabras, se trata simplemente de una relación de mercado que hay que explotar de la manera más eficaz posible. 


Por último, está la cuestión de si Informa tiene derecho legal a utilizar material académico de esta manera. Esto podría ser cierto en el caso de los artículos de revistas, cuyos autores se han visto obligados a ceder sus derechos de autor. El caso de los libros, especialmente los publicados antes del desarrollo de los LLM, está menos claro. Según Informa, dado que incluso los primeros contratos le otorgan derechos de publicación, venta, distribución y licencia del contenido publicado, esto cubre el nuevo uso propuesto. Sin embargo, probablemente sólo los tribunales puedan decidir si esto es así. 


En cuanto a la sugerencia de que los autores recibirán mayores regalías, no está claro cómo ocurriría ni quién saldría ganando. En cualquier caso, la pregunta clave sigue siendo: ¿por qué mejorar el rendimiento de los LLM se considera deseable desde un punto de vista académico?


Tal vez este software pueda servir para ahorrar trabajo, pero ¿merecen la pena los problemas que causa? ¿Y quién afronta esos costes y quién obtiene los beneficios? En el caso de los acuerdos con las grandes tecnológicas para permitir la formación LLM, sugiero que las respuestas a estas preguntas son obvias.


Martyn Hammersley es catedrático emérito de investigación educativa y social en la Open University.


*******************************

Allowing Big Tech to train AIs on academic output will only exacerbate the threat posed to teaching and research, says Martyn Hammersley

September 26, 2024

Martyn Hammersley


Informa’s controversial deal allowing academic articles and books to be used to train Microsoft’s AI systems raises questions about academic publishers' responsibilities, relationships with authors and legal rights regarding the content of what they publish. And those questions are only likely to become more salient as, in defiance of complaints from authors, publishers press ahead with further similar deals.  

According to Informa, which owns Taylor and Francis, Routledge and other academic imprints, the deal “will extend the use of AI within our business and underlines the unique value of our Intellectual Property”; its “total AI partnership revenues” are expected to be “over $75m in 2024”. We should not be surprised by this desire to further exploit the academic material the company controls, I suppose. But how does this deal square with Informa’s claim that its responsibilities to academic authors are central?  

Large language models (LLMs) are already munching through the academy in various ways. Most obviously, they are causing considerable difficulties in the assessment of student work. An essay produced with the help of an LLM says much more about the software’s capabilities than about those of the student. Improving the performance of LLMs will make that problem worse because it will be even harder to distinguish bot-written essays from human-written ones. Perhaps degrees should be awarded to the software developers rather than to the students in future?  

Of course, much effort is currently being devoted to finding modes of assessment that avoid the problem and to educating students and academics in how to employ the technology responsibly in teaching and learning. There are even those who view the role of AI positively. However, this often seems to be a matter of simply accepting what is regarded as inevitable; such optimism is hard to square with what is actually happening at ground level.   

Similar issues arise in the context of research, with increasing discussion of how LLMs are being – and could be – used to produce journal articles and books. Here, interesting issues arise about the relationship between enquiry and writing. Some social scientists have long argued that these are more or less equivalent: that, as sociologist Laurel Richardson put it many years ago, “writing is a method of inquiry”. If that is true, perhaps AI can simply take over, especially in the humanities and social sciences – if these are “talking sciences”, as another sociologist, Harold Garfinkel, once claimed, on the grounds that their practitioners are engaged in simply “shoving words around”.  

But while shoving words around may be a fair description of too much published research in those fields, it is far from universally true. And, even if it were, we might ask whether AI programs can shove words around as effectively as humans, to develop new empirical analyses and theories. Do LLMs not merely reorder and reformulate what they have munched their way through? They may be able to summarise an article effectively, but can they produce an insightful critique of it? This is surely essential if knowledge develops through criticism, as Popper and others have argued.  

Perhaps we ought not to dismiss so quickly the ability of AI ever to become genuinely creative. Might the writing really be on the wall for researchers, in some fields at least? But it must be asked: should an academic publisher be accelerating this process?

Another issue concerns the fact that Informa did not even tell authors about the deal, never mind consult them on it: it was first reported (somewhat cryptically) in a market-focused press release in May, and was picked up by several newspapers. What does this tell us about the attitudes of large publishers? The implication is that academic authors are merely content providers and that companies have a free hand to do whatever they wish with that content. In other words, what is involved is simply a market relationship that is to be exploited as effectively as possible.  

Finally, there is the question of whether Informa is legally entitled to use academic material in this way. That could be true as regards journal articles, where authors have been forced to sign away their copyright. The case of books, particularly those published before the development of LLMs, is less clear. According to Informa, since even early contracts give it rights to publish, sell, distribute and license the published content, this covers the proposed new use. However, whether that is the case could probably only be decided in court. 

As for the suggestion that authors will receive enhanced royalties, it is not clear how this would occur or who would gain. Either way, the key question remains: why would improving the performance of LLMs be regarded as desirable from an academic point of view?

This software can perhaps serve as a labour-saving tool, but are the problems it causes worth its benefits? And who faces those costs, and who gets the benefits? In the case of deals with big tech to allow LLM training, I suggest that the answers to those questions are obvious.

Martyn Hammersley is emeritus professor of educational and social research at the Open University

**********

martes, 10 de diciembre de 2024

Editoriales están vendiendo artículos para entrenar IA y generando millones de dólares

 Publicado en blog Universo abierto
https://universoabierto.org/2024/12/10/los-editores-estan-vendiendo-articulos-para-entrenar-ia-y-generando-millones-de-dolares/




Los editores están vendiendo artículos para entrenar IA y generando millones de dólares

Kwon, Diana. «Publishers Are Selling Papers to Train AIs — and Making Millions of Dollars.» Nature, December 9, 2024. https://www.nature.com/articles/d41586-024-04018-5.

Con el aumento de la popularidad de la inteligencia artificial generativa (IA), varios editores académicos han establecido acuerdos con empresas tecnológicas que buscan utilizar contenido académico para entrenar los grandes modelos de lenguaje (LLMs) que sustentan sus herramientas de IA. Estos acuerdos han resultado altamente lucrativos, generando millones de dólares para los editores involucrados.

Roger Schonfeld, co-creador de un nuevo rastreador de acuerdos y vicepresidente de bibliotecas, comunicación académica y museos en Ithaka S+R, una firma de consultoría en educación superior con sede en Nueva York, comenta: “Estábamos observando anuncios de estos acuerdos y comenzamos a pensar que esto está empezando a convertirse en un patrón”. Schonfeld y su equipo lanzaron en octubre Generative AI Licensing Agreement Tracker, una herramienta destinada a recoger los acuerdos que se están realizando entre editores y compañías de tecnología.

El rastreador tiene como objetivo no solo documentar cada acuerdo individual, sino también identificar y analizar las tendencias generales que emergen de estos acuerdos. Al proporcionar una fuente centralizada de información, el tracker facilita que la comunidad académica y tecnológica comprendan mejor cómo se está utilizando el contenido académico para el desarrollo de IA generativa.

Este fenómeno refleja una creciente intersección entre la publicación académica y el desarrollo de tecnologías avanzadas de IA. Los editores, al vender derechos de uso de sus artículos para entrenar modelos de lenguaje, están aprovechando nuevas oportunidades de ingresos, mientras que las empresas de tecnología aseguran el acceso a vastas cantidades de datos necesarios para mejorar la precisión y capacidad de sus sistemas de IA.

El seguimiento de estos acuerdos es crucial para mantener la transparencia en cómo se utiliza el contenido académico y para asegurar que se respeten los derechos de los autores y las instituciones educativas. Además, este rastreador puede ayudar a identificar posibles implicaciones éticas y legales relacionadas con el uso de investigaciones académicas en el entrenamiento de inteligencias artificiales.

Principales acuerdos:

  • Taylor & Francis firmó un acuerdo de 10 millones de dólares con Microsoft
  • Wiley generó 23 millones de dólares en un acuerdo con una empresa no revelada y espera otros 21 millones este año.
  • Otros grandes editores, como Elsevier y Springer Nature, no han comentado sobre acuerdos similares.

También los editores están creando nuevas posiciones y programas, como el «Wiley AI Partnerships», para formalizar colaboraciones con empresas de tecnología. Esto refleja que estos acuerdos no son excepcionales, sino parte de una estrategia a largo plazo.

Los acuerdos entre editores académicos y empresas de IA están transformando la publicación científica, generando ingresos sustanciales y redefiniendo la relación entre autores, editores y tecnología. Sin embargo, el debate sobre la transparencia y las implicaciones éticas de estas prácticas sigue abierto.

Algunos académicos han mostrado preocupación por el uso de su contenido sin su conocimiento.

  • De Gruyter Brill creó una página informativa para explicar los acuerdos y abordar las inquietudes de los autores.
  • Cambridge University Press & Assessment adoptó un enfoque de participación voluntaria, contactando a 20.000 autores para obtener su consentimiento explícito.

El cumplimiento de los derechos de autor y la concienciación sobre la IA, «más importantes que nunca»

Publicado en Research information https://www.researchinformation.info/news/awareness-of-copyright-compliance-and-ai-tools-more-important-th...