Mostrando entradas con la etiqueta Piratería editorial. Mostrar todas las entradas
Mostrando entradas con la etiqueta Piratería editorial. Mostrar todas las entradas

martes, 21 de enero de 2025

¿Ladrón que roba a ladrón tiene 100 años de perdón? Meta de Zuckerberg se piratea los libros de LibGen

Publicado en The Guardian
https://www.theguardian.com/technology/2025/jan/10/mark-zuckerberg-meta-books-ai-models-sarah-silverman 



Zuckerberg aprobó el uso de libros «pirateados» por Meta para entrenar modelos de IA, según sus autores


Sarah Silverman y otros denuncian ante los tribunales que el CEO aprobó el uso de datos a pesar de las advertencias.


Mark Zuckerberg aprobó el uso por parte de Meta de versiones «pirateadas» de libros protegidos por derechos de autor para entrenar los modelos de inteligencia artificial de la empresa, según alega un grupo de autores en una demanda presentada ante un tribunal estadounidense.


Citando comunicaciones internas de Meta, la demanda afirma que el director ejecutivo de la empresa de redes sociales respaldó el uso del conjunto de datos LibGen, un vasto archivo en línea de libros, a pesar de las advertencias dentro del equipo ejecutivo de IA de la empresa de que se trata de un conjunto de datos «que sabemos que es pirata».


El mensaje interno dice que el uso de una base de datos que contiene material pirateado podría debilitar las negociaciones del propietario de Facebook e Instagram con los reguladores, según la presentación. «La cobertura mediática que sugiere que hemos utilizado un conjunto de datos que sabemos que es pirata, como LibGen, puede debilitar nuestra posición negociadora con los reguladores».


El autor estadounidense Ta-Nehisi Coates, la cómica Sarah Silverman y los demás autores que demandan a Meta por infracción de derechos de autor hicieron las acusaciones en una presentación hecha pública el miércoles, ante un tribunal federal de California.


Los autores demandaron a Meta en 2023, alegando que la empresa de redes sociales utilizó indebidamente sus libros para entrenar a Llama, el gran modelo lingüístico que alimenta sus chatbots.


El conjunto de datos Library Genesis, o LibGen, es una «biblioteca en la sombra» originaria de Rusia que afirma contener millones de novelas, libros de no ficción y artículos de revistas científicas. El año pasado, un tribunal federal de Nueva York ordenó a los operadores anónimos de LibGen pagar a un grupo de editores 30 millones de dólares (24 millones de libras) en concepto de daños y perjuicios por infracción de derechos de autor.


El uso de contenidos protegidos por derechos de autor para entrenar modelos de IA se ha convertido en un campo de batalla legal en el desarrollo de herramientas de IA generativa como el chatbot ChatGPT, con profesionales creativos y editores advirtiendo de que utilizar su trabajo sin permiso pone en peligro sus medios de vida y modelos de negocio.


El expediente cita un memorando, que hace referencia a las iniciales de Mark Zuckerberg, en el que se señala que «después de la escalada a MZ», el equipo de IA de Meta «ha sido aprobado para utilizar LibGen».


Citando comunicaciones internas, el documento también afirma que los ingenieros de Meta hablaron de acceder a los datos de LibGen y revisarlos, pero dudaron en iniciar ese proceso porque «hacer torrenting», un término para compartir archivos entre iguales, desde «un portátil corporativo [propiedad de Meta] no parece correcto».  


Un juez de distrito estadounidense, Vince Chhabria, desestimó el año pasado las demandas de que el texto generado por los modelos de IA de Meta infringía los derechos de autor de los autores y que Meta sustraía ilegalmente la información de gestión de derechos de autor (CMI) de sus libros, que se refiere a información sobre la obra que incluye el título, el nombre del autor y el propietario de los derechos de autor. Sin embargo, los demandantes obtuvieron permiso para modificar sus demandas.


Los escritores argumentaron esta semana que las pruebas reforzaban sus alegaciones de infracción y justificaban la reactivación de su caso CMI y la adición de una nueva alegación de fraude informático.


En una vista celebrada el jueves, Chhabria declaró que permitiría a los autores presentar una demanda modificada, pero se mostró escéptico sobre el fundamento de las demandas por fraude y CMI.


Se ha contactado con Meta para que haga comentarios.


**************************************

Zuckerberg approved Meta’s use of ‘pirated’ books to train AI models, authors claim


Sarah Silverman and others file court case claiming CEO approved use of dataset despite warnings


Mark Zuckerberg approved Meta’s use of “pirated” versions of copyright-protected books to train the company’s artificial intelligence models, a group of authors has alleged in a US court filing.

Citing internal Meta communications, the filing claims that the social network company’s chief executive backed the use of the LibGen dataset, a vast online archive of books, despite warnings within the company’s AI executive team that it is a dataset “we know to be pirated”.

The internal message says that using a database containing pirated material could weaken the Facebook and Instagram owner’s negotiations with regulators, according to the filing. “Media coverage suggesting we have used a dataset we know to be pirated, such as LibGen, may undermine our negotiating position with regulators.”  

Read more

The US author Ta-Nehisi Coates, the comedian Sarah Silverman and the other authors suing Meta for copyright infringement made the accusations in a filing made public on Wednesday, in a California federal court.

The authors sued Meta in 2023, arguing that the social media company misused their books to train Llama, the large language model that powers its chatbots. 

The Library Genesis, or LibGen, dataset is a “shadow library” that originated in Russia and claims to contain millions of novels, nonfiction books and science magazine articles. Last year a New York federal court ordered LibGen’s anonymous operators to pay a group of publishers $30m (£24m) in damages for copyright infringement.

Use of copyrighted content in training AI models has become a legal battleground in the development of generative AI tools such as the ChatGPT chatbot, with creative professionals and publishers warning that using their work without permission is endangering their livelihoods and business models.  

The filing cites a memo, referring to Mark Zuckerberg’s initials, noting that “after escalation to MZ”, Meta’s AI team “has been approved to use LibGen”.

Quoting internal communications, the filing also says Meta engineers discussed accessing and reviewing LibGen data but hesitated on starting that process because “torrenting”, a term for peer-to-peer sharing of files, from “a [Meta-owned] corporate laptop doesn’t feel right”.  

A US district judge, Vince Chhabria, last year dismissed claims that text generated by Meta’s AI models infringed the authors’ copyrights and that Meta unlawfully stripped their books’ copyright management information (CMI), which refers to information about the work including the title, name of the author and copyright owner. However, the plaintiffs were given permission to amend their claims.

The writers argued this week that the evidence bolstered their infringement claims and justified reviving their CMI case and adding a new computer fraud allegation.

Chhabria said during a hearing on Thursday that he would allow the writers to file an amended complaint but expressed scepticism about the merits of the fraud and CMI claims.

Meta has been contacted for comment.

//////////////////


miércoles, 13 de septiembre de 2023

Histpria de la piratería editorial y las modernas revistas depredadoras

Publicado en Blok de Bid
https://www.ub.edu/blokdebid/es/node/1291




De piratas y predadores editoriales

Ángel Borrego el Miércoles 13 septiembre, 2023 

Versión para impresión

Ángel Borrego
Facultat d’Informació i Mitjans Audiovisuals
Universitat de Barcelona (UB)


Morriello, Rossana (2022). Dalla pirateria dei libri all’editoria predatoria: un percorso tra storia della stampa ed etica della comunicazione scientifica. Milano: Ledizioni. 158 p. (Editoria: passato, presente e futuro). Disponible en: <https://www.ledizioni.it/checkout/order-received/55043/?key=wc_order_c2rGKG5HeyWlF>. ISBN 978-88-5526-804-2. [Consulta: 29/08/2023].



En los últimos meses, diversos medios de comunicación han publicado noticias sobre comportamientos deshonestos de investigadores al publicar resultados científicos (véase, por ejemplo, las publicadas en El País o elDiario.es). A pesar de tratarse de un tema de actualidad, el plagio o la falsificación de datos no son conductas nuevas y se pueden documentar casos desde los inicios de la ciencia moderna aunque, probablemente, se han exacerbado como consecuencia de unos criterios de evaluación científica centrados de manera casi exclusiva en la medición cuantitativa de la producción de los investigadores.

La ética de la comunicación científica constituye el núcleo de la monografía de Rossana Morriello. A este tema dedica la autora el segundo apartado de su obra. Este capítulo central viene precedido de otro sobre la piratería y tiene como continuación un tercero sobre las editoriales predadoras. Los tres capítulos conforman una obra con una orientación eminentemente histórica, con profusión de ejemplos que ilustran las explicaciones de la autora.

Morriello sitúa el origen de la piratería editorial en la Inglaterra del siglo XVII, justamente el lugar y el momento donde se regulan por primera vez los derechos patrimoniales emanados de la propiedad intelectual, es decir, el copyright. El gremio de editores e impresores ingleses, la Stationers’ Company, gozaba del monopolio en la producción de libros que aseguraba al miembro que registraba la propiedad de un texto que nadie más pudiera publicarlo. Esta protección se percibía en ocasiones como una limitación a la difusión de las ideas políticas, lo que otorgaba a la piratería editorial una cierta aura de defensa de la libertad de imprenta que no ha perdido completamente. La autora hace un repaso de la evolución legislativa en el Reino Unido, Francia, Italia y los Estados Unidos que ilustra el aumento de la piratería a medida que se incrementa la industrialización de la imprenta. El capítulo finaliza mostrando cómo este debate ha llegado a la edición de revistas científicas, donde el interés de los investigadores por difundir los resultados de la investigación ha llevado a la proliferación de repositorios como Sci-Hub que tienen por objetivo la difusión ilegal de artículos científicos.

El segundo capítulo de la monografía se centra, también desde una perspectiva histórica, en la ética de la comunicación científica. La autora comienza trazando una línea divisoria entre el error y la mala praxis científica en función de la intencionalidad del investigador. Morriello hace un repaso de ejemplos de fabricación y falsificación de datos en economía, medicina o química, mostrando que ninguna disciplina está exenta de este tipo de malas prácticas. Un apartado del capítulo trata de comportamientos deshonestos relacionados con la autoría, como los «autores fantasma» (que han participado en el desarrollo de un estudio pero no figuran entre sus responsables) o la autoría honorífica (la inclusión de autores que no han hecho ninguna aportación al trabajo). A continuación, se analizan las tres principales causas de la retractación de artículos de autores italianos: la manipulación de datos, la manipulación de imágenes y el plagio. El capítulo finaliza con la discusión de los efectos de estas malas prácticas sobre el elemento esencial de la ciencia: la reproductibilidad de los estudios científicos.

El tercer y último capítulo de la obra aborda el problema de las revistas científicas predadoras, aquellas que cobran a los autores tasas de edición por la publicación de artículos sin comprobar su calidad y sin proporcionar ningún tipo de servicio editorial. En el texto, se ofrecen consejos para la identificación de estas revistas. Otros apartados del capítulo se dedican a fenómenos como los paper mills (organizaciones dedicadas a la producción de artículos falsos para vender la autoría) y los artículos zombies (artículos retractados pero que se continúan citando como legítimos). El último apartado hace algunas reflexiones sobre posibles intervenciones para enmendar estas malas prácticas científicas.

En conclusión, se trata de una obra atractiva que resultará especialmente útil a lectores interesados en tener una perspectiva histórica de la propiedad intelectual y la ética en el mundo académico. Se trata de un trabajo muy documentado, con múltiples ejemplos que hacen amena la lectura. Quizás se encuentra a faltar una mejor categorización de las conductas descritas y una reflexión más profunda sobre sus causas y posibles soluciones.

Nota. Esta reseña se publica simultáneamente con el Blog de l’Escola de Llibreria. 


El cumplimiento de los derechos de autor y la concienciación sobre la IA, «más importantes que nunca»

Publicado en Research information https://www.researchinformation.info/news/awareness-of-copyright-compliance-and-ai-tools-more-important-th...