Mostrando entradas con la etiqueta Copyright. Mostrar todas las entradas
Mostrando entradas con la etiqueta Copyright. Mostrar todas las entradas

viernes, 14 de marzo de 2025

Todas las grandes IA han ignorado las leyes del copyright. Lo alucinante es que sigue sin haber consecuencias

Publicado en Xataka
https://www.xataka.com/legislacion-y-derechos/todas-grandes-ia-han-ignorado-leyes-copyright-alucinante-que-sigue-haber-consecuencias






Todas las grandes IA han ignorado las leyes del copyright. Lo alucinante es que sigue sin haber consecuencias
La reciente demanda de grupos editoriales franceses a Meta es otro ejemplo más de la lucha contra la violación de los derechos de autor al entrenar modelos de IA

Javier Pastor

 

Las editoriales francesas están hartas y acaban de demandar a Meta
por violación del copyright. No son las primeras ni serán las últimas,
pero el problema no es ese: el problema es que las empresas de IA
han usado contenidos con derechos de autor para entrenar sus
modelos, y es como si no pasara nada.


Todo sigue igual. Han pasado más dos años desde que 
Getty denunciara a Stable Diffusion, a la que acusaba de robar sus
fotos para entrenar su modelo de IA de generación de imágenes.
Aquella fue la primera de una gran lista de demandas por
exactamente lo mismo, pero a pesar del tiempo que ha transcurrido,
no ha habido novedades al respecto. Es como si lo que hizo
Stable Diffusion —como las demás— acabara en un segundo
plano para los tribunales de justicia.

¿Copyqué? La sospecha sobre este tipo de comportamientos ha sido
constante, y lo era ya antes de que se lanzase ChatGPT en
noviembre de 2022. Meses antes, en junio, DALL-E fue acusada
de basarse en imágenes con derechos de autor de creadores 
que no recibían nada a cambio. Microsoft, OpenAI y GitHub
también fueron demandados unas semanas antes del lanzamiento de ChatGPT, pero esta vez porque 
GitHub Copilot había sido entrenado 
sin permiso con código de diversos desarrolladores que
no habían dado su permiso. Un juez de California 
desestimó prácticamente todas las reclamaciones de los demandantes en julio de 2024.

Pocas sentencias castigan a las empresas de IA. Por ahora
las sentencias que se han producido, como la mencionada,
dan la victoria aparente a las empresas de IA. Ocurrió
por ejemplo con una demanda contra OpenAI,
que la empresa logró ganar. Eso sí, dicha victoria puede salirle cara
en su otra gran demanda pendiente con The New York Times,
que puede alegar que sufrió un perjuicio demostrable.

¿Uso justo? El juicio del caso de The New York Times contra OpenAI
 se inició en enero de 2025 y es sin duda uno de los más importantes
en este ámbito. La empresa liderada por Sam Altman
—que ha usado todos los datos que ha podido— se escuda
en que ellos hacen un "uso justo" de los contenidos para
poder entrenar sus modelos. Lo curioso es que por un lado
dicen eso, y por el otro han ido llegando a acuerdos millonarios con plataformas como Reddit y medios o editoriales como El País 
precisamente para licenciar sus contenidos y evitar nuevas demandas.

Lo de Meta es otro nivel. Los extremos a los que están llegando
las empresas para tener datos de calidad con los que entrenar
sus modelos de IA son extraordinarios. Perplexity se saltó las barreras
de internet, pero lo de Meta fue aún más llamativo: hace poco
supimos que habían utilizado más de 80 TB de libros descargados vía BitTorrent para entrenar su modelo. Muchos de ellos con derechos
 de autor, algo que ha provocado muchas críticas y la
reciente demanda de algunos grupos editoriales franceses.  

No parece haber castigo. Pero como decimos, ese robo histórico de
propiedad intelectual parece estar ya asumido: no hay sentencias
 que hayan castigado esas violaciones del copyright de momento,
y es como si colectivamente se hubieran ignorado esas violaciones
porque la IA ofrece ventajas interesantes. Pero nos estamos
olvidando de cómo las han obtenido... o eso parece.

En Xataka | 5.000 "tokens" de mi blog están siendo usados
para entrenar una IA. No he dado mi permiso

jueves, 14 de noviembre de 2024

ChatGPT vs Derechos de autor: ¿Cómo va el marcador NYT vs OpenAI?

Publicado en Xataka
https://www.xataka.com/robotica-e-ia/openai-gana-primera-batalla-copyright-chatgpt-no-guerra-acaba-darle-enorme-ventaja-al-new-york-times



- Las demandas por violación de derechos de autor se acumulan en OpenAI
  • - De momento han logrado salir indemnes de uno de esos casos, pero organizaciones como The New York Times están al acecho
  • - El uso de esos contenidos sin licenciar puede acabar metiendo a
    empresas como OpenAI o Google en un problema muy importante
13 Noviembre 2024
Javier Pastor

¿Puede aprovecharse la IA de los contenidos que están públicamente
disponibles en internet? ¿Y si esos contenidos están protegidos por los
derechos de autor? La respuesta a la primera pregunta es clara: 
lo está
haciendo
. La cosa es más delicada para la segunda, pero todo apunta
a que las empresas de IA están usando 
también contenidos con
copyright
 para entrenar sus modelos. Ahora queda saber si eso tendrá
consecuencias.

Periódicos que acusan a ChatGPT de robarles contenidos.
Raw Story y Alternet son dos publicaciones online que como indican 
en
Reuters
 demandaron a OpenAI el pasado mes de febrero.
Según la demanda, la empresa usó miles de sus artículos
sin permiso para entrenar su popular chatbot, ChatGPT.
No solo eso: acusan a OpenAI de reproducir sus contenidos
con copyright cuando se le pedían dichos contenidos a su modelo de IA.

OpenAI gana una batalla. De momento OpenAI puede respirar
tranquila. En Estados Unidos, una jueza federal de Nueva York,
Colleen McMahon, ha indicado 
en su sentencia que estos medios
de noticias no se han visto perjudicados lo suficiente para apoyar
su demanda. No obstante, les dio la oportunidad de apelar pero
dejó claro que era "escéptica" con respecto a las posibilidades de que
dichos medios pudieran "alegar un perjuicio demostrable".

Pero no la guerra. El caso es el último de una ristra de demandas por
violación de copyright que sobre todo organismos y entidades de la
industria editorial, literaria, musical o artística están registrando contra
 las empresas de inteligencia artificial.

Demandas por doquier. En los últimos meses hemos visto demandas
como la de Getty a Stable Diffusion, la que afecta a GitHub Copilot y
otras amenazas legales como las de la The Author's Guild. David Holz,
fundador de Midjourney, admitía que al entrenar su modelo
"No hay realmente una forma de coger cien  millones de imágenes
y saber de  dónde provienen. Estaría bien que las  imágenes tuvieran metadatos  incrustados sobre el propietario del  copyright o algo así.
Pero eso no  existe; no hay ningún registro".

The New York Times está al acecho. Esas dos publicaciones se unen
a demandas anteriores de medios y grupos editoriales especialmente
poderosos. En febrero de 2023 The Wall Street Journal y CNN
ya mostraron su preocupación respecto al uso de sus contenidos
en modelos de IA.

Aún más sonada fue la demanda de The New York Times, que acusó a Microsoft y OpenAI de violación de copyright por este mismo tipo
de actividad. Según dicha demanda, millones de artículos
publicados por NYT fueron usado para entrenar modelos de IA.

En abril de 2024 otros ocho diarios demandaron a esas mismas
empresas
 por exactamente los mismos motivos.

Transparencia cero. El secretismo relativo a los conjuntos de datos
usados para el entrenamiento es total tanto en OpenAI como en sus
competidoras. No dan apenas detalles sobre esos contenidos pero
en los últimos tiempos sí han hecho declaraciones que dejan claro
que aprovechan todo lo que pueden.

Pero es que necesitan ese material, argumentan en OpenAI
Google explicó que puede "recoger información públicamente disponible
online" para el entrenamiento de sus modelos de IA, Meta lleva tiempo usando todo lo que sus usuarios publican en Facebook e Instagram, y
OpenAI llegó a decir ante el Parlamento británico que "sería imposible
entrenar los principales modelos de IA de hoy en día sin usar materiales
con copyright".

Si quieres usar mis contenidos, págame
. Las empresas de IA están

empezando a darse cuenta del enorme riesgo al que se están
exponiendo, y algunas comienzan a cubrirse las espaldas con un
método sencillo: acuerdos económicos. Google licenció contenidos 
de Reddit, y OpenAI ha llegado también a algunos acuerdos
económicos con grupos editoriales como Prisa (El País) y Le Monde.

Perplexity y ChatGPT Search tienen un problema mayor.

Los últimos casos de esta peligrosa situación los estamos viendo en los
buscadores con IA. Perplexity y ChatGPT Search son capaces 
de navegar por internet, coger un puñado de fuentes y contestar a
nuestras preguntas resumiendo la información procedente de esas
fuentes. Eso está muy bien para el usuario, que logra la respuesta a lo
que quiere de forma clara, pero estos "motores de búsqueda" hacen así
innecesario que la mayoría de las veces el usuario haga clic en el
enlace original. Los creadores de contenido, por tanto, pierden tráfico
que ganan esos modelos de IA, lo que agrava aún más la situación.

En Xataka | Las empresas de IA están jugando con fuego con
los contenidos con derechos de autor. Y Perplexity está a punto
de quemarse

jueves, 1 de agosto de 2024

Estamos perdiendo vastas franjas de nuestro pasado digital, y los derechos de autor nos impiden salvarlo

Publicado en Walled Culture
https://walledculture.org/we-are-losing-vast-swathes-of-our-digital-past-and-copyright-stops-us-saving-it/


Estamos perdiendo vastas franjas de nuestro pasado digital, y los derechos de autor nos impiden salvarlo


PUBLICADO EL

 5 DE JUNIO DE 2024


Es difícil imaginar el mundo sin Internet. Colectivamente, accedemos de forma rutinaria a miles de millones de páginas web sin pensar en ello. Pero a menudo damos por sentado que el material al que queremos acceder estará ahí, tanto ahora como en el futuro. Todos nos topamos de vez en cuando con el temido error «404 no encontrado», pero simplemente pasamos a otras páginas. 


Lo que tendemos a ignorar es cómo estos mensajes de error en línea son una señal de advertencia intermitente de que algo malo está ocurriendo en la World Wide Web. Así lo revela un nuevo informe del Pew Research Center, basado en el análisis de medio millón de páginas web:


Una cuarta parte de todas las páginas web que existieron en algún momento entre 2013 y 2023 ya no son accesibles, a partir de octubre de 2023. En la mayoría de los casos, esto se debe a que una página individual fue eliminada o suprimida en un sitio web que, por lo demás, funcionaba.


En el caso de los contenidos más antiguos, la tendencia es aún más marcada. Alrededor del 38% de las páginas web que existían en 2013 no están disponibles hoy en día, frente al 8% de las páginas que existían en 2023.


Este deterioro digital se produce a ritmos ligeramente diferentes según el material en línea:


  • El 23% de las páginas web de noticias contienen al menos un enlace roto, al igual que el 21% de las páginas web de sitios gubernamentales. Los sitios web de noticias con un alto nivel de tráfico y los que tienen menos tienen la misma probabilidad de contener enlaces rotos.


  • Las páginas de las administraciones locales (ayuntamientos) son especialmente propensas a tener enlaces rotos.


  • El 54% de las páginas de Wikipedia contienen al menos un enlace en su sección "Referencias" que apunta a una página que ya no existe.


Estas cifras demuestran que el problema del que hablábamos hace unas semanas -que el acceso al conocimiento académico está en peligro- es en realidad mucho más amplio y se aplica a casi todo lo que está en línea. Aunque las razones por las que desaparece el material varían mucho, el principal obstáculo para hacer frente a esa pérdida es el mismo en todos los campos. El control obsesivo del material por parte de la industria de los derechos de autor, y las leyes punitivas que pueden aplicarse incluso contra la infracción más trivial de los derechos de autor, significan que rara vez se hacen copias de seguridad rutinarias y múltiples de material en línea clave o histórico.


La principal excepción a esta regla es el excelente trabajo realizado por el Internet Archive, fundado por Brewster Kahle, cuya Fundación Kahle/Austin apoya este blog. En el momento de escribir estas líneas, el Archivo de Internet conserva copias de 866.000 millones de páginas web, muchas de ellas en múltiples versiones que reflejan sus cambios a lo largo del tiempo. Es un recurso único e inestimable.


También está siendo demandado por los editores por atreverse a compartir de forma controlada algunos de sus fondos. Es decir, el único baluarte contra la pérdida de vastas franjas de nuestra cultura digital está siendo atacado por una industria que es en gran parte culpable del problema que el Internet Archive intenta resolver. Es otra razón importante por la que debemos alejarnos del sistema de derechos de autor y anular el poder que tiene para destruir, en lugar de crear, nuestra cultura.


**********************************


We are losing vast swathes of our digital past, and copyright stops us saving it

BEYOND THE BRICKS/KNOWLEDGE/LIBRARIES/MEDIA/THOUGHTS

POSTED ON

 5 JUNE 2024


It is hard to imagine the world without the Web. Collectively, we routinely access billions of Web pages without thinking about it. But we often take it for granted that the material we want to access will be there, both now and in the future. We all hit the dreaded “404 not found” error from time to time, but merely pass on to other pages. What we tend to ignore is how these online error messages are a flashing warning signal that something bad is happening to the World Wide Web. Just how bad is revealed in a new report from the Pew Research Center, based on an examination of half a million Web pages, which found:

A quarter of all webpages that existed at one point between 2013 and 2023 are no longer accessible, as of October 2023. In most cases, this is because an individual page was deleted or removed on an otherwise functional website.

For older content, this trend is even starker. Some 38% of webpages that existed in 2013 are not available today, compared with 8% of pages that existed in 2023. 

This digital decay occurs at slightly different rates for different online material:

23% of news webpages contain at least one broken link, as do 21% of webpages from government sites. News sites with a high level of site traffic and those with less are about equally likely to contain broken links. Local-level government webpages (those belonging to city governments) are especially likely to have broken links.

54% of Wikipedia pages contain at least one link in their “References” section that points to a page that no longer exists. 

These figures show that the problem we discussed a few weeks ago – that access to academic knowledge is at risk – is in fact far wider, and applies to just about everything that is online. Although the reasons for material disappearing vary greatly, the key obstacle to addressing that loss is the same across all fields. The copyright industry’s obsessive control of material, and the punitive laws that can be deployed against even the most trivial copyright infringement, mean that routine and multiple backup copies of key or historic online material are rarely made.

The main exception to that rule is the sterling work carried out by the Internet Archive, which was founded by Brewster Kahle, whose Kahle/Austin Foundation supports this blog. At the time of writing the Internet Archive holds copies of an astonishing 866 billion Web pages, many in multiple versions that chart their changes over time. It is a unique and invaluable resource.  It is also being sued by publishers for daring to share in a controlled way some of its holdings. That is, the one bulwark against losing vast swathes of our digital culture is being attacked by an industry that is largely to blame for the problem the Internet Archive is trying to solve. It’s another important reason why we must move away from the copyright system, and nullify the power it has to destroy, rather than create, our culture.

viernes, 12 de enero de 2024

OpenAI asegura que es imposible crear una Inteligencia Artificial como ChatGPT sin infringir 'los derechos de autor'

Publicado en elEconomista.es
https://www.eleconomista.es/tecnologia/noticias/12613903/01/24/openai-asegura-que-es-imposible-crear-una-inteligencia-artificial-como-chatgpt-sin-infringir-los-derechos-de-autor.html


OpenAI asegura que es imposible crear una Inteligencia Artificial como ChatGPT sin infringir 'los derechos de autor'

Artistas y autores de todo el mundo denuncian un "robo sistemático a escala masiva"
  • El "boom" de la IA ha sido tan grande y rápido que no estamos preparados para afrontar los problemas que surgen


8/01/2024 - 16:16

Tener que sacrificar algo para conseguir otra cosa es un principio que se puede aplicar a prácticamente cualquier aspecto de la vida, y es que como dice el dicho, quien algo quiere algo cuesta. En Inteligencia Artificial pasa lo mismo, o por lo menos eso es lo que aseguran desde la compañía líder de este sector, OpenAI.


La Inteligencia Artificial (IA) son programas informáticos que ejecutan operaciones y tareas comparables a las que realiza la mente humana en lo que se refiere al aprendizaje o uso de la lógica. Y al igual que una persona necesita ser formada y educada para poder hacer cualquier labor o acción, que va desde andar, leer, sumar hasta aprender a programar, las máquinas también lo necesitan.

De hecho, cada día que pasa la IA se hace más inteligente, ya que con el uso que hacen los usuarios de ella, sea para lo que sea, está aprendiendo y extendiendo sus conocimientos. Sin embargo, esta forma de aprender a chocado de frente con el principio de los derechos de autor, debido a que las compañías de IA no están dando el reconocimiento a los autores por entrenar a sus máquinas con sus obras, imágenes y demás archivos.

Fue el mes pasado cuando el New York Times denunció a OpenAI y a Microsoft por usar sus publicaciones para formar a ChatGPT, acusándoles de "uso ilícito" de su trabajo para crear sus productos. La compañía fundada por Sam Altman, no ha negado que usasen los artículos de este medio para entrenar a su IA, pero tal y como han alegado a la Comisión de Comunicaciones y Asuntos Digitales de la Cámara de los Loresde no hacerlo habría sido "imposible" crear una IA con el nivel que tiene ChatGPT.

"Dado que los derechos de autor cubren hoy prácticamente todo tipo de expresión humana -incluidas entradas de blog, fotografías, mensajes de foros, fragmentos de código de software y documentos gubernamentales-, sería imposible entrenar los principales modelos de IA actuales sin utilizar materiales protegidos por derechos de autor". defienden desde OpenAI.

La compañía aseguró que "limitar los datos de entrenamiento a libros y dibujos de dominio público creados hace más de un siglo podría dar lugar a un experimento interesante, pero no proporcionaría sistemas de IA que satisfagan las necesidades de los ciudadanos de hoy." defendiendo la necesidad de usar todos los contenidos disponibles sin importar a quién pertenecen.

OpenAI asegura que respeta "los derechos de los creadores y propietarios de contenidos", sin embargo cree que la ley de 'copyright' y derechos de autor no prohíbe "el entrenamiento", como se denomina la formación de la IA.

Con tantos y tan rápidos avances en IA, se están generando una cantidad de problemas al que ni compañías ni gobiernos están preparados o si quiera mentalizados para solucionar. OpenAI asegura que estos entrenamientos tan solo suponen un ejemplo entre mil otros, mientras que cada vez más autores, artistas y demás creadores denuncian que la IA se está apropiando de sus publicaciones y no están ganando nada a cambio, ejerciendo un "robo sistemático a escala masiva".

jueves, 7 de diciembre de 2023

Editores alegan que las empresas multimillonarias de IA copian en masa obras sin consentimiento

Publicado en blog Universo abierto
https://universoabierto.org/2023/12/07/los-editores-responden-a-los-comentarios-de-la-oficina-de-derechos-de-autor-que-las-empresas-multimillonarias-de-inteligencia-artificial-copian-en-masa-obras-sin-consentimiento/



Publishers Submit Reply Comments to Copyright Office in Artificial Intelligence Proceeding—AAP. (2023, diciembre 6).

Texto completo

Association of American Publishers (AAP) de Estados Unidos presentó los comentarios de respuesta en la investigación de la U.S. Copyright Office de EE. UU. sobre la intersección entre la ley de derechos de autor y la inteligencia artificial (IA) en respuesta a afirmaciones defectuosas e inexactas presentadas por algunas empresas tecnológicas y/o sus inversores en la primera ronda de comentarios, incluidas afirmaciones agotadas de que los derechos de los autores y editores son un obstáculo para la innovación.

AAP presentó una extensa contribución que incluye los siguientes puntos:

  1. Las grandes empresas tecnológicas piden al gobierno «cobertura contra la responsabilidad por su desconsideración calculada de la autoría, ignorando también que los titulares de derechos ya licencian rutinariamente sus obras para todo tipo de usos digitales».
  2. «En lugar de trabajar con los propietarios de derechos de autor, estas empresas buscan apropiarse de la literatura y otras propiedades intelectuales invaluables para su propio beneficio comercial y torcer la ley a su voluntad. El gobierno no debería tener ningún papel en otorgar ventajas comerciales a las empresas de IA a expensas de autores, editores y otros creadores».
  3. «Las empresas que se benefician de la comercialización de esta tecnología deberían estar obligadas no solo a compensar a los titulares de derechos por su ingestión pasada de obras con derechos de autor para entrenar sistemas Gen AI, sino también por su uso continuo y futuro de obras protegidas para entrenar nuevos sistemas Gen AI o ajustar sus productos existentes».
  4. «Los desarrolladores de Gen AI no son ‘start-ups’ que luchan y necesitan un impulso del gobierno. Cuentan entre sus inversores a algunas de las empresas tecnológicas más grandes y rentables del mundo y tienen un valor, en algunos casos, entre 80 y 90 mil millones de dólares. No hay absolutamente ninguna razón de política pública para crear inmunidades legales para tales empresas, que solo enfrentan el requisito razonable de buscar el consentimiento o licencias de los titulares de derechos cuyas obras utilizan para entrenar sus sistemas Gen AI».
  5. «Sería un grave error repetir los errores de política pasados que permitieron a las empresas tecnológicas alcanzar una dominancia de mercado poco saludable, casi de monopolio, hasta el punto de que los gobiernos han luchado por frenar su poder, a pesar de los intentos repetidos de moderar sus tácticas agresivas en el mercado».
  6. «La cuestión de la seguridad nacional es ciertamente motivo de profunda preocupación para todos los ciudadanos estadounidenses, especialmente cuando los actores malintencionados pueden utilizar la IA y los sistemas Gen AI para sembrar desinformación o información falsa que socave nuestras instituciones democráticas y cree otros riesgos para la seguridad nacional. Esta posibilidad señala la necesidad aún mayor de autores y editores que produzcan y difundan contenido de calidad verificado y verificado. Avanzar en la agenda tecnológica y económica de la nación no es un juego de suma cero, y no debería convertirse en una carrera hacia el fondo».
  7. «La transparencia es un requisito esencial. Es de interés público saber qué obras de autor se han ingerido y es una parte esencial de buscar un consentimiento adecuado tener esa información claramente registrada. Este requisito no es oneroso y se presta a una mayor innovación en el campo de las empresas de derechos digitales».
  8. «En ningún caso la Ley de Derechos de Autor permite el acceso no autorizado o la adquisición de obras con derechos de autor. El acceso legal a fuentes autorizadas es importante. No se permite a un ser humano reproducir y descargar ilegalmente 183,000 obras con derechos de autor (el número de títulos infractores estimados en el corpus ‘Books3’) para leer o aprender de ellas».

PAÍSES BAJOS: universidades van a la huelga por los recortes de austeridad

Publicado en University World News https://www.universityworldnews.com/post.php?story=20250306130546973 Las universidades planean una huelga...