Mostrando entradas con la etiqueta Demandas legales. Mostrar todas las entradas
Mostrando entradas con la etiqueta Demandas legales. Mostrar todas las entradas

domingo, 8 de diciembre de 2024

Internet Archive claudica

Publicado en Publisher Weekly
https://www.publishersweekly.com/pw/by-topic/industry-news/publisher-news/article/96657-internet-archive-copyright-case-ends-without-supreme-court-review.html?ref=the-geyser.com  


El caso de los derechos de autor de Internet Archive termina sin revisión del Tribunal Supremo 

Por Andrew Albanese 

05 de diciembre de 2024 

Tras más de cuatro años de litigios, el caso de derechos de autor sobre el escaneado y préstamo de libros de bibliotecas por parte de Internet Archive ha llegado finalmente a su fin después de que los responsables de Internet Archive decidieran no ejercer su última opción, un recurso ante el Tribunal Supremo. La fecha límite para presentar un recurso era el 3 de diciembre.

Como ya se ha dictado una sentencia por consentimiento para resolver las demandas del caso, el final oficial del litigio da lugar ahora a un pago monetario no revelado a los editores demandantes, que, según la Asociación de Editores Estadounidenses, cubrirá «sustancialmente» los honorarios de los abogados y los costes del litigio de los editores.

«Aunque estamos profundamente decepcionados con la opinión del Segundo Circuito en el caso Hachette contra Internet Archive, Internet Archive ha decidido no solicitar la revisión del Tribunal Supremo», reza un comunicado del 4 de diciembre publicado en el blog de Internet Archive. «Seguiremos cumpliendo el acuerdo de la Asociación de Editores Estadounidenses (AAP) de retirar libros del préstamo a petición de sus editores miembros». El post añadía que el AI continuaría trabajando con sus partidarios «para abogar por un futuro en el que las bibliotecas puedan comprar, poseer, prestar y preservar libros digitales.»

El final del caso se produce después de que un panel de tres jueces del Tribunal del Segundo Circuito emitiera en septiembre una decisión rápida e inequívoca que confirmaba por unanimidad la sentencia sumaria del juez John G. Koeltl del 24 de marzo de 2023, que consideraba que el programa de Internet Archive para escanear y prestar libros impresos de bibliotecas constituía una infracción de los derechos de autor.

«Este recurso plantea la siguiente cuestión: ¿Es un 'uso justo' que una organización sin ánimo de lucro escanee libros impresos protegidos por derechos de autor en su totalidad y distribuya esas copias digitales en línea, en su totalidad, de forma gratuita, con sujeción a una proporción de propiedad a préstamo de uno a uno entre sus copias impresas y las copias digitales que pone a disposición en un momento dado, todo ello sin autorización de los editores o autores titulares de los derechos de autor? Aplicando las disposiciones pertinentes de la Ley de Propiedad Intelectual, así como los precedentes vinculantes del Tribunal Supremo y del Segundo Circuito, llegamos a la conclusión de que la respuesta es no», dice la decisión de 64 páginas

La demanda por infracción fue presentada por primera vez el 1 de junio de 2020 en el Distrito Sur de Nueva York por Hachette, HarperCollins, Penguin Random House y Wiley, y organizada por la AAP. La demanda se refería concretamente a 127 obras de las editoriales demandantes -una muestra de las más de 33.000 obras de las editoriales demandantes que se dice que están incluidas en la biblioteca de Internet Archive-, mientras que las presentaciones judiciales iniciales sugerían que la colección de la AAP incluía más de un total de 3,6 millones de obras potencialmente sujetas a derechos de autor.

Los grupos de editores y autores llevaban tiempo preocupados por el programa de AI y el concepto de préstamo digital controlado. Pero la demanda no parecía inminente hasta marzo de 2020, cuando Internet Archive puso nerviosos a editores y autores al lanzar unilateralmente su ahora clausurada iniciativa Biblioteca Nacional de Emergencia, que eliminaba temporalmente las restricciones sobre la colección de la AI en respuesta al cierre pandémico de escuelas y bibliotecas.

En un comunicado, los representantes de la AAP celebraron lo que calificaron de victoria legal completa.

«Después de cinco años de litigio, estamos encantados de ver que este importante caso se resuelve con la opinión decisiva del Segundo Circuito, que no deja lugar a argumentos de que el 'préstamo digital controlado' es algo más que una infracción, ya sea realizada por actores comerciales o no comerciales, o dirigida a la autoría que es creativa o de hecho en la naturaleza», dijo la presidenta y CEO de la AAP, Maria Pallante, en un comunicado. «Como reconoció el Tribunal, el interés público -y el progreso del arte y la ciencia que es el mandato de la cláusula de derechos de autor de la Constitución- se sirve mejor cuando los autores y sus editores licenciatarios pueden decidir las condiciones en que ponen a disposición sus obras.»

Mientras tanto, las batallas legales de Internet Archive no han terminado. La AI se enfrenta a una demanda similar interpuesta por un grupo de grandes sellos discográficos por su programa «Great 78», que recopila grabaciones antiguas de 78 RPM del siglo XX, las digitaliza y las pone gratuitamente a disposición del público.

Aquí se puede consultar un archivo de la cobertura del caso por PW. 

**********************************

Internet Archive Copyright Case Ends Without Supreme Court Review

viernes, 29 de noviembre de 2024

Cómo Google pasó 15 años creando una cultura de ocultamiento

Publicado en The New York Times
https://www.nytimes.com/es/2024/11/21/espanol/negocios/google-mensajes-empleados-secretos.html


Cómo Google pasó 15 años creando una cultura de ocultamiento

Para evitar demandas antimonopolio, Google ordenó sistemáticamente a sus empleados que destruyeran los mensajes, evitaran ciertas palabras y copiaran a los abogados con la mayor frecuencia posible.

 

Por David Streitfeld

David Streitfeld ha escrito sobre Google desde que era una empresa emergente.

21 de noviembre de 2024

 

Read in English



A fines de 2008, mientras Google se enfrentaba al escrutinio antimonopolio por un acuerdo publicitario con su rival Yahoo y lidiaba con demandas por patentes, marcas registradas y derechos de autor, sus ejecutivos enviaron un memorando confidencial.

“Creemos que la información es buena”, les dijeron los ejecutivos a los empleados. Sin embargo, también afirmaron que los reguladores gubernamentales o los competidores podrían aprovecharse de las palabras que los trabajadores de Google se escribieran unos a otros de manera casual e irreflexiva.

Para minimizar las probabilidades de que un juicio pudiera sacar a la luz los comentarios que podrían ser incriminatorios, Google dijo que los empleados debían abstenerse de especulaciones y sarcasmos y “pensárselo dos veces” antes de escribirse unos a otros sobre “temas candentes”. “No hagas comentarios antes de conocer todos los hechos”, se les indicó.

También se modificó la tecnología. La configuración de la herramienta de mensajería instantánea de la empresa se cambió a “extraoficial”. Las frases incautas se borrarían al día siguiente.

El memorando se convirtió en la primera acción de una campaña de 15 años que fue emprendida por Google para convertir a la acción de borrar en la norma de sus comunicaciones internas. Mientras el gigante de internet almacenaba la información del mundo, creaba una cultura laboral que intentaba minimizar la suya propia. Entre las herramientas utilizadas destacan el uso del privilegio legal como un escudo y la imposición de restricciones a su propia tecnología, todo eso mientras advertía de manera continua que los comentarios irreflexivos podrían hundir incluso a la corporación más exitosa.

La manera en que Google desarrolló esta cultura de desconfianza se reveló a partir de cientos de documentos y pruebas, así como de testimonios de testigos, en tres juicios antimonopolio celebrados el año pasado contra la empresa de Silicon Valley. Los demandantes —Epic Games en un caso, y el Departamento de Justicia en los otros dos— intentaban demostrar un comportamiento monopolístico, lo que les obligó a analizar correos electrónicos, memorandos y mensajes instantáneos de cientos de ingenieros y ejecutivos de Google.

Las pruebas y testimonios demostraron que la empresa tomó numerosas medidas para mantener a raya las comunicaciones internas. Animaba a los empleados a poner “privilegio abogado-cliente” en los documentos y siempre añadir a un abogado de Google a la lista de destinatarios, aunque no hubiera temas legales de por medio y el abogado nunca respondiera.

Las empresas que se anticipan a un litigio están obligadas a conservar los documentos. Pero Google eximió a la mensajería instantánea de las retenciones legales automáticas. Si los trabajadores se veían implicados en un proceso legal, dependía de ellos activar su historial de chat. Por lo visto en los juicios, pocos lo hicieron.

Google no es ni mucho menos la única empresa que intenta mantener las nuevas formas de comunicación afuera de los juzgados. A medida que los mensajes instantáneos y de texto se han convertido en populares herramientas de oficina, las empresas y los reguladores se han enfrentado cada vez más sobre cómo pueden utilizarse en los tribunales.

Hace una generación, una conversación entre amigos o una llamada telefónica podía ser incriminatoria, pero las palabras se disolvían en el aire. Alguien podría recordarlas, pero siempre podían negarse. Tal vez los oyentes escucharon mal o entendieron mal.

A las empresas les gustaría que los mensajes instantáneos fueran tan efímeros como una conversación en la vida real. Un comentario hecho por mensaje de texto a un subordinado sobre las implicaciones de una fusión no es más que cháchara, argumentan. Pero los reguladores y los litigantes los consideran un juego limpio.

En agosto, la Comisión Federal de Comercio (FTC, por su sigla en inglés), que ha interpuesto una demanda para detener una fusión de supermercados de 25.000 millones de dólares entre Albertsons y Kroger, dijo que varios ejecutivos de Albertsons habían demostrado “una práctica generalizada” de borrar mensajes de texto relacionados con la empresa, incumpliendo la obligación legal de conservarlos.

Algunos de estos mensajes, según la FTC, sugerían que al menos un ejecutivo pensaba que los precios podrían aumentar como resultado de la fusión. El juez dijo que Albertsons “no tomó medidas razonables” para conservar los mensajes, pero no sancionó a la cadena. Albertsons declinó hacer comentarios.

En abril, la FTC dijo en una presentación legal como parte de su caso antimonopolio contra Amazon que los ejecutivos de la compañía habían utilizado Signal, la aplicación de mensajería que puede configurarse para que desaparezcan los mensajes, con el fin de discutir temas relacionados con la competencia, incluso después de que se les exigiera conservar todas las comunicaciones en el caso. Amazon dijo que las afirmaciones de que había destruido información eran “infundadas e irresponsables”.
Sin embargo, Google ha sido la empresa que ha enfrentado las mayores críticas por sus acciones porque los jueces de los tres casos antimonopolio han reprendido a la compañía por sus prácticas de comunicación.

El juez James Donato del Tribunal para el Distrito Norte de California, quien presidió el caso Epic, dijo que había “una arraigada cultura sistémica de supresión de pruebas relevantes dentro de Google” y que el comportamiento de la empresa era “un ataque frontal a la administración imparcial de justicia”. Añadió que, tras el juicio, iba a “llegar al fondo” de quién era el responsable en Google de permitir este comportamiento. El juez Donato declinó hacer comentarios.

La jueza Leonie Brinkema, del Tribunal para el Distrito Este de Virginia, quien supervisa el caso antimonopolio de Google relacionado con la tecnología publicitaria, dijo en una audiencia celebrada en agosto que las políticas de conservación de documentos de la empresa “no eran la manera en que debería funcionar una entidad corporativa responsable”. Y añadió: “Es probable que se hayan destruido muchísimas pruebas”.

El Departamento de Justicia ha pedido a la jueza Brinkema que emita sanciones, lo que supondría una presunción de que el material desaparecido era desfavorable para Google en los temas de los casos llevados a juicio, incluido el poder de monopolio y si su conducta fue anticompetitiva. Los alegatos finales del caso están previstos para el lunes.

En un comunicado, Google dijo tomarse “muy en serio nuestra obligación de conservar y presentar los documentos pertinentes. Durante años hemos respondido a consultas y litigios, y educamos a nuestros empleados sobre el privilegio legal”. La empresa dijo que había proporcionado “millones de documentos” solo en los casos del Departamento de Justicia.

Desde el punto de vista de Google, era la Marie Kondo de las empresas, limitándose a poner en orden sus registros y archivos. Pero lo hizo de manera tan exhaustiva y obsesiva que creó la ilusión de engaño que tanto intentaba disipar, dijo Agnieszka McPeak, profesora de la Facultad de Derecho de la Universidad Gonzaga, quien ha escrito sobre la destrucción de pruebas.

“Google tenía una política corporativa vertical de ‘No guardes nada que pueda hacernos quedar mal’”, dijo. “Y eso hace que Google quede mal. Si no tienen nada que ocultar, piensa la gente, ¿por qué actúan como si lo tuvieran?”.

La larga sombra de Microsoft

Google se fundó en septiembre de 1998, pocos meses después de que la empresa tecnológica más dominante de la época —Microsoft— fuera demandada por el Departamento de Justicia por violación de las leyes antimonopolio. Para demostrar que Microsoft monopolizaba de manera ilegal el mercado de los navegadores web, el Departamento de Justicia no tuvo que ir muy lejos para encontrar memorandos condenatorios.

“Tenemos que continuar nuestra yihad el año que viene”, escribió un vicepresidente de la empresa al presidente ejecutivo de Microsoft, Bill Gates, en un memorando. Otro ejecutivo, tratando de persuadir a Apple para que eliminara una función, dijo: “Queremos que acuchilles al bebé”.

Microsoft perdió el caso, aunque el veredicto fue anulado parcialmente en una apelación. Sin embargo, fue una experiencia lo bastante cercana a la muerte como para que la siguiente generación de empresas tecnológicas, incluida Google, desconfiaran tanto de los documentos como de los comentarios.

El problema fue que la tecnología facilitó enormemente la producción y conservación de ambos. Google producía 13 veces más correos electrónicos que el promedio de empresas por empleado antes de cumplir una década, según declaró Kent Walker, el principal abogado de Google, en el juicio de Epic. Dijo que Google se sentía desbordada, y la empresa tenía claro que las cosas solo empeorarían si no se hacían cambios.

El memorando de 2008 que decía que los mensajes de chat se purgarían automáticamente estaba firmado por Walker y Bill Coughran, un ejecutivo de ingeniería. Señalaban que Google tenía “una cultura de correo electrónico y mensajería instantánea”. Sus herramientas de mensajería instantánea, primero llamadas Talk, más tarde Hangouts y después Chat, fueron adoptadas rápidamente por los empleados.

Chat era el lugar en el que los ingenieros podían ser un poco espontáneos, de manera segura. Como escribió un empleado en una conversación que se divulgó como prueba en un juzgado, la necesidad de ser cauteloso “hace que la comunicación escrita sea menos interesante, a veces incluso menos útil. Pero por eso tenemos chats extraoficiales”.

Google, como muchas otras empresas, tiene que hacer frente a tantos pleitos que algunos empleados están vinculados a varios procesos al mismo tiempo. Algunos pueden involucrados en litigios durante toda su carrera.

Lauren Moskowitz, abogada de Epic, preguntó a Walker durante su testimonio en el caso cómo funcionaba realmente poner a los empleados al mando del proceso.

“Usted esperaba que sus empleados, cientos, miles de empleados, dejaran de hacer lo que estaban haciendo por cada mensaje instantáneo que enviaban o recibían cada día, y analizaran una lista de temas con algún tipo de retención legal, para decidir si debían tomar una medida para cambiar una configuración predeterminada en su chat antes de llevar a cabo el resto de sus actividades”, dijo Moskowitz.

Walker respondió que la política había sido “razonable en su momento”.

A medida que Google crecía, su vocabulario se reducía. En un memorando de 2011 titulado “Conceptos básicos antimonopolio para el equipo de búsqueda”, la empresa recomendaba evitar “metáforas que impliquen guerras o deportes, ganar o perder”, y rechazar las referencias a “mercados”, “cuota de mercado” o “dominio”.

En un tutorial posterior para los nuevos empleados, Google dijo que incluso una frase tan benigna como “poner productos en manos de nuevos clientes” debería evitarse porque “puede interpretarse como expresión de la intención de negar a los consumidores la posibilidad de elegir”.

Si utilizar las palabras adecuadas y borrar los mensajes no mantenía a Google afuera del juzgado, concluyó la empresa, invocar a los abogados sí lo haría.

En el caso Epic, el demandante alegó que las numerosas evocaciones de Google del privilegio abogado-cliente eran meramente para aparentar, para mantener los documentos fuera del juzgado. Sundar Pichai, director ejecutivo de Google, escribió en un correo electrónico de 2018 a otro ejecutivo: “Privilegio del cliente abogado, confidencial, Kent, por favor, un consejo”, refiriéndose a Walker. El correo electrónico, sobre un asunto no legal, fue retenido por Google y despojado de su privilegio solo después de que Epic lo exigió en corte.

Se pidió a Walker que explicara al juez el comportamiento de Google. Negó que existiera “una cultura de ocultamiento”, pero dijo que uno de los problemas era que los empleados no estaban seguros del significado de ciertas palabras.

“Piensan que la palabra ‘privilegio’ es similar a ‘confidencial’”, dijo.
En el juicio de Epic salió a la luz un mensaje en el que un abogado de Google calificaba de “falso privilegio” la práctica de copiar a los abogados en los documentos y parecía bastante divertido por eso. Walker dijo sentirse “decepcionado” y “sorprendido” al oír ese término.

El jurado del caso falló a favor de Epic en los 11 cargos en diciembre.

Google declinó que Pichai y Walker hicieran comentarios. El mes pasado, tres grupos de defensa, liderados por el American Economic Liberties Project, pidieron que Walker fuera investigado por el Colegio de Abogados del Estado de California por entrenar a Google para “participar en la destrucción generalizada e ilegal” de documentos relevantes para los juicios federales.

‘Lo que pasa en Las Vegas’

En septiembre de 2023, cuando Google iba a juicio en un caso antimonopolio sobre su dominio en las búsquedas de internet, el Departamento de Justicia afirmó que la empresa había retenido decenas de miles de documentos, alegando que eran confidenciales. Cuando los documentos fueron revisados por el tribunal, se consideró que, después de todo, no eran confidenciales.

El juez Amit P. Mehta, del Tribunal de Distrito de Columbia de Estados Unidos, escribió: “El tribunal se siente sorprendido por los extremos a los que Google llega para evitar crear un rastro documental para los reguladores y los litigantes”. Señaló que Google había aprendido claramente la lección de Microsoft: había formado eficazmente a sus empleados para que no crearan “malas” pruebas.

Mehta dijo que, en última instancia, no importaba: en agosto, declaró a Google culpable de monopolio. Sin embargo, dijo que no creía que la empresa se estuviera comportando bien.

“Cualquier empresa que haga recaer en sus empleados la responsabilidad de identificar y conservar las pruebas pertinentes lo hace por su cuenta y riesgo”, escribió, añadiendo que Google podría no tener tanta suerte para evitar sanciones en el próximo caso.

El siguiente caso llegó en septiembre, cuando el Departamento de Justicia argumentó en la sala del juzgado de Brinkema, en Virginia, que Google había creado un monopolio en la muy rentable tecnología de anuncios en línea.

Las pruebas de los casos demostraron que los empleados de Google habían aprendido a ser un poco paranoicos por el bien de la empresa y de sus propias carreras. Habla en la oscuridad, insistían una y otra vez, en lugar de hacerlo en la luz.

“¿Cómo apagamos el historial?”, escribió Adam Juda, vicepresidente de gestión de productos, en un chat de 2020. “Yo no hago historial 🙂”.

A veces, los ejecutivos estaban tan preocupados por dejar un registro que por defecto optaban por una tecnología obsoleta.

En 2017, Robert Kyncl, entonces director comercial de YouTube, filial de Google, preguntó a su jefa, Susan Wojcicki, si tenía un fax en casa. Kyncl explicó que tenía un “documento privilegiado” y que “solo no quería enviar correos electrónicos”. Wojcicki, quien falleció en agosto, no tenía fax.

Si los empleados querían llevar un registro electrónico, eran reprendidos. En un chat de grupo de 2021, un empleado preguntó: “¿Puedo guardar el historial aquí? Necesito guardar algunos datos para la memoria”.

No está bien, dijo Danielle Romain, vicepresidenta de Trust, un equipo de Google que busca soluciones que mejoren la privacidad y la confianza de los usuarios. “La discusión que inició este hilo se adentra en territorio legal y potencialmente competitivo, que me gustaría ser consciente de tener bajo privilegio”, dijo. “Me gustaría ceñirme a la opción por defecto de historial apagado”.

Julia Tarver Wood, abogada del Departamento de Justicia, dijo en una audiencia celebrada en agosto en el caso de la tecnología publicitaria que los empleados de Google “se referían a estos chats extraoficiales como ‘Las Vegas’. Lo que pasa en Las Vegas se queda en Las Vegas”.

Google dijo que hizo todo lo posible por facilitar al gobierno los documentos que pudo y que, en cualquier caso, el Departamento de Justicia no demostró que las conversaciones eliminadas fueran cruciales para su caso. El Departamento de Justicia dijo que no podía hacerlo porque el material había sido borrado.

Los reguladores han subrayado recientemente que no hay “Vegas” en los chats. Este año, la FTC y la división antimonopolio del Departamento de Justicia lo dejaron “meridianamente claro” en un memorando de aplicación: las comunicaciones a través de aplicaciones de mensajería son documentos y deben conservarse si hay amenaza de litigio.

El año pasado, Google cambió sus procedimientos. Por defecto, pasó a guardarlo todo, incluidos los chats. Los empleados en espera de juicio ya no pueden desactivar el historial.

Sin embargo, los viejos hábitos son difíciles de cambiar. En un chat, los empleados respondieron a la noticia formando un grupo para comunicarse en secreto por WhatsApp, la aplicación de mensajería segura de Meta

jueves, 14 de noviembre de 2024

ChatGPT vs Derechos de autor: ¿Cómo va el marcador NYT vs OpenAI?

Publicado en Xataka
https://www.xataka.com/robotica-e-ia/openai-gana-primera-batalla-copyright-chatgpt-no-guerra-acaba-darle-enorme-ventaja-al-new-york-times



- Las demandas por violación de derechos de autor se acumulan en OpenAI
  • - De momento han logrado salir indemnes de uno de esos casos, pero organizaciones como The New York Times están al acecho
  • - El uso de esos contenidos sin licenciar puede acabar metiendo a
    empresas como OpenAI o Google en un problema muy importante
13 Noviembre 2024
Javier Pastor

¿Puede aprovecharse la IA de los contenidos que están públicamente
disponibles en internet? ¿Y si esos contenidos están protegidos por los
derechos de autor? La respuesta a la primera pregunta es clara: 
lo está
haciendo
. La cosa es más delicada para la segunda, pero todo apunta
a que las empresas de IA están usando 
también contenidos con
copyright
 para entrenar sus modelos. Ahora queda saber si eso tendrá
consecuencias.

Periódicos que acusan a ChatGPT de robarles contenidos.
Raw Story y Alternet son dos publicaciones online que como indican 
en
Reuters
 demandaron a OpenAI el pasado mes de febrero.
Según la demanda, la empresa usó miles de sus artículos
sin permiso para entrenar su popular chatbot, ChatGPT.
No solo eso: acusan a OpenAI de reproducir sus contenidos
con copyright cuando se le pedían dichos contenidos a su modelo de IA.

OpenAI gana una batalla. De momento OpenAI puede respirar
tranquila. En Estados Unidos, una jueza federal de Nueva York,
Colleen McMahon, ha indicado 
en su sentencia que estos medios
de noticias no se han visto perjudicados lo suficiente para apoyar
su demanda. No obstante, les dio la oportunidad de apelar pero
dejó claro que era "escéptica" con respecto a las posibilidades de que
dichos medios pudieran "alegar un perjuicio demostrable".

Pero no la guerra. El caso es el último de una ristra de demandas por
violación de copyright que sobre todo organismos y entidades de la
industria editorial, literaria, musical o artística están registrando contra
 las empresas de inteligencia artificial.

Demandas por doquier. En los últimos meses hemos visto demandas
como la de Getty a Stable Diffusion, la que afecta a GitHub Copilot y
otras amenazas legales como las de la The Author's Guild. David Holz,
fundador de Midjourney, admitía que al entrenar su modelo
"No hay realmente una forma de coger cien  millones de imágenes
y saber de  dónde provienen. Estaría bien que las  imágenes tuvieran metadatos  incrustados sobre el propietario del  copyright o algo así.
Pero eso no  existe; no hay ningún registro".

The New York Times está al acecho. Esas dos publicaciones se unen
a demandas anteriores de medios y grupos editoriales especialmente
poderosos. En febrero de 2023 The Wall Street Journal y CNN
ya mostraron su preocupación respecto al uso de sus contenidos
en modelos de IA.

Aún más sonada fue la demanda de The New York Times, que acusó a Microsoft y OpenAI de violación de copyright por este mismo tipo
de actividad. Según dicha demanda, millones de artículos
publicados por NYT fueron usado para entrenar modelos de IA.

En abril de 2024 otros ocho diarios demandaron a esas mismas
empresas
 por exactamente los mismos motivos.

Transparencia cero. El secretismo relativo a los conjuntos de datos
usados para el entrenamiento es total tanto en OpenAI como en sus
competidoras. No dan apenas detalles sobre esos contenidos pero
en los últimos tiempos sí han hecho declaraciones que dejan claro
que aprovechan todo lo que pueden.

Pero es que necesitan ese material, argumentan en OpenAI
Google explicó que puede "recoger información públicamente disponible
online" para el entrenamiento de sus modelos de IA, Meta lleva tiempo usando todo lo que sus usuarios publican en Facebook e Instagram, y
OpenAI llegó a decir ante el Parlamento británico que "sería imposible
entrenar los principales modelos de IA de hoy en día sin usar materiales
con copyright".

Si quieres usar mis contenidos, págame
. Las empresas de IA están

empezando a darse cuenta del enorme riesgo al que se están
exponiendo, y algunas comienzan a cubrirse las espaldas con un
método sencillo: acuerdos económicos. Google licenció contenidos 
de Reddit, y OpenAI ha llegado también a algunos acuerdos
económicos con grupos editoriales como Prisa (El País) y Le Monde.

Perplexity y ChatGPT Search tienen un problema mayor.

Los últimos casos de esta peligrosa situación los estamos viendo en los
buscadores con IA. Perplexity y ChatGPT Search son capaces 
de navegar por internet, coger un puñado de fuentes y contestar a
nuestras preguntas resumiendo la información procedente de esas
fuentes. Eso está muy bien para el usuario, que logra la respuesta a lo
que quiere de forma clara, pero estos "motores de búsqueda" hacen así
innecesario que la mayoría de las veces el usuario haga clic en el
enlace original. Los creadores de contenido, por tanto, pierden tráfico
que ganan esos modelos de IA, lo que agrava aún más la situación.

En Xataka | Las empresas de IA están jugando con fuego con
los contenidos con derechos de autor. Y Perplexity está a punto
de quemarse

viernes, 25 de octubre de 2024

U.S.A.: The Wall Street Journal y The New York Post demandan a IA Perplexity

Publicado en La Jornada
https://www.jornada.com.mx/noticia/2024/10/21/economia/diarios-estadunidenses-demandan-a-compania-de-ia-perplexity-8918


Diarios estadunidenses demandan a compañía de IA Perplexity

Afp
21 de octubre de 2024 

Nueva York. Los periódicos The Wall Street Journal The New York Post interpusieron este lunes una demanda ante un tribunal estadunidense contra la empresa de inteligencia artificial Perplexity AI, alegando una infracción masiva de sus derechos de autor y marcas registradas.

Perplexity es una de las compañías emergentes más prometedoras de Silicon Valley, cuyo motor de búsqueda basado en inteligencia artificial (IA) se menciona a menudo como posible rival de Google.

La demanda ante un tribunal federal de Nueva York acusa a Perplexity de copiar y reproducir ilegalmente contenidos protegidos por derechos de autor creados por The Wall Street Journal y The New York Post para alimentar su “motor de respuestas” impulsado por la IA.

Funcionamiento

Perplexity.ai es una plataforma que contesta preguntas conocida por su interfaz minimalista y conversacional.

A diferencia de ChatGPT o Claude, la herramienta de Perplexity ofrece soluciones actualizadas que a menudo incluyen enlaces a las fuentes, lo que permite a los usuarios verificar la información.

Además, a diferencia de un motor de búsqueda clásico, Perplexity ofrece respuestas directamente en su página, lo que hace innecesario que los usuarios hagan clic en el sitio web de origen.

Aprovechamiento indebido

Según la denuncia, esto constituye un “aprovechamiento indebido” de contenidos protegidos, que permite a la empresa desviar lectores e ingresos del The Wall Street Journal y The New York Post.

“A diferencia del modelo de negocio de un motor de búsqueda tradicional en internet, el modelo de negocio de Perplexity no dirige el negocio hacia los creadores de contenidos. Al contrario, se apropia de las oportunidades de monetización”, apunta la acción legal.

Perplexity, que cuenta con el respaldo del multimillonario Jeff Bezos y del gigante de los semiconductores esenciales para la IA Nvidia, no respondió de inmediato a una solicitud de comentarios.

En la demanda, también se acusa a Perplexity de dañar las marcas de ambas publicaciones atribuyendo información falsa a sus redacciones.

Los medios solicitan medidas cautelares y una indemnización de hasta 150 mil dólares por cada infracción.

Los demandantes también exigen la destrucción de cualquier base de datos que contenga sus trabajos protegidos por derechos de autor.

Precedentes

La acción sigue a acusaciones similares de The New York Times, que ha enviado una carta de cese y desistimiento a Perplexity, un primer paso hacia una demanda legal.

En un caso similar, ese diario neoyorquino presentó el año pasado una denuncia contra OpenAI, acusando al creador de ChatGPT de robar contenidos para entrenar su potente IA con material protegido.

News Corp, propietaria de The Wall Street Journal y The New York Post, firmó un acuerdo de contenidos con OpenAI y en la demanda alega que Perplexity hizo caso omiso de las peticiones para establecer una asociación de ese tipo.

No pueden hacer todo Internet Archive y Wayback Machine / Por qué está desapareciendo para siempre una parte importante de la historia de internet (y qué se está haciendo para evitarlo)

Publicado en BBC News
https://www.bbc.com/mundo/articles/cpw5djwlpjpo




Por qué está desapareciendo para siempre una parte importante de la historia de internet (y qué se está haciendo para evitarlo)

  • Chris Stokel-Walker
  • Título del autor, BBC Future
  • 22 octubre 2024

Gracias a los fragmentos de papiro, mosaicos y tablillas de cera que han sobrevivido, es posible saber qué desayunaban los pompeyanos hace 2.000 años.

Si entiendes suficiente latín medieval, puedes saber cuánto ganado se criaba en las granjas de Northumberland en la Inglaterra del siglo XI, gracias al “Domesday Book”, el documento más antiguo que se conserva en los Archivos Nacionales de Reino Unido. Y, a través de cartas y novelas, se puede conocer la vida social de la época victoriana.

Pero, para los historiadores del futuro, podría llegar a ser difícil entender plenamente cómo vivíamos nuestras vidas a principios del siglo XXI. Esto se debe a que se podría borrar la historia de cómo vivimos nuestras vidas digitalmente y a la falta de esfuerzos oficiales para archivar la información del mundo tal como se produce en estos días.

Sin embargo, un grupo informal de organizaciones está haciendo frente a las fuerzas de la entropía digital, muchas de ellas operadas por voluntarios con poco apoyo institucional. Nada ejemplifica más la lucha por salvar la web que el Internet Archive, una organización estadounidense sin fines de lucro con sede en San Francisco, fundada en 1996 como un proyecto del pionero Brewster Kahle.

 La organización está embarcada en lo que puede ser el proyecto de archivo digital más ambicioso de todos los tiempos: ha reunido 866.000 millones de páginas web, 44 millones de libros, 10,6 millones de videos de películas y programas de televisión y más.

Alojadas en un puñado de centros de datos repartidos por todo el mundo, las colecciones del Internet Archive y de unos pocos grupos similares son lo único que se interpone en el camino del olvido digital.

"Los riesgos son múltiples. No sólo que la tecnología pueda fallar (eso sin duda sucede). Pero lo que es más importante, que las instituciones fallen o las empresas quiebren. Las organizaciones de noticias son absorbidas por otras organizaciones de noticias o, cada vez con más frecuencia, son cerradas", dice Mark Graham, director de la Wayback Machine, del Internet Archive, una herramienta que recopila y almacena instantáneas de sitios web para la posteridad.

Hay numerosos incentivos para poner contenido en línea, dice, pero hay poco que impulse a las empresas a mantenerlo a largo plazo.

A pesar de los logros del Internet Archive hasta ahora, la organización y otras similares se enfrentan a amenazas financieras, desafíos técnicos, ciberataques y batallas legales de empresas a las que no les gusta la idea de tener copias de su propiedad intelectual disponibles gratuitamente.

Y como muestran recientes derrotas judiciales, el proyecto de salvar internet podría ser tan fugaz como el contenido que intenta proteger.

"Cada vez más de nuestros esfuerzos intelectuales, más de nuestro entretenimiento, más de nuestras noticias y más de nuestras conversaciones existen sólo en un entorno digital", dice Graham. "Ese entorno es intrínsecamente frágil".

Una cuarta parte de todas las páginas web que existían en algún momento entre 2013 y 2023 ya no existen. Así lo indica un estudio reciente del Pew Research Center, un grupo de expertos con sede en Washington DC, que dio la voz de alarma sobre la desaparición de nuestra historia digital.

Los investigadores descubrieron que el problema es más agudo cuanto más antigua es una página web: el 38% de las páginas web a las que Pew intentó acceder que existían en 2013 ya no funcionan. Pero también es un problema para las publicaciones más recientes. Alrededor del 8% de las páginas web publicadas en algún momento de 2023 desaparecieron en octubre de ese mismo año.

Esto no es solo una preocupación para los aficionados a la historia y los obsesivos de internet. Según el estudio, uno de cada cinco sitios web gubernamentales contiene al menos un enlace roto. Pew descubrió que más de la mitad de los artículos de Wikipedia tienen un enlace roto en su sección de referencias, lo que significa que la evidencia que respalda la información de la enciclopedia en línea se está desintegrando lentamente.

Pero gracias al trabajo del Internet Archive, no todos esos enlaces inactivos son totalmente inaccesibles. Durante décadas, el proyecto de la Wayback Machine del Internet Archive ha enviado ejércitos de robots a recorrer los laberintos de internet. Estos sistemas descargan copias funcionales de sitios web a medida que cambian con el tiempo y las ponen a disposición del público de forma gratuita.

"Cuando analizamos cuántas de esas URL estaban disponibles en la Wayback Machine, descubrimos que dos tercios de ellas lo estaban de alguna manera", afirma. En ese sentido, el Internet Archive está haciendo lo que se propuso: está guardando registros de la sociedad en línea para la posteridad.

Algunas otras organizaciones trabajan en proyectos similares. La Biblioteca del Congreso de Estados Unidos, por ejemplo, conserva los sitios web del gobierno, los sitios de los miembros del Congreso y una colección de sitios de noticias estadounidenses. La Biblioteca del Congreso también conservó una copia de cada uno de los tuits enviados desde la fundación de Twitter (ahora conocido como X), hasta que el proyecto se cerró en 2017.

Otros gobiernos llevan a cabo sus propias iniciativas. El Archivo Web de Reino Unido realiza un rastreo anual de sitios web con nombres de dominio .UK, capturando una instantánea de la internet británica al menos una vez al año.

Pero el alcance de estos proyectos es limitado, mientras que el Internet Archive apunta a un enfoque integral. Dependiendo de lo que esté buscando, la colección del Internet Archive es tan completa que a veces puede parecer un registro funcionalmente completo de la web.

El éxito genera complacencia

Los documentos de acceso público del archivo ayudan a mantener registros de nuestras vidas en la era actual. Se ha convertido en una práctica habitual en Wikipedia citar copias de sitios web de la Wayback Machine del Internet Archive, en lugar de los sitios web originales.

La organización también preserva una vasta colección de medios que data de antes de la era digital. Libros, revistas y sitios web citan las copias digitales escaneadas del Internet Archive de libros que no están disponibles en bibliotecas físicas. Incluso actúa como una herramienta de preservación para el público; cualquiera puede cargar videos, sitios web y prácticamente cualquier otra cosa a los servidores de la organización.

Entre las principales colecciones que Wayback Machine ha rescatado del basurero digital se encuentran registros profundos de sitios web creados en GeoCities, un servicio de alojamiento web personal que ya no existe. Mucho antes de las redes sociales, GeoCities fue una de las primeras plataformas que facilitó a cualquiera la creación de su propio sitio web. Los historiadores consideran a GeoCities como uno de los capítulos más importantes de los primeros días de la World Wide Web; sin los esfuerzos del Internet Archive, la mayoría de sus sitios web se habrían perdido.

"Cada pocos años aparece una nueva plataforma y luego las fuerzas económicas de repente colapsan", dice Andrew Jackson, arquitecto técnico del registro de preservación de la Coalición para la Preservarción Digital, un grupo de defensa y organización benéfica con sede en Reino Unido que asesora sobre cómo preservar los archivos digitales en línea del mundo.

El sitio web de noticias tecnológicas CNET enfrentó una reacción negativa en 2023 después de que se informara que la empresa había eliminado decenas de miles de artículos, lo que equivale a décadas de historia perdida. Entre las respuestas de CNET se encontraba la promesa de que todos sus artículos eliminados se habían conservado en la Wayback Machine. Muchos críticos argumentaron que la empresa estaba dando por sentado el Internet Archive, delegando sus propias responsabilidades de archivo.

"Aunque Google y otros motores de búsqueda incentivan activamente que mantengamos URL estables, técnicamente es bastante difícil hacerlo", dice Jackson. "Cada vez que una nueva empresa renueva su sitio web, tiene que calcular cuántas de sus nuevas URL intentará mantener a lo largo del tiempo".

En este punto vale la pena recordar qué es el Internet Archive: una organización sin fines de lucro, financiada por donaciones de fundaciones benéficas. Se trata de un proyecto interminable con costos que crecen exponencialmente. El Internet Archive se ofreció como voluntario para asumir el papel de la biblioteca líder mundial para nuestras vidas digitales. A medida que la web se acerca a su cuarta década, este proyecto se ha convertido en un pilar fundamental de internet.

Pero a medida que aumenta nuestra dependencia del Internet Archive, también lo hacen las amenazas que socavan sus esfuerzos.

Amenazas

La semana pasada, la organización anunció una importante asociación con Google, en la que el gigante tecnológico incluirá enlaces a la Wayback Machine en los resultados de búsqueda, aunque no se publicaron detalles financieros del acuerdo.

Sin embargo, otras noticias recientes demuestran que el proyecto sigue siendo frágil. Esa vulnerabilidad quedó al descubierto en un caso judicial contra el Internet Archive por parte de cuatro grandes editoriales de libros, que alegaron que la práctica de escanear libros físicos y prestar copias digitales viola la ley de derechos de autor en EE.UU.

Antes de la pandemia, el Internet Archive solo prestaba una copia digital a la vez de cada libro físico de su colección. Pero durante los cierres por covid, la organización levantó esa restricción, permitiendo a los usuarios tomar prestadas copias digitales ilimitadas de libros para intentar compensar el cierre de las bibliotecas físicas.

Un tribunal estadounidense dictaminó que esa práctica era ilegal en 2023 y, a principios de septiembre, la apelación del Internet Archive contra esa decisión fue rechazada. La organización dijo anteriormente que acordó pagar a un grupo comercial de la industria editorial una suma no revelada en relación con el caso.

El Internet Archive se enfrenta a otro proceso judicial con las discográficas por digitalizar discos que podría costarle US$400 millones si pierde. Es una cantidad que podría poner en peligro la supervivencia de la organización sin ánimo de lucro.

Las batallas legales existenciales no son los únicos peligros que amenazan al mundo de la preservación digital. El Archivo Web de Reino Unido de la Biblioteca Británica enfrentó un ciberataque que dejó fuera de línea sus sistemas digitales en octubre de 2023. Casi un año después, este archivo todavía está lidiando con las consecuencias. El acceso en línea a gran parte de su colección sigue sin estar disponible.

En mayo de 2024, el Internet Archive anunció que se encontraba en medio de un gran ataque de denegación de servicio. En un ataque de este tipo, los vándalos u otros actores maliciosos establecen sistemas automatizados para bombardear sitios web con visitas, intentando sacarlos de línea sobrecargando sus servidores. En su punto máximo, se producían decenas de miles de visitas simultáneas cada segundo. Los servicios, incluida la Wayback Machine, dejaron de funcionar. Esto significó que el ritmo regular del archivo se interrumpió por un tiempo y, como resultado, podrían quedar lagunas permanentes en el registro histórico.

El Internet Archive "fue creado por una sola persona y se ha convertido en una especie de eje", dice Jackson. "También parece un punto único de fallo potencial. Aunque es mucho más sofisticado que un grupo de voluntarios, es una institución en una región, bajo un marco legal".

La organización comparte estas preocupaciones. Si el trabajo del Internet Archive se detuviera y "ese vacío no se llenara de inmediato, entonces gran parte de lo que está disponible actualmente en la web pública estaría en riesgo", dice Graham.

Tiene claro que el Internet Archive no se apartará de sus responsabilidades en un futuro próximo, pero el proyecto puede beneficiarse de ayuda externa. "Hay oportunidades para que muchos otros contribuyan de diversas maneras", dice.

Responsabilidades compartidas, prioridades divididas

Sin un esfuerzo formal para organizar los intentos para preservar internet, esto queda en manos de aficionados, voluntarios y unos pocos organismos no oficiales que generalmente operan de forma independiente.

"Tiene sentido que la respuesta del archivo esté descentralizada", dice Mar Hicks, historiador de tecnología de la Universidad de Virginia, en EE.UU. "Pero uno de los problemas es la variedad de prioridades".

Hicks señala que una de las primeras cosas que cualquier archivista considerará al crear un archivo es qué priorizar. "Y cuando está todo tan descentralizado, las prioridades van a ser muy diferentes", dice Hicks.

La preocupación sobre un enfoque tan ad hoc y descentralizado es que es posible que haya superposiciones, lo que significa que se desperdician valiosos recursos de archivo obteniendo copias duplicadas o triplicadas de los sitios web más populares, todo mientras se pasan por alto algunas áreas que pueden tener importancia histórica porque caen entre las responsabilidades de diferentes grupos.

"Los archiveros dirán que estos problemas existen desde hace mucho tiempo", dice Hicks. Pero se ven exacerbados por el nivel de material que se produce en nuestro mundo digital. Se envían casi 1.000 millones de correos electrónicos todos los días. YouTube informa que se publican en la plataforma más de 500 horas de contenido de video cada minuto.

Internet es "esencialmente una manguera de información y material", dice Hicks. "No tiene sentido tratar de capturar todo lo que sale de la manguera. Eso no tendría sentido desde el punto de vista de los recursos".

Para Hicks, debe haber algún tipo de prioridad sobre lo que se está salvando de las huellas digitales de nuestra generación. De lo contrario, corremos el riesgo de que el rápido aumento de los costes haga a un lado los esfuerzos por salvar la historia de la web, por no hablar de los océanos de archivos digitales que se encuentran fuera de línea.

"Si hay que conservarlo todo, resulta muy caro", afirma Jackson, de la Coalisión por la Preservación Digital. "A menudo hay contenidos más antiguos o menos atractivos que se pierden en el camino", afirma.

"No estamos conservando bien el mundo no occidental", admite Jackson. "Ahora hay lagunas en torno a la incompletitud en diferentes ámbitos culturales".

Y aunque muchas de esas organizaciones trabajan para luchar contra sus sesgos y prejuicios, a menudo se les deja que carguen con el peso de la tarea mientras los gobiernos y las empresas que gestionan las plataformas y los sitios web se quedan de brazos cruzados. "Los grupos independientes de personas, que simplemente se preocupan por ello y están dispuestas a dedicar su tiempo libre a ello, tienen más recursos y están más cualificados que las instituciones que son formalmente responsables", afirma Jackson.

Según Hicks, hay un vacío que pocas personas, salvo un puñado de archivistas obsesivos, están llenando. "No está claro de quién es la responsabilidad de archivar [internet] o a qué interés serviría", dice.

Una cosa sí está clara, señala Hicks: todos deberíamos contribuir para apoyar la lucha por la preservación. "Desde una perspectiva muy pragmática, si no pagamos a estas personas y nos aseguramos de que estos archivos estén financiados, no existirán en el futuro, se desintegrarán y entonces el objetivo de recopilarlos se habrá ido por la ventana", dice Hicks.

"Porque el objetivo del archivo no es simplemente recopilar, sino que persista indefinidamente en el futuro".

Este artículo fue publicado en BBC Future. Haz clic aquí para leer la versión oginal (en inglés). 

  

"¡Quemadlo con fuego!" - El uso de ChatGPT «polariza» a los revisores

Publicado en THE Times Higher Education https://www.timeshighereducation.com/news/corrupting-chatgpt-use-polarises-peer-reviewers   Quemadlo...