jueves, 14 de noviembre de 2024

ChatGPT vs Derechos de autor: ¿Cómo va el marcador NYT vs OpenAI?

Publicado en Xataka
https://www.xataka.com/robotica-e-ia/openai-gana-primera-batalla-copyright-chatgpt-no-guerra-acaba-darle-enorme-ventaja-al-new-york-times



- Las demandas por violación de derechos de autor se acumulan en OpenAI
  • - De momento han logrado salir indemnes de uno de esos casos, pero organizaciones como The New York Times están al acecho
  • - El uso de esos contenidos sin licenciar puede acabar metiendo a
    empresas como OpenAI o Google en un problema muy importante
13 Noviembre 2024
Javier Pastor

¿Puede aprovecharse la IA de los contenidos que están públicamente
disponibles en internet? ¿Y si esos contenidos están protegidos por los
derechos de autor? La respuesta a la primera pregunta es clara: 
lo está
haciendo
. La cosa es más delicada para la segunda, pero todo apunta
a que las empresas de IA están usando 
también contenidos con
copyright
 para entrenar sus modelos. Ahora queda saber si eso tendrá
consecuencias.

Periódicos que acusan a ChatGPT de robarles contenidos.
Raw Story y Alternet son dos publicaciones online que como indican 
en
Reuters
 demandaron a OpenAI el pasado mes de febrero.
Según la demanda, la empresa usó miles de sus artículos
sin permiso para entrenar su popular chatbot, ChatGPT.
No solo eso: acusan a OpenAI de reproducir sus contenidos
con copyright cuando se le pedían dichos contenidos a su modelo de IA.

OpenAI gana una batalla. De momento OpenAI puede respirar
tranquila. En Estados Unidos, una jueza federal de Nueva York,
Colleen McMahon, ha indicado 
en su sentencia que estos medios
de noticias no se han visto perjudicados lo suficiente para apoyar
su demanda. No obstante, les dio la oportunidad de apelar pero
dejó claro que era "escéptica" con respecto a las posibilidades de que
dichos medios pudieran "alegar un perjuicio demostrable".

Pero no la guerra. El caso es el último de una ristra de demandas por
violación de copyright que sobre todo organismos y entidades de la
industria editorial, literaria, musical o artística están registrando contra
 las empresas de inteligencia artificial.

Demandas por doquier. En los últimos meses hemos visto demandas
como la de Getty a Stable Diffusion, la que afecta a GitHub Copilot y
otras amenazas legales como las de la The Author's Guild. David Holz,
fundador de Midjourney, admitía que al entrenar su modelo
"No hay realmente una forma de coger cien  millones de imágenes
y saber de  dónde provienen. Estaría bien que las  imágenes tuvieran metadatos  incrustados sobre el propietario del  copyright o algo así.
Pero eso no  existe; no hay ningún registro".

The New York Times está al acecho. Esas dos publicaciones se unen
a demandas anteriores de medios y grupos editoriales especialmente
poderosos. En febrero de 2023 The Wall Street Journal y CNN
ya mostraron su preocupación respecto al uso de sus contenidos
en modelos de IA.

Aún más sonada fue la demanda de The New York Times, que acusó a Microsoft y OpenAI de violación de copyright por este mismo tipo
de actividad. Según dicha demanda, millones de artículos
publicados por NYT fueron usado para entrenar modelos de IA.

En abril de 2024 otros ocho diarios demandaron a esas mismas
empresas
 por exactamente los mismos motivos.

Transparencia cero. El secretismo relativo a los conjuntos de datos
usados para el entrenamiento es total tanto en OpenAI como en sus
competidoras. No dan apenas detalles sobre esos contenidos pero
en los últimos tiempos sí han hecho declaraciones que dejan claro
que aprovechan todo lo que pueden.

Pero es que necesitan ese material, argumentan en OpenAI
Google explicó que puede "recoger información públicamente disponible
online" para el entrenamiento de sus modelos de IA, Meta lleva tiempo usando todo lo que sus usuarios publican en Facebook e Instagram, y
OpenAI llegó a decir ante el Parlamento británico que "sería imposible
entrenar los principales modelos de IA de hoy en día sin usar materiales
con copyright".

Si quieres usar mis contenidos, págame
. Las empresas de IA están

empezando a darse cuenta del enorme riesgo al que se están
exponiendo, y algunas comienzan a cubrirse las espaldas con un
método sencillo: acuerdos económicos. Google licenció contenidos 
de Reddit, y OpenAI ha llegado también a algunos acuerdos
económicos con grupos editoriales como Prisa (El País) y Le Monde.

Perplexity y ChatGPT Search tienen un problema mayor.

Los últimos casos de esta peligrosa situación los estamos viendo en los
buscadores con IA. Perplexity y ChatGPT Search son capaces 
de navegar por internet, coger un puñado de fuentes y contestar a
nuestras preguntas resumiendo la información procedente de esas
fuentes. Eso está muy bien para el usuario, que logra la respuesta a lo
que quiere de forma clara, pero estos "motores de búsqueda" hacen así
innecesario que la mayoría de las veces el usuario haga clic en el
enlace original. Los creadores de contenido, por tanto, pierden tráfico
que ganan esos modelos de IA, lo que agrava aún más la situación.

En Xataka | Las empresas de IA están jugando con fuego con
los contenidos con derechos de autor. Y Perplexity está a punto
de quemarse

No hay comentarios:

Publicar un comentario

BRASIL tiene las revistas más alineadas con la Ciencia Abierta en Iberoamérica

Publicado en Learned Publishing https://onlinelibrary.wiley.com/doi/full/10.1002/leap.1616   Nota en blog SciELO en Perspectiva: Estudio bib...