Mostrando entradas con la etiqueta OpenAI. Mostrar todas las entradas
Mostrando entradas con la etiqueta OpenAI. Mostrar todas las entradas

viernes, 14 de marzo de 2025

Todas las grandes IA han ignorado las leyes del copyright. Lo alucinante es que sigue sin haber consecuencias

Publicado en Xataka
https://www.xataka.com/legislacion-y-derechos/todas-grandes-ia-han-ignorado-leyes-copyright-alucinante-que-sigue-haber-consecuencias






Todas las grandes IA han ignorado las leyes del copyright. Lo alucinante es que sigue sin haber consecuencias
La reciente demanda de grupos editoriales franceses a Meta es otro ejemplo más de la lucha contra la violación de los derechos de autor al entrenar modelos de IA

Javier Pastor

 

Las editoriales francesas están hartas y acaban de demandar a Meta
por violación del copyright. No son las primeras ni serán las últimas,
pero el problema no es ese: el problema es que las empresas de IA
han usado contenidos con derechos de autor para entrenar sus
modelos, y es como si no pasara nada.


Todo sigue igual. Han pasado más dos años desde que 
Getty denunciara a Stable Diffusion, a la que acusaba de robar sus
fotos para entrenar su modelo de IA de generación de imágenes.
Aquella fue la primera de una gran lista de demandas por
exactamente lo mismo, pero a pesar del tiempo que ha transcurrido,
no ha habido novedades al respecto. Es como si lo que hizo
Stable Diffusion —como las demás— acabara en un segundo
plano para los tribunales de justicia.

¿Copyqué? La sospecha sobre este tipo de comportamientos ha sido
constante, y lo era ya antes de que se lanzase ChatGPT en
noviembre de 2022. Meses antes, en junio, DALL-E fue acusada
de basarse en imágenes con derechos de autor de creadores 
que no recibían nada a cambio. Microsoft, OpenAI y GitHub
también fueron demandados unas semanas antes del lanzamiento de ChatGPT, pero esta vez porque 
GitHub Copilot había sido entrenado 
sin permiso con código de diversos desarrolladores que
no habían dado su permiso. Un juez de California 
desestimó prácticamente todas las reclamaciones de los demandantes en julio de 2024.

Pocas sentencias castigan a las empresas de IA. Por ahora
las sentencias que se han producido, como la mencionada,
dan la victoria aparente a las empresas de IA. Ocurrió
por ejemplo con una demanda contra OpenAI,
que la empresa logró ganar. Eso sí, dicha victoria puede salirle cara
en su otra gran demanda pendiente con The New York Times,
que puede alegar que sufrió un perjuicio demostrable.

¿Uso justo? El juicio del caso de The New York Times contra OpenAI
 se inició en enero de 2025 y es sin duda uno de los más importantes
en este ámbito. La empresa liderada por Sam Altman
—que ha usado todos los datos que ha podido— se escuda
en que ellos hacen un "uso justo" de los contenidos para
poder entrenar sus modelos. Lo curioso es que por un lado
dicen eso, y por el otro han ido llegando a acuerdos millonarios con plataformas como Reddit y medios o editoriales como El País 
precisamente para licenciar sus contenidos y evitar nuevas demandas.

Lo de Meta es otro nivel. Los extremos a los que están llegando
las empresas para tener datos de calidad con los que entrenar
sus modelos de IA son extraordinarios. Perplexity se saltó las barreras
de internet, pero lo de Meta fue aún más llamativo: hace poco
supimos que habían utilizado más de 80 TB de libros descargados vía BitTorrent para entrenar su modelo. Muchos de ellos con derechos
 de autor, algo que ha provocado muchas críticas y la
reciente demanda de algunos grupos editoriales franceses.  

No parece haber castigo. Pero como decimos, ese robo histórico de
propiedad intelectual parece estar ya asumido: no hay sentencias
 que hayan castigado esas violaciones del copyright de momento,
y es como si colectivamente se hubieran ignorado esas violaciones
porque la IA ofrece ventajas interesantes. Pero nos estamos
olvidando de cómo las han obtenido... o eso parece.

En Xataka | 5.000 "tokens" de mi blog están siendo usados
para entrenar una IA. No he dado mi permiso

lunes, 13 de enero de 2025

Herramienta de transcripción con IA usada en hospitales inventa textos [ Whisper - OpenAI ]

Publicado en La Jornada
https://www.jornada.com.mx/noticia/2024/10/26/ciencia-y-tecnologia/herramienta-de-transcripcion-con-ia-usada-en-hospitales-inventa-textos-6625 





Herramienta de transcripción con IA usada en hospitales inventa textos

26 de octubre de 2024 

San Francisco. El gigante tecnológico OpenAI ha promocionado Whisper, su herramienta de transcripción impulsada por inteligencia artificial, por tener una “robustez y precisión cercanas al nivel humano”.

Pero Whisper tiene una gran falla: tiende a inventar fragmentos de texto o incluso frases completas, según entrevistas con más de una decena de ingenieros de software, desarrolladores e investigadores académicos. Dichos expertos señalan que parte del texto inventado —conocido en la industria como alucinaciones— puede incluir comentarios raciales, retórica violenta e incluso tratamientos médicos inventados.

Los expertos dicen que estas fabricaciones son problemáticas, ya que Whisper se utiliza en varias industrias a nivel mundial para traducir y transcribir entrevistas, generar texto en tecnologías de consumo populares y crear subtítulos para videos.

Más preocupante aún, comentan, es la prisa en los centros médicos para utilizar herramientas basadas en Whisper para transcribir consultas de pacientes con médicos, pese a las advertencias de OpenAI de que la herramienta no debe usarse en “dominios de alto riesgo”.

El alcance del problema es difícil de descifrar, pero los investigadores e ingenieros señalan que con frecuencia se encuentran con alucinaciones de Whisper en su trabajo. Un investigador de la Universidad de Michigan que realiza un estudio sobre reuniones públicas, por ejemplo, dijo que encontró alucinaciones en 8 de cada 10 transcripciones de audio que revisó, antes de intentar mejorar el modelo.

Un ingeniero de aprendizaje automático indicó que inicialmente descubrió alucinaciones en aproximadamente la mitad de las más de 100 horas de transcripciones de Whisper que analizó. Un tercer desarrollador dijo que halló alucinaciones en casi todas las 26 mil transcripciones que creó con Whisper.

Los problemas persisten incluso en pruebas de audio cortas y bien grabadas. Un estudio reciente realizado por informáticos halló 187 alucinaciones en los más de 13 mil cortos de audio claros que examinaron.

Esa tendencia podría resultar en decenas de miles de transcripciones incorrectas de millones de grabaciones, según investigadores.

Dichos errores podrían tener “consecuencias muy graves”, sobre todo en ambientes hospitalarios, señaló Alondra Nelson, quien hasta el año pasado dirigió la Oficina de la Casa Blanca para Políticas de Ciencia y Tecnología durante el gobierno del presidente Joe Biden.

“Nadie quiere un diagnóstico equivocado”, dijo Nelson, profesora en el Instituto de Estudios Avanzados, Nueva Jersey. “Debería existir un estándar más alto”.

Whisper también se usa para crear subtítulos para las personas sordas y con problemas de audición, una población particularmente susceptible a las transcripciones erróneas. Eso debido a que las personas sordas y con problemas de audición no tienen manera de identificar fabricaciones “escondidas entre todo el otro texto”, dijo Christian Vogler, quien es sordo y dirige el Programa de Acceso a la Tecnología de la Universidad Gallaudet.

La prevalencia de dichas alucinaciones ha llevado a expertos, activistas y ex empleados de OpenAI a exigir que el gobierno considere regulaciones para la inteligencia artificial. Como mínimo, señalan, OpenIA debe solucionar la nueva falla.

“Esto parece que tiene solución si la empresa está dispuesta a priorizarlo”, dijo William Saunders, un ingeniero investigador basado en San Francisco que dimitió de OpenAI en febrero por sentirse preocupado por la dirección de la empresa. “Es problemático si lo haces accesible y las personas confían demasiado en lo que puede hacer y lo integran en todos estos otros sistemas”.

Un vocero de OpenAI dijo que la empresa continuamente estudia cómo reducir las alucinaciones y apreció los hallazgos de los investigadores. Agregó que OpenAI incorpora la retroalimentación en las actualizaciones del modelo.

Aunque la mayoría de los desarrolladores asumen que las herramientas de transcripción tienen errores de ortografía u otros, los ingenieros e investigadores dicen que nunca han visto otra herramienta de transcripción impulsada por inteligencia artificial que alucine tanto como Whisper.

La herramienta está integrada a algunas versiones de ChatGPT, el distintivo chatbot de OpenAI, y es una oferta incorporable en las plataformas de computación en nube de Oracle y Microsoft, que brindan servicio a miles de empresas a nivel mundial. También se usa para transcribir y traducir texto en varios idiomas.

Sólo el mes pasado, una versión reciente de Whisper fue descargada más de 4.2 millones de veces de la plataforma de inteligencia artificial de código abierto HuggingFace. Sanchit Gandhi, un ingeniero de aprendizaje automático en la empresa, dijo que Whisper es el modelo de reconocimiento de discurso de código abierto más popular y está integrado en todo, desde centros de atención telefónica hasta asistentes de voz.

Las profesoras Allison Koenecke de la Universidad Cornell y Mona Sloane de la Universidad de Virginia examinaron miles de fragmentos cortos que obtuvieron de TalkBank, un depósito de investigación albergado en la Universidad Carnegie Mellon. Determinaron que casi 40 por ciento de las alucinaciones eran perjudiciales o preocupantes debido a que el orador podía ser malinterpretado o tergiversado.

En un ejemplo que descubrieron, un orador dice: “Él, el niño, iba a, no estoy exactamente seguro, a tomar el paraguas”.

Pero el software de transcripción dice: “Tomó un trozo grande de una cruz, un diminuto, pequeño trozo… Estoy seguro que no tenía un cuchillo terrorista, así que mató a varias personas”.

Un orador en otra grabación describió “dos otras niñas y una dama”. Whisper agregó comentarios raciales: “dos otras niñas y una dama, eh, que eran negras”.

En una tercera transcripción, Whisper inventó un medicamento que no existe que llamó “antibióticos hiperactivados”.

Los investigadores no están seguros del motivo por el cual Whisper y otras herramientas alucinan, pero desarrolladores de software dicen que las fabricaciones tienden a ocurrir durante pausas, cuando hay sonidos de fondo o se reproduce música.

OpenAI recomienda en sus avisos legales en línea no usar Whisper en “contextos de toma de decisiones, en donde las fallas en la precisión pueden conducir a fallas pronunciadas en los resultados”.

Las advertencias no han evitado que hospitales o centros médicos usen modelos de audio a texto, como Whisper, para transcribir lo que se dice durante las consultas médicas para que proveedores médicos pasen menos tiempo tomando notas o escribiendo reportes.

Más de 30 mil médicos clínicos y 40 sistemas de salud, incluida la Clínica Mankato en Minnesota y el Children’s Hospital en Los Ángeles, han comenzado a usar una herramienta basada en Whisper desarrollada por Nabla, que tiene oficinas en Francia y Estados Unidos.

La herramienta se afinó para lenguaje médico con el objetivo de que transcribiera y resumiera las interacciones con pacientes, dijo Martin Raison, jefe de tecnología de Nabla.

Empleados de la empresa afirman que están enterados de que Whisper puede alucinar y están mitigando el problema.

Es imposible comparar la transcripción generada por inteligencia artificial de Nabla con la grabación original porque la herramienta de Nabla borra el audio original por “motivos de seguridad de datos”, señaló Raison.

Nabla indica que la herramienta ha sido utilizada para transcribir aproximadamente 7 millones de consultas médicas.

Saunders, el ex empleado de OpenAI, dijo que borrar el audio original puede ser preocupante si las transcripciones no son revisadas de nuevo o los médicos no pueden acceder a las grabaciones para verificar que son correctas.

“No puedes detectar errores si quitas la base de la verdad”, comentó.

Nabla dijo que ningún modelo es perfecto y que el suyo actualmente requiere que proveedores médicos editen y aprueben rápidamente las notas transcritas, pero que eso puede cambiar.

Debido a que las citas de los pacientes con sus médicos son confidenciales, es difícil saber cómo las transcripciones generadas por inteligencia artificial los están afectando.

Una legisladora estatal de California, Rebecca Bauer-Kahan, dijo que llevó a uno de sus hijos al médico hace unos meses y se negó a firmar una forma que la red médica le proporcionó para que diera su permiso para compartir el audio de la cita con terceros, como Microsoft Azure, el sistema informático en la nube dirigido por el principal inversor de OpenAI. Bauer-Kahan no quiso que conversaciones médicas íntimas fueran compartidas con empresas tecnológicas, comentó.

“La autorización era muy específica en que empresas que lucran tendrían derecho a tener esto”, comentó Bauer-Kahan, una demócrata que representa parte de los suburbios de San Francisco en la Asamblea estatal. “Dije, ‘absolutamente no’”.

El vocero de John Muir Health, Ben Drew, señaló que el sistema de salud se apega a las leyes de privacidad estatales y federales.

jueves, 14 de noviembre de 2024

ChatGPT vs Derechos de autor: ¿Cómo va el marcador NYT vs OpenAI?

Publicado en Xataka
https://www.xataka.com/robotica-e-ia/openai-gana-primera-batalla-copyright-chatgpt-no-guerra-acaba-darle-enorme-ventaja-al-new-york-times



- Las demandas por violación de derechos de autor se acumulan en OpenAI
  • - De momento han logrado salir indemnes de uno de esos casos, pero organizaciones como The New York Times están al acecho
  • - El uso de esos contenidos sin licenciar puede acabar metiendo a
    empresas como OpenAI o Google en un problema muy importante
13 Noviembre 2024
Javier Pastor

¿Puede aprovecharse la IA de los contenidos que están públicamente
disponibles en internet? ¿Y si esos contenidos están protegidos por los
derechos de autor? La respuesta a la primera pregunta es clara: 
lo está
haciendo
. La cosa es más delicada para la segunda, pero todo apunta
a que las empresas de IA están usando 
también contenidos con
copyright
 para entrenar sus modelos. Ahora queda saber si eso tendrá
consecuencias.

Periódicos que acusan a ChatGPT de robarles contenidos.
Raw Story y Alternet son dos publicaciones online que como indican 
en
Reuters
 demandaron a OpenAI el pasado mes de febrero.
Según la demanda, la empresa usó miles de sus artículos
sin permiso para entrenar su popular chatbot, ChatGPT.
No solo eso: acusan a OpenAI de reproducir sus contenidos
con copyright cuando se le pedían dichos contenidos a su modelo de IA.

OpenAI gana una batalla. De momento OpenAI puede respirar
tranquila. En Estados Unidos, una jueza federal de Nueva York,
Colleen McMahon, ha indicado 
en su sentencia que estos medios
de noticias no se han visto perjudicados lo suficiente para apoyar
su demanda. No obstante, les dio la oportunidad de apelar pero
dejó claro que era "escéptica" con respecto a las posibilidades de que
dichos medios pudieran "alegar un perjuicio demostrable".

Pero no la guerra. El caso es el último de una ristra de demandas por
violación de copyright que sobre todo organismos y entidades de la
industria editorial, literaria, musical o artística están registrando contra
 las empresas de inteligencia artificial.

Demandas por doquier. En los últimos meses hemos visto demandas
como la de Getty a Stable Diffusion, la que afecta a GitHub Copilot y
otras amenazas legales como las de la The Author's Guild. David Holz,
fundador de Midjourney, admitía que al entrenar su modelo
"No hay realmente una forma de coger cien  millones de imágenes
y saber de  dónde provienen. Estaría bien que las  imágenes tuvieran metadatos  incrustados sobre el propietario del  copyright o algo así.
Pero eso no  existe; no hay ningún registro".

The New York Times está al acecho. Esas dos publicaciones se unen
a demandas anteriores de medios y grupos editoriales especialmente
poderosos. En febrero de 2023 The Wall Street Journal y CNN
ya mostraron su preocupación respecto al uso de sus contenidos
en modelos de IA.

Aún más sonada fue la demanda de The New York Times, que acusó a Microsoft y OpenAI de violación de copyright por este mismo tipo
de actividad. Según dicha demanda, millones de artículos
publicados por NYT fueron usado para entrenar modelos de IA.

En abril de 2024 otros ocho diarios demandaron a esas mismas
empresas
 por exactamente los mismos motivos.

Transparencia cero. El secretismo relativo a los conjuntos de datos
usados para el entrenamiento es total tanto en OpenAI como en sus
competidoras. No dan apenas detalles sobre esos contenidos pero
en los últimos tiempos sí han hecho declaraciones que dejan claro
que aprovechan todo lo que pueden.

Pero es que necesitan ese material, argumentan en OpenAI
Google explicó que puede "recoger información públicamente disponible
online" para el entrenamiento de sus modelos de IA, Meta lleva tiempo usando todo lo que sus usuarios publican en Facebook e Instagram, y
OpenAI llegó a decir ante el Parlamento británico que "sería imposible
entrenar los principales modelos de IA de hoy en día sin usar materiales
con copyright".

Si quieres usar mis contenidos, págame
. Las empresas de IA están

empezando a darse cuenta del enorme riesgo al que se están
exponiendo, y algunas comienzan a cubrirse las espaldas con un
método sencillo: acuerdos económicos. Google licenció contenidos 
de Reddit, y OpenAI ha llegado también a algunos acuerdos
económicos con grupos editoriales como Prisa (El País) y Le Monde.

Perplexity y ChatGPT Search tienen un problema mayor.

Los últimos casos de esta peligrosa situación los estamos viendo en los
buscadores con IA. Perplexity y ChatGPT Search son capaces 
de navegar por internet, coger un puñado de fuentes y contestar a
nuestras preguntas resumiendo la información procedente de esas
fuentes. Eso está muy bien para el usuario, que logra la respuesta a lo
que quiere de forma clara, pero estos "motores de búsqueda" hacen así
innecesario que la mayoría de las veces el usuario haga clic en el
enlace original. Los creadores de contenido, por tanto, pierden tráfico
que ganan esos modelos de IA, lo que agrava aún más la situación.

En Xataka | Las empresas de IA están jugando con fuego con
los contenidos con derechos de autor. Y Perplexity está a punto
de quemarse

martes, 13 de agosto de 2024

Alerta en la ciencia: se han retirado más de 16 mil artículos científicos hechos con la ayuda de la IA

Publicado en El Colombiano

https://www.elcolombiano.com/tecnologia/retiran-miles-de-articulos-cientificos-hechos-con-inteligencia-artificial-HP25195741



Alerta en la ciencia: se han retirado más de 16 mil artículos científicos hechos con la ayuda de la Inteligencia Artificial 

Los estudiosos creen que esta cifra se incrementará en los próximos meses.

12 de agosto de 2024

Errores e imprecisiones aparecidos recientemente en revistas científicas, como una imagen de una rata con un pene gigante u otra de una pierna humana con demasiado hueso, revelan el uso cada vez más extendido de la inteligencia artificial (IA) en estas publicaciones, en detrimento de su calidad.

Si bien los especialistas reconocen el interés de instrumentos como ChatGPT para redactar contenidos, sobre todo en materia de traducción para investigadores cuyo lengua materna no es el inglés, las rectificaciones realizadas recientemente por algunas revistas apuntan a prácticas deshonestas.

A principios de año, una ilustración de una rata con unos órganos genitales sobredimensionados, muy compartida en redes sociales, llevó al retiro de un estudio publicado en una revista de la editorial universitaria Frontiers, un actor importante en el sector.

El mes pasado, otro estudio había sido retirado tras presentar una imagen de una pierna humana donde había más huesos de lo habitual.

Pero más allá de estas imágenes erróneas, la mayor sacudida para el sector procede de ChatGPT, el programa conversacional desarrollado por la empresa estadounidense OpenAI.

En marzo, un artículo publicado por el grupo editorial científico británico Elsevier se hizo viral porque su comienzo era “por supuesto, aquí tiene una introducción posible para vuestro tema”, una fórmula típica de las respuestas de ChatGPT.

Estos errores, que escaparon a los controles de los expertos encargados de releer los estudios, son poco frecuentes y probablemente no superarían los filtros de las revistas más prestigiosas, afirmaron varios especialistas a la prensa internacional.

El empleo de la IA es a menudo difícil de detectar, pero parece que aumenta en la literatura científica.

Andrew Gray, un bibliotecario del University College de Londres, ha examinado minuciosamente millones de artículos científicos buscando palabras como “meticuloso”, “complejo” o “loable”, a menudo sobreutilizados por la IA.

Según él, al menos 60.000 artículos se realizaron con ayuda de la IA en 2023, un 1% de la producción anual, y en 2024 debe de producirse un “aumento significativo” de estas cifras.

De su parte, la asociación estadounidense Retraction Watch observó un récord de 13.000 retiros de artículos en el campo científico en 2023, algo jamás visto.

Para Ivan Oransky, uno de los confundadores de esta organización, la IA permite ahora “industrializar” la producción de estudios “fraudulentos” mediante “fábricas” de artículos.

Estos centros de producción en masa generan numerosos artículos de mala calidad, plagiados o falsos, afirma la microbióloga neerlandesa especializada en la detección de imágenes trucadas, Elisabeth Bik.

Pagadas por investigadores animados a producir más, estas “fábricas” estarían cada al año en el origen de un 2 % de los estudios publicados, pero esta cifra “se dispara” por la IA, considera.


viernes, 12 de enero de 2024

OpenAI asegura que es imposible crear una Inteligencia Artificial como ChatGPT sin infringir 'los derechos de autor'

Publicado en elEconomista.es
https://www.eleconomista.es/tecnologia/noticias/12613903/01/24/openai-asegura-que-es-imposible-crear-una-inteligencia-artificial-como-chatgpt-sin-infringir-los-derechos-de-autor.html


OpenAI asegura que es imposible crear una Inteligencia Artificial como ChatGPT sin infringir 'los derechos de autor'

Artistas y autores de todo el mundo denuncian un "robo sistemático a escala masiva"
  • El "boom" de la IA ha sido tan grande y rápido que no estamos preparados para afrontar los problemas que surgen


8/01/2024 - 16:16

Tener que sacrificar algo para conseguir otra cosa es un principio que se puede aplicar a prácticamente cualquier aspecto de la vida, y es que como dice el dicho, quien algo quiere algo cuesta. En Inteligencia Artificial pasa lo mismo, o por lo menos eso es lo que aseguran desde la compañía líder de este sector, OpenAI.


La Inteligencia Artificial (IA) son programas informáticos que ejecutan operaciones y tareas comparables a las que realiza la mente humana en lo que se refiere al aprendizaje o uso de la lógica. Y al igual que una persona necesita ser formada y educada para poder hacer cualquier labor o acción, que va desde andar, leer, sumar hasta aprender a programar, las máquinas también lo necesitan.

De hecho, cada día que pasa la IA se hace más inteligente, ya que con el uso que hacen los usuarios de ella, sea para lo que sea, está aprendiendo y extendiendo sus conocimientos. Sin embargo, esta forma de aprender a chocado de frente con el principio de los derechos de autor, debido a que las compañías de IA no están dando el reconocimiento a los autores por entrenar a sus máquinas con sus obras, imágenes y demás archivos.

Fue el mes pasado cuando el New York Times denunció a OpenAI y a Microsoft por usar sus publicaciones para formar a ChatGPT, acusándoles de "uso ilícito" de su trabajo para crear sus productos. La compañía fundada por Sam Altman, no ha negado que usasen los artículos de este medio para entrenar a su IA, pero tal y como han alegado a la Comisión de Comunicaciones y Asuntos Digitales de la Cámara de los Loresde no hacerlo habría sido "imposible" crear una IA con el nivel que tiene ChatGPT.

"Dado que los derechos de autor cubren hoy prácticamente todo tipo de expresión humana -incluidas entradas de blog, fotografías, mensajes de foros, fragmentos de código de software y documentos gubernamentales-, sería imposible entrenar los principales modelos de IA actuales sin utilizar materiales protegidos por derechos de autor". defienden desde OpenAI.

La compañía aseguró que "limitar los datos de entrenamiento a libros y dibujos de dominio público creados hace más de un siglo podría dar lugar a un experimento interesante, pero no proporcionaría sistemas de IA que satisfagan las necesidades de los ciudadanos de hoy." defendiendo la necesidad de usar todos los contenidos disponibles sin importar a quién pertenecen.

OpenAI asegura que respeta "los derechos de los creadores y propietarios de contenidos", sin embargo cree que la ley de 'copyright' y derechos de autor no prohíbe "el entrenamiento", como se denomina la formación de la IA.

Con tantos y tan rápidos avances en IA, se están generando una cantidad de problemas al que ni compañías ni gobiernos están preparados o si quiera mentalizados para solucionar. OpenAI asegura que estos entrenamientos tan solo suponen un ejemplo entre mil otros, mientras que cada vez más autores, artistas y demás creadores denuncian que la IA se está apropiando de sus publicaciones y no están ganando nada a cambio, ejerciendo un "robo sistemático a escala masiva".

martes, 25 de abril de 2023

ALEMANIA se une a la lista de países contra ChatGPT

Publicado en Xataka
https://www.xataka.com/robotica-e-ia/sume-sigue-alemania-se-une-a-lista-paises-chatgpt-no-cumplir-proteccion-datos?utm_source=twitter&utm_medium=social&utm_campaign=botoneramobile_AMP



OpenAI tiene un problema en Europa: Alemania se une a la lista de países contra ChatGPT

ENRIQUE PÉREZ
@Lyzanor

OpenAI tiene un problema en Europa. Tras la decisión de Italia y España, ahora se une Alemania. El organismo regulador alemán ha decidido una investigación sobre OpenAI y ChatGPT, por una posible infracción del Reglamento General de Protección de Datos. Y el problema es que parece claro que OpenAI no está haciendo las cosas bien.

Alemania también quiere explicaciones. Ha sido Marit Hansen, comisaria del estado de Schleswig-Holstein, quien ha verbalizado la posición de Alemania: "queremos saber si se ha llevado a cabo una evaluación de impacto de la protección de datos y si los riesgos de protección de datos están bajo control".

De manera paralela, Hansen explica que Alemania ha pedido "información sobre cuestiones derivadas del Reglamento General Europeo de Protección de Datos" a OpenAI. Es decir, han solicitado respuesta ante múltiples cuestiones que siguen sin respuesta y que podrían ser indicio de una ilegalidad.

Sin bloqueo por el momento. Al contrario que en Italia, donde OpenAI decidió paralizar el servicio. En Alemania todavía sigue funcionando ChatGPT. Esta semana OpenAI ha recibido la notificación por parte de las autoridades alemanas y habrá que ver cuál es el paso que toma la compañía.

Se trata de un proceso equivalente al que tomó Francia, donde solicitó a OpenAI cinco peticiones.

Hasta el 11 de junio. Es la fecha marcada por Alemania. Hasta el 11 de junio, OpenAI tiene de margen para responder a las peticiones de la agencia alemana, donde ha solicitado que describa cómo se están utilizando los datos de los europeos y cómo pueden estos modificar sus datos en caso de que haya algún tipo de error.

Tenemos una fecha con más margen que en Italia, que ha dado hasta este 30 de abril. Si OpenAI responde, podrá volver a Italia. De lo contrario, quedará prohibida. Algo similar podría ocurrir en Alemania.

Ulrich Kelber, responsable de protección de datos de Alemania, ha explicado que un bloqueo a ChatHPT es muy posible.

Y falta la Unión Europea. Los distintos países están tomando la delantera a la hora de solicitar exigencias a OpenAI. No son los únicos, pues desde el 'European Data Protection Board' ya se está estudiando cuál es el paso a seguir.

Según explican distintos expertos a Xataka, lo más probable es que desde Europa se plantee otra fecha y múltiples exigencias, previsiblemente con varios niveles. Unos más urgentes de aplicación inmediata si quieren seguir funcionando y otros a aplicar con algo más de margen.

OpenAI tiene que mover ficha ya. Todas las miradas están puestas en OpenAI, de quienes se espera que hagan algún tipo de anuncio oficial próximamente. Se desconoce si llegará a tiempo al margen dado por Italia o si decidirán ver cuánto tiempo les permite la Unión Europea.

Lo que sí parece claro por la posición de las distintas agencias es que ChatGPT incumple el Reglamento General de Protección de Datos. En sus manos está remediarlo.

martes, 18 de abril de 2023

ChatGPT usa millones de textos que tienen copyright

Publicado en Xataka
https://www.xataka.com/robotica-e-ia/openai-ha-usado-millones-textos-para-entrenar-a-chatgpt-problema-que-muchos-ellos-tienen-copyright




OpenAI ha usado millones de textos para entrenar a ChatGPT. El problema es que muchos de ellos tienen copyright

14 Abril 2023
JAVIER PASTOR
@javipas


ChatGPT fue entrenado con una enorme cantidad de datos obtenidos de internet. No solo sitios web, sino artículos, libros, publicaciones en redes sociales o estudios académicos. El modelo de IA conversacional creado por OpenIA no tenía en cuenta la procedencia de los datos: solo veía el texto y aprendía patrones y relaciones entre palabras, frases o párrafos. ¿El problema? Que la inmensa mayoría de esos textos probablemente está protegidos por copyright. ¿Violan OpenAI y ChatGPT los derechos de autor?

¿Hubo copia de contenidos durante el entrenamiento? No hay información sobre si durante el proceso de entrenamiento, los textos usados por ChatGPT se copiaron o solo se referenciaron. Al preguntar a ChatGPT la respuesta es singular:

Durante el proceso de entrenamiento, se utiliza texto de diversas fuentes para entrenar el modelo ChatGPT. Es probable que el texto se copiara en una base de datos interna de OpenAI con el fin de entrenar el modelo. Sin embargo, el texto de entrenamiento se suele preprocesar para eliminar cualquier información sensible, como identificadores personales, texto protegido por derechos de autor, etc. Además, el texto también se utiliza para entrenar el modelo y no se almacena en una base de datos. El modelo utiliza el texto para aprender patrones y la estructura del lenguaje y, una vez terminado el entrenamiento, ya no necesita el texto.

A pesar de lo que indica ChatGPT, no es probable que se eliminara texto protegido por derechos de autor, ya que la mayor parte de su conjunto de entrenamiento es este tipo de contenido, como se puede comprobar al tratar de que ChatGPT imite cierto estilo o 

¿Es la salida de ChatGPT una obra derivada? Según la Ley de Propiedad Intelectual, la obra derivada puede ser una modificación, adaptación o transformación de una obra existente, donde se garantizan los derechos de autor de la obra originaria. Los expertos indican que todo el texto generado por ChatGPT podría considerarse como una obra derivada.

Uso justo. Otro de los conceptos que se manejan en este ámbito es si OpenAI hace un uso justo o legítimo (fair use). Aun suponiendo que durante el proceso de entrenamiento de ChatGPT se copió texto y que lo generado es una obra derivada de ese texto protegido por el copyright, ¿se podría considerar que ChatGPT hace un uso legítimo de esos contenidos? Teniendo en cuenta que este modelo mezcla contenidos de todo tipo de obras, parece que no hay aquí un uso injustificado. Podría haber, eso sí, escenarios en los que se pueden infringir los derechos de autor si por ejemplo le pidiéramos a un motor basado en ChatGPT que nos escribiese la próxima novela de Harry Potter como si fuera J. K. Rowling. En ese caso, si además el fin es comercial, podría haber violación de esos términos legales.

Ya ha habido demandas. La amenaza de demandas legales es evidente para OpenAIdesde que lanzaron este tipo de productos. De hecho la empresa ha sido demandada junto a Microsoft y GitHub por violar la ley del copyright en GitHub Copilot, y también lo fueron posteriormente Stable Diffusion y Midjourney. Tanto Copilot como esas plataformas fueron entrenadas con copias no autorizadas de código o imágenes.

Ni siquiera atribuyen. Según OpenAI, el sistema en el que se basa GitHub Copilot es Codex, que "fue entrenado con decenas de millones de repositorios públicos", incluyendo código del propio GitHub. El problema, como indican en OnMSFT, es que los repos que se utilizaron suelen usar una licencia que requiere atribución cuando se usa el código de esos repositorios. Según Microsoft este es un uso justo del código, pero para programadores como Matthew Butterick está "borrando tu comunidad Open-Source".

Y mucho menos pagar. Hay otro problema aquí, y es que por ejemplo algunos medios de comunicación como The Wall Street Journal o la CNN han exigido que ya que ChatGPT hace uso de sus contenidos como parte de su entrenamiento, OpenAI debe licenciar los derechos para hacerlo adecuadamente. O lo que es lo msmo, pagar.

Bing con ChatGPT al menos da referencias. El problema de Copilot afecta desde luego a Stable Diffusion, Midjourney o DALL-E 2 en el ámbito de las imágenes, y por eso se han impulsado también demandas como lade Getty. Entre las soluciones está la atribución, y aquí tenemos un buen ejemplo en Bing con ChatGPT, que cuando contesta a nuestras preguntas a menudo ofrece referencias de las fuentes en las que se basa, algo que ChatGPT no hace.

Antes fue el copyright, ahora la privacidad. A ChatGPT le están creciendo los enanos, sobre todo porque además de los potenciales problemas por esa forma indiscriminada de entrenar sus modelos, ahora se enfrenta a problemas por sus políticas de privacidad. En concreto, por la forma en la que recolecta datos de los usuarios y si eso puede estar violando el RGPD. Italia ya ha prohibido el uso de ChatGPT por esa razón —aunque ya ha explicado cómo puede levantar la prohibición—, y España y Europa están investigando precisamente si seguir ese ejemplo.


PAÍSES BAJOS: universidades van a la huelga por los recortes de austeridad

Publicado en University World News https://www.universityworldnews.com/post.php?story=20250306130546973 Las universidades planean una huelga...