Mostrando entradas con la etiqueta OpenAI. Mostrar todas las entradas
Mostrando entradas con la etiqueta OpenAI. Mostrar todas las entradas

lunes, 13 de enero de 2025

Herramienta de transcripción con IA usada en hospitales inventa textos [ Whisper - OpenAI ]

Publicado en La Jornada
https://www.jornada.com.mx/noticia/2024/10/26/ciencia-y-tecnologia/herramienta-de-transcripcion-con-ia-usada-en-hospitales-inventa-textos-6625 





Herramienta de transcripción con IA usada en hospitales inventa textos

26 de octubre de 2024 

San Francisco. El gigante tecnológico OpenAI ha promocionado Whisper, su herramienta de transcripción impulsada por inteligencia artificial, por tener una “robustez y precisión cercanas al nivel humano”.

Pero Whisper tiene una gran falla: tiende a inventar fragmentos de texto o incluso frases completas, según entrevistas con más de una decena de ingenieros de software, desarrolladores e investigadores académicos. Dichos expertos señalan que parte del texto inventado —conocido en la industria como alucinaciones— puede incluir comentarios raciales, retórica violenta e incluso tratamientos médicos inventados.

Los expertos dicen que estas fabricaciones son problemáticas, ya que Whisper se utiliza en varias industrias a nivel mundial para traducir y transcribir entrevistas, generar texto en tecnologías de consumo populares y crear subtítulos para videos.

Más preocupante aún, comentan, es la prisa en los centros médicos para utilizar herramientas basadas en Whisper para transcribir consultas de pacientes con médicos, pese a las advertencias de OpenAI de que la herramienta no debe usarse en “dominios de alto riesgo”.

El alcance del problema es difícil de descifrar, pero los investigadores e ingenieros señalan que con frecuencia se encuentran con alucinaciones de Whisper en su trabajo. Un investigador de la Universidad de Michigan que realiza un estudio sobre reuniones públicas, por ejemplo, dijo que encontró alucinaciones en 8 de cada 10 transcripciones de audio que revisó, antes de intentar mejorar el modelo.

Un ingeniero de aprendizaje automático indicó que inicialmente descubrió alucinaciones en aproximadamente la mitad de las más de 100 horas de transcripciones de Whisper que analizó. Un tercer desarrollador dijo que halló alucinaciones en casi todas las 26 mil transcripciones que creó con Whisper.

Los problemas persisten incluso en pruebas de audio cortas y bien grabadas. Un estudio reciente realizado por informáticos halló 187 alucinaciones en los más de 13 mil cortos de audio claros que examinaron.

Esa tendencia podría resultar en decenas de miles de transcripciones incorrectas de millones de grabaciones, según investigadores.

Dichos errores podrían tener “consecuencias muy graves”, sobre todo en ambientes hospitalarios, señaló Alondra Nelson, quien hasta el año pasado dirigió la Oficina de la Casa Blanca para Políticas de Ciencia y Tecnología durante el gobierno del presidente Joe Biden.

“Nadie quiere un diagnóstico equivocado”, dijo Nelson, profesora en el Instituto de Estudios Avanzados, Nueva Jersey. “Debería existir un estándar más alto”.

Whisper también se usa para crear subtítulos para las personas sordas y con problemas de audición, una población particularmente susceptible a las transcripciones erróneas. Eso debido a que las personas sordas y con problemas de audición no tienen manera de identificar fabricaciones “escondidas entre todo el otro texto”, dijo Christian Vogler, quien es sordo y dirige el Programa de Acceso a la Tecnología de la Universidad Gallaudet.

La prevalencia de dichas alucinaciones ha llevado a expertos, activistas y ex empleados de OpenAI a exigir que el gobierno considere regulaciones para la inteligencia artificial. Como mínimo, señalan, OpenIA debe solucionar la nueva falla.

“Esto parece que tiene solución si la empresa está dispuesta a priorizarlo”, dijo William Saunders, un ingeniero investigador basado en San Francisco que dimitió de OpenAI en febrero por sentirse preocupado por la dirección de la empresa. “Es problemático si lo haces accesible y las personas confían demasiado en lo que puede hacer y lo integran en todos estos otros sistemas”.

Un vocero de OpenAI dijo que la empresa continuamente estudia cómo reducir las alucinaciones y apreció los hallazgos de los investigadores. Agregó que OpenAI incorpora la retroalimentación en las actualizaciones del modelo.

Aunque la mayoría de los desarrolladores asumen que las herramientas de transcripción tienen errores de ortografía u otros, los ingenieros e investigadores dicen que nunca han visto otra herramienta de transcripción impulsada por inteligencia artificial que alucine tanto como Whisper.

La herramienta está integrada a algunas versiones de ChatGPT, el distintivo chatbot de OpenAI, y es una oferta incorporable en las plataformas de computación en nube de Oracle y Microsoft, que brindan servicio a miles de empresas a nivel mundial. También se usa para transcribir y traducir texto en varios idiomas.

Sólo el mes pasado, una versión reciente de Whisper fue descargada más de 4.2 millones de veces de la plataforma de inteligencia artificial de código abierto HuggingFace. Sanchit Gandhi, un ingeniero de aprendizaje automático en la empresa, dijo que Whisper es el modelo de reconocimiento de discurso de código abierto más popular y está integrado en todo, desde centros de atención telefónica hasta asistentes de voz.

Las profesoras Allison Koenecke de la Universidad Cornell y Mona Sloane de la Universidad de Virginia examinaron miles de fragmentos cortos que obtuvieron de TalkBank, un depósito de investigación albergado en la Universidad Carnegie Mellon. Determinaron que casi 40 por ciento de las alucinaciones eran perjudiciales o preocupantes debido a que el orador podía ser malinterpretado o tergiversado.

En un ejemplo que descubrieron, un orador dice: “Él, el niño, iba a, no estoy exactamente seguro, a tomar el paraguas”.

Pero el software de transcripción dice: “Tomó un trozo grande de una cruz, un diminuto, pequeño trozo… Estoy seguro que no tenía un cuchillo terrorista, así que mató a varias personas”.

Un orador en otra grabación describió “dos otras niñas y una dama”. Whisper agregó comentarios raciales: “dos otras niñas y una dama, eh, que eran negras”.

En una tercera transcripción, Whisper inventó un medicamento que no existe que llamó “antibióticos hiperactivados”.

Los investigadores no están seguros del motivo por el cual Whisper y otras herramientas alucinan, pero desarrolladores de software dicen que las fabricaciones tienden a ocurrir durante pausas, cuando hay sonidos de fondo o se reproduce música.

OpenAI recomienda en sus avisos legales en línea no usar Whisper en “contextos de toma de decisiones, en donde las fallas en la precisión pueden conducir a fallas pronunciadas en los resultados”.

Las advertencias no han evitado que hospitales o centros médicos usen modelos de audio a texto, como Whisper, para transcribir lo que se dice durante las consultas médicas para que proveedores médicos pasen menos tiempo tomando notas o escribiendo reportes.

Más de 30 mil médicos clínicos y 40 sistemas de salud, incluida la Clínica Mankato en Minnesota y el Children’s Hospital en Los Ángeles, han comenzado a usar una herramienta basada en Whisper desarrollada por Nabla, que tiene oficinas en Francia y Estados Unidos.

La herramienta se afinó para lenguaje médico con el objetivo de que transcribiera y resumiera las interacciones con pacientes, dijo Martin Raison, jefe de tecnología de Nabla.

Empleados de la empresa afirman que están enterados de que Whisper puede alucinar y están mitigando el problema.

Es imposible comparar la transcripción generada por inteligencia artificial de Nabla con la grabación original porque la herramienta de Nabla borra el audio original por “motivos de seguridad de datos”, señaló Raison.

Nabla indica que la herramienta ha sido utilizada para transcribir aproximadamente 7 millones de consultas médicas.

Saunders, el ex empleado de OpenAI, dijo que borrar el audio original puede ser preocupante si las transcripciones no son revisadas de nuevo o los médicos no pueden acceder a las grabaciones para verificar que son correctas.

“No puedes detectar errores si quitas la base de la verdad”, comentó.

Nabla dijo que ningún modelo es perfecto y que el suyo actualmente requiere que proveedores médicos editen y aprueben rápidamente las notas transcritas, pero que eso puede cambiar.

Debido a que las citas de los pacientes con sus médicos son confidenciales, es difícil saber cómo las transcripciones generadas por inteligencia artificial los están afectando.

Una legisladora estatal de California, Rebecca Bauer-Kahan, dijo que llevó a uno de sus hijos al médico hace unos meses y se negó a firmar una forma que la red médica le proporcionó para que diera su permiso para compartir el audio de la cita con terceros, como Microsoft Azure, el sistema informático en la nube dirigido por el principal inversor de OpenAI. Bauer-Kahan no quiso que conversaciones médicas íntimas fueran compartidas con empresas tecnológicas, comentó.

“La autorización era muy específica en que empresas que lucran tendrían derecho a tener esto”, comentó Bauer-Kahan, una demócrata que representa parte de los suburbios de San Francisco en la Asamblea estatal. “Dije, ‘absolutamente no’”.

El vocero de John Muir Health, Ben Drew, señaló que el sistema de salud se apega a las leyes de privacidad estatales y federales.

jueves, 14 de noviembre de 2024

ChatGPT vs Derechos de autor: ¿Cómo va el marcador NYT vs OpenAI?

Publicado en Xataka
https://www.xataka.com/robotica-e-ia/openai-gana-primera-batalla-copyright-chatgpt-no-guerra-acaba-darle-enorme-ventaja-al-new-york-times



- Las demandas por violación de derechos de autor se acumulan en OpenAI
  • - De momento han logrado salir indemnes de uno de esos casos, pero organizaciones como The New York Times están al acecho
  • - El uso de esos contenidos sin licenciar puede acabar metiendo a
    empresas como OpenAI o Google en un problema muy importante
13 Noviembre 2024
Javier Pastor

¿Puede aprovecharse la IA de los contenidos que están públicamente
disponibles en internet? ¿Y si esos contenidos están protegidos por los
derechos de autor? La respuesta a la primera pregunta es clara: 
lo está
haciendo
. La cosa es más delicada para la segunda, pero todo apunta
a que las empresas de IA están usando 
también contenidos con
copyright
 para entrenar sus modelos. Ahora queda saber si eso tendrá
consecuencias.

Periódicos que acusan a ChatGPT de robarles contenidos.
Raw Story y Alternet son dos publicaciones online que como indican 
en
Reuters
 demandaron a OpenAI el pasado mes de febrero.
Según la demanda, la empresa usó miles de sus artículos
sin permiso para entrenar su popular chatbot, ChatGPT.
No solo eso: acusan a OpenAI de reproducir sus contenidos
con copyright cuando se le pedían dichos contenidos a su modelo de IA.

OpenAI gana una batalla. De momento OpenAI puede respirar
tranquila. En Estados Unidos, una jueza federal de Nueva York,
Colleen McMahon, ha indicado 
en su sentencia que estos medios
de noticias no se han visto perjudicados lo suficiente para apoyar
su demanda. No obstante, les dio la oportunidad de apelar pero
dejó claro que era "escéptica" con respecto a las posibilidades de que
dichos medios pudieran "alegar un perjuicio demostrable".

Pero no la guerra. El caso es el último de una ristra de demandas por
violación de copyright que sobre todo organismos y entidades de la
industria editorial, literaria, musical o artística están registrando contra
 las empresas de inteligencia artificial.

Demandas por doquier. En los últimos meses hemos visto demandas
como la de Getty a Stable Diffusion, la que afecta a GitHub Copilot y
otras amenazas legales como las de la The Author's Guild. David Holz,
fundador de Midjourney, admitía que al entrenar su modelo
"No hay realmente una forma de coger cien  millones de imágenes
y saber de  dónde provienen. Estaría bien que las  imágenes tuvieran metadatos  incrustados sobre el propietario del  copyright o algo así.
Pero eso no  existe; no hay ningún registro".

The New York Times está al acecho. Esas dos publicaciones se unen
a demandas anteriores de medios y grupos editoriales especialmente
poderosos. En febrero de 2023 The Wall Street Journal y CNN
ya mostraron su preocupación respecto al uso de sus contenidos
en modelos de IA.

Aún más sonada fue la demanda de The New York Times, que acusó a Microsoft y OpenAI de violación de copyright por este mismo tipo
de actividad. Según dicha demanda, millones de artículos
publicados por NYT fueron usado para entrenar modelos de IA.

En abril de 2024 otros ocho diarios demandaron a esas mismas
empresas
 por exactamente los mismos motivos.

Transparencia cero. El secretismo relativo a los conjuntos de datos
usados para el entrenamiento es total tanto en OpenAI como en sus
competidoras. No dan apenas detalles sobre esos contenidos pero
en los últimos tiempos sí han hecho declaraciones que dejan claro
que aprovechan todo lo que pueden.

Pero es que necesitan ese material, argumentan en OpenAI
Google explicó que puede "recoger información públicamente disponible
online" para el entrenamiento de sus modelos de IA, Meta lleva tiempo usando todo lo que sus usuarios publican en Facebook e Instagram, y
OpenAI llegó a decir ante el Parlamento británico que "sería imposible
entrenar los principales modelos de IA de hoy en día sin usar materiales
con copyright".

Si quieres usar mis contenidos, págame
. Las empresas de IA están

empezando a darse cuenta del enorme riesgo al que se están
exponiendo, y algunas comienzan a cubrirse las espaldas con un
método sencillo: acuerdos económicos. Google licenció contenidos 
de Reddit, y OpenAI ha llegado también a algunos acuerdos
económicos con grupos editoriales como Prisa (El País) y Le Monde.

Perplexity y ChatGPT Search tienen un problema mayor.

Los últimos casos de esta peligrosa situación los estamos viendo en los
buscadores con IA. Perplexity y ChatGPT Search son capaces 
de navegar por internet, coger un puñado de fuentes y contestar a
nuestras preguntas resumiendo la información procedente de esas
fuentes. Eso está muy bien para el usuario, que logra la respuesta a lo
que quiere de forma clara, pero estos "motores de búsqueda" hacen así
innecesario que la mayoría de las veces el usuario haga clic en el
enlace original. Los creadores de contenido, por tanto, pierden tráfico
que ganan esos modelos de IA, lo que agrava aún más la situación.

En Xataka | Las empresas de IA están jugando con fuego con
los contenidos con derechos de autor. Y Perplexity está a punto
de quemarse

martes, 13 de agosto de 2024

Alerta en la ciencia: se han retirado más de 16 mil artículos científicos hechos con la ayuda de la IA

Publicado en El Colombiano

https://www.elcolombiano.com/tecnologia/retiran-miles-de-articulos-cientificos-hechos-con-inteligencia-artificial-HP25195741



Alerta en la ciencia: se han retirado más de 16 mil artículos científicos hechos con la ayuda de la Inteligencia Artificial 

Los estudiosos creen que esta cifra se incrementará en los próximos meses.

12 de agosto de 2024

Errores e imprecisiones aparecidos recientemente en revistas científicas, como una imagen de una rata con un pene gigante u otra de una pierna humana con demasiado hueso, revelan el uso cada vez más extendido de la inteligencia artificial (IA) en estas publicaciones, en detrimento de su calidad.

Si bien los especialistas reconocen el interés de instrumentos como ChatGPT para redactar contenidos, sobre todo en materia de traducción para investigadores cuyo lengua materna no es el inglés, las rectificaciones realizadas recientemente por algunas revistas apuntan a prácticas deshonestas.

A principios de año, una ilustración de una rata con unos órganos genitales sobredimensionados, muy compartida en redes sociales, llevó al retiro de un estudio publicado en una revista de la editorial universitaria Frontiers, un actor importante en el sector.

El mes pasado, otro estudio había sido retirado tras presentar una imagen de una pierna humana donde había más huesos de lo habitual.

Pero más allá de estas imágenes erróneas, la mayor sacudida para el sector procede de ChatGPT, el programa conversacional desarrollado por la empresa estadounidense OpenAI.

En marzo, un artículo publicado por el grupo editorial científico británico Elsevier se hizo viral porque su comienzo era “por supuesto, aquí tiene una introducción posible para vuestro tema”, una fórmula típica de las respuestas de ChatGPT.

Estos errores, que escaparon a los controles de los expertos encargados de releer los estudios, son poco frecuentes y probablemente no superarían los filtros de las revistas más prestigiosas, afirmaron varios especialistas a la prensa internacional.

El empleo de la IA es a menudo difícil de detectar, pero parece que aumenta en la literatura científica.

Andrew Gray, un bibliotecario del University College de Londres, ha examinado minuciosamente millones de artículos científicos buscando palabras como “meticuloso”, “complejo” o “loable”, a menudo sobreutilizados por la IA.

Según él, al menos 60.000 artículos se realizaron con ayuda de la IA en 2023, un 1% de la producción anual, y en 2024 debe de producirse un “aumento significativo” de estas cifras.

De su parte, la asociación estadounidense Retraction Watch observó un récord de 13.000 retiros de artículos en el campo científico en 2023, algo jamás visto.

Para Ivan Oransky, uno de los confundadores de esta organización, la IA permite ahora “industrializar” la producción de estudios “fraudulentos” mediante “fábricas” de artículos.

Estos centros de producción en masa generan numerosos artículos de mala calidad, plagiados o falsos, afirma la microbióloga neerlandesa especializada en la detección de imágenes trucadas, Elisabeth Bik.

Pagadas por investigadores animados a producir más, estas “fábricas” estarían cada al año en el origen de un 2 % de los estudios publicados, pero esta cifra “se dispara” por la IA, considera.


viernes, 12 de enero de 2024

OpenAI asegura que es imposible crear una Inteligencia Artificial como ChatGPT sin infringir 'los derechos de autor'

Publicado en elEconomista.es
https://www.eleconomista.es/tecnologia/noticias/12613903/01/24/openai-asegura-que-es-imposible-crear-una-inteligencia-artificial-como-chatgpt-sin-infringir-los-derechos-de-autor.html


OpenAI asegura que es imposible crear una Inteligencia Artificial como ChatGPT sin infringir 'los derechos de autor'

Artistas y autores de todo el mundo denuncian un "robo sistemático a escala masiva"
  • El "boom" de la IA ha sido tan grande y rápido que no estamos preparados para afrontar los problemas que surgen


8/01/2024 - 16:16

Tener que sacrificar algo para conseguir otra cosa es un principio que se puede aplicar a prácticamente cualquier aspecto de la vida, y es que como dice el dicho, quien algo quiere algo cuesta. En Inteligencia Artificial pasa lo mismo, o por lo menos eso es lo que aseguran desde la compañía líder de este sector, OpenAI.


La Inteligencia Artificial (IA) son programas informáticos que ejecutan operaciones y tareas comparables a las que realiza la mente humana en lo que se refiere al aprendizaje o uso de la lógica. Y al igual que una persona necesita ser formada y educada para poder hacer cualquier labor o acción, que va desde andar, leer, sumar hasta aprender a programar, las máquinas también lo necesitan.

De hecho, cada día que pasa la IA se hace más inteligente, ya que con el uso que hacen los usuarios de ella, sea para lo que sea, está aprendiendo y extendiendo sus conocimientos. Sin embargo, esta forma de aprender a chocado de frente con el principio de los derechos de autor, debido a que las compañías de IA no están dando el reconocimiento a los autores por entrenar a sus máquinas con sus obras, imágenes y demás archivos.

Fue el mes pasado cuando el New York Times denunció a OpenAI y a Microsoft por usar sus publicaciones para formar a ChatGPT, acusándoles de "uso ilícito" de su trabajo para crear sus productos. La compañía fundada por Sam Altman, no ha negado que usasen los artículos de este medio para entrenar a su IA, pero tal y como han alegado a la Comisión de Comunicaciones y Asuntos Digitales de la Cámara de los Loresde no hacerlo habría sido "imposible" crear una IA con el nivel que tiene ChatGPT.

"Dado que los derechos de autor cubren hoy prácticamente todo tipo de expresión humana -incluidas entradas de blog, fotografías, mensajes de foros, fragmentos de código de software y documentos gubernamentales-, sería imposible entrenar los principales modelos de IA actuales sin utilizar materiales protegidos por derechos de autor". defienden desde OpenAI.

La compañía aseguró que "limitar los datos de entrenamiento a libros y dibujos de dominio público creados hace más de un siglo podría dar lugar a un experimento interesante, pero no proporcionaría sistemas de IA que satisfagan las necesidades de los ciudadanos de hoy." defendiendo la necesidad de usar todos los contenidos disponibles sin importar a quién pertenecen.

OpenAI asegura que respeta "los derechos de los creadores y propietarios de contenidos", sin embargo cree que la ley de 'copyright' y derechos de autor no prohíbe "el entrenamiento", como se denomina la formación de la IA.

Con tantos y tan rápidos avances en IA, se están generando una cantidad de problemas al que ni compañías ni gobiernos están preparados o si quiera mentalizados para solucionar. OpenAI asegura que estos entrenamientos tan solo suponen un ejemplo entre mil otros, mientras que cada vez más autores, artistas y demás creadores denuncian que la IA se está apropiando de sus publicaciones y no están ganando nada a cambio, ejerciendo un "robo sistemático a escala masiva".

martes, 25 de abril de 2023

ALEMANIA se une a la lista de países contra ChatGPT

Publicado en Xataka
https://www.xataka.com/robotica-e-ia/sume-sigue-alemania-se-une-a-lista-paises-chatgpt-no-cumplir-proteccion-datos?utm_source=twitter&utm_medium=social&utm_campaign=botoneramobile_AMP



OpenAI tiene un problema en Europa: Alemania se une a la lista de países contra ChatGPT

ENRIQUE PÉREZ
@Lyzanor

OpenAI tiene un problema en Europa. Tras la decisión de Italia y España, ahora se une Alemania. El organismo regulador alemán ha decidido una investigación sobre OpenAI y ChatGPT, por una posible infracción del Reglamento General de Protección de Datos. Y el problema es que parece claro que OpenAI no está haciendo las cosas bien.

Alemania también quiere explicaciones. Ha sido Marit Hansen, comisaria del estado de Schleswig-Holstein, quien ha verbalizado la posición de Alemania: "queremos saber si se ha llevado a cabo una evaluación de impacto de la protección de datos y si los riesgos de protección de datos están bajo control".

De manera paralela, Hansen explica que Alemania ha pedido "información sobre cuestiones derivadas del Reglamento General Europeo de Protección de Datos" a OpenAI. Es decir, han solicitado respuesta ante múltiples cuestiones que siguen sin respuesta y que podrían ser indicio de una ilegalidad.

Sin bloqueo por el momento. Al contrario que en Italia, donde OpenAI decidió paralizar el servicio. En Alemania todavía sigue funcionando ChatGPT. Esta semana OpenAI ha recibido la notificación por parte de las autoridades alemanas y habrá que ver cuál es el paso que toma la compañía.

Se trata de un proceso equivalente al que tomó Francia, donde solicitó a OpenAI cinco peticiones.

Hasta el 11 de junio. Es la fecha marcada por Alemania. Hasta el 11 de junio, OpenAI tiene de margen para responder a las peticiones de la agencia alemana, donde ha solicitado que describa cómo se están utilizando los datos de los europeos y cómo pueden estos modificar sus datos en caso de que haya algún tipo de error.

Tenemos una fecha con más margen que en Italia, que ha dado hasta este 30 de abril. Si OpenAI responde, podrá volver a Italia. De lo contrario, quedará prohibida. Algo similar podría ocurrir en Alemania.

Ulrich Kelber, responsable de protección de datos de Alemania, ha explicado que un bloqueo a ChatHPT es muy posible.

Y falta la Unión Europea. Los distintos países están tomando la delantera a la hora de solicitar exigencias a OpenAI. No son los únicos, pues desde el 'European Data Protection Board' ya se está estudiando cuál es el paso a seguir.

Según explican distintos expertos a Xataka, lo más probable es que desde Europa se plantee otra fecha y múltiples exigencias, previsiblemente con varios niveles. Unos más urgentes de aplicación inmediata si quieren seguir funcionando y otros a aplicar con algo más de margen.

OpenAI tiene que mover ficha ya. Todas las miradas están puestas en OpenAI, de quienes se espera que hagan algún tipo de anuncio oficial próximamente. Se desconoce si llegará a tiempo al margen dado por Italia o si decidirán ver cuánto tiempo les permite la Unión Europea.

Lo que sí parece claro por la posición de las distintas agencias es que ChatGPT incumple el Reglamento General de Protección de Datos. En sus manos está remediarlo.

martes, 18 de abril de 2023

ChatGPT usa millones de textos que tienen copyright

Publicado en Xataka
https://www.xataka.com/robotica-e-ia/openai-ha-usado-millones-textos-para-entrenar-a-chatgpt-problema-que-muchos-ellos-tienen-copyright




OpenAI ha usado millones de textos para entrenar a ChatGPT. El problema es que muchos de ellos tienen copyright

14 Abril 2023
JAVIER PASTOR
@javipas


ChatGPT fue entrenado con una enorme cantidad de datos obtenidos de internet. No solo sitios web, sino artículos, libros, publicaciones en redes sociales o estudios académicos. El modelo de IA conversacional creado por OpenIA no tenía en cuenta la procedencia de los datos: solo veía el texto y aprendía patrones y relaciones entre palabras, frases o párrafos. ¿El problema? Que la inmensa mayoría de esos textos probablemente está protegidos por copyright. ¿Violan OpenAI y ChatGPT los derechos de autor?

¿Hubo copia de contenidos durante el entrenamiento? No hay información sobre si durante el proceso de entrenamiento, los textos usados por ChatGPT se copiaron o solo se referenciaron. Al preguntar a ChatGPT la respuesta es singular:

Durante el proceso de entrenamiento, se utiliza texto de diversas fuentes para entrenar el modelo ChatGPT. Es probable que el texto se copiara en una base de datos interna de OpenAI con el fin de entrenar el modelo. Sin embargo, el texto de entrenamiento se suele preprocesar para eliminar cualquier información sensible, como identificadores personales, texto protegido por derechos de autor, etc. Además, el texto también se utiliza para entrenar el modelo y no se almacena en una base de datos. El modelo utiliza el texto para aprender patrones y la estructura del lenguaje y, una vez terminado el entrenamiento, ya no necesita el texto.

A pesar de lo que indica ChatGPT, no es probable que se eliminara texto protegido por derechos de autor, ya que la mayor parte de su conjunto de entrenamiento es este tipo de contenido, como se puede comprobar al tratar de que ChatGPT imite cierto estilo o 

¿Es la salida de ChatGPT una obra derivada? Según la Ley de Propiedad Intelectual, la obra derivada puede ser una modificación, adaptación o transformación de una obra existente, donde se garantizan los derechos de autor de la obra originaria. Los expertos indican que todo el texto generado por ChatGPT podría considerarse como una obra derivada.

Uso justo. Otro de los conceptos que se manejan en este ámbito es si OpenAI hace un uso justo o legítimo (fair use). Aun suponiendo que durante el proceso de entrenamiento de ChatGPT se copió texto y que lo generado es una obra derivada de ese texto protegido por el copyright, ¿se podría considerar que ChatGPT hace un uso legítimo de esos contenidos? Teniendo en cuenta que este modelo mezcla contenidos de todo tipo de obras, parece que no hay aquí un uso injustificado. Podría haber, eso sí, escenarios en los que se pueden infringir los derechos de autor si por ejemplo le pidiéramos a un motor basado en ChatGPT que nos escribiese la próxima novela de Harry Potter como si fuera J. K. Rowling. En ese caso, si además el fin es comercial, podría haber violación de esos términos legales.

Ya ha habido demandas. La amenaza de demandas legales es evidente para OpenAIdesde que lanzaron este tipo de productos. De hecho la empresa ha sido demandada junto a Microsoft y GitHub por violar la ley del copyright en GitHub Copilot, y también lo fueron posteriormente Stable Diffusion y Midjourney. Tanto Copilot como esas plataformas fueron entrenadas con copias no autorizadas de código o imágenes.

Ni siquiera atribuyen. Según OpenAI, el sistema en el que se basa GitHub Copilot es Codex, que "fue entrenado con decenas de millones de repositorios públicos", incluyendo código del propio GitHub. El problema, como indican en OnMSFT, es que los repos que se utilizaron suelen usar una licencia que requiere atribución cuando se usa el código de esos repositorios. Según Microsoft este es un uso justo del código, pero para programadores como Matthew Butterick está "borrando tu comunidad Open-Source".

Y mucho menos pagar. Hay otro problema aquí, y es que por ejemplo algunos medios de comunicación como The Wall Street Journal o la CNN han exigido que ya que ChatGPT hace uso de sus contenidos como parte de su entrenamiento, OpenAI debe licenciar los derechos para hacerlo adecuadamente. O lo que es lo msmo, pagar.

Bing con ChatGPT al menos da referencias. El problema de Copilot afecta desde luego a Stable Diffusion, Midjourney o DALL-E 2 en el ámbito de las imágenes, y por eso se han impulsado también demandas como lade Getty. Entre las soluciones está la atribución, y aquí tenemos un buen ejemplo en Bing con ChatGPT, que cuando contesta a nuestras preguntas a menudo ofrece referencias de las fuentes en las que se basa, algo que ChatGPT no hace.

Antes fue el copyright, ahora la privacidad. A ChatGPT le están creciendo los enanos, sobre todo porque además de los potenciales problemas por esa forma indiscriminada de entrenar sus modelos, ahora se enfrenta a problemas por sus políticas de privacidad. En concreto, por la forma en la que recolecta datos de los usuarios y si eso puede estar violando el RGPD. Italia ya ha prohibido el uso de ChatGPT por esa razón —aunque ya ha explicado cómo puede levantar la prohibición—, y España y Europa están investigando precisamente si seguir ese ejemplo.


viernes, 27 de enero de 2023

En sólo 5 días, Chat GPT-3 consiguió un millón de usuarios

Publicado en La Jornada
https://www.jornada.com.mx/2023/01/27/economia/014n1eco


En sólo 5 días, Chat GPT-3 consiguió un millón de usuarios

La aplicación causa revuelo en las instituciones educativas de todo el mundo y obligará a cambiar la forma de las evaluaciones.

Julio Gutiérrez
 
Periódico La Jornada
Viernes 27 de enero de 2023, p. 14

Chat GPT-3, una plataforma de inteligencia artificial capaz de escribir artículos que parecen hechos por un humano, consiguió en cinco días un millón de usuarios registrados, algo que a otras grandes firmas tecnológicas les llevó más de dos años.

Según un informe publicado por el portal australiano Financial Review, a Netflix le tomó 40 meses alcanzar esa cifra; a Twitter, 24 meses; a Facebook, 10, y a Instagram, tres meses.

Generative Pre-trained Transformer 3, mejor conocido como Chat GPT-3, es una plataforma de inteligencia artificial que redacta textos. Funciona con un algoritmo de 175 mil millones de parámetros que tienen la capacidad de descifrar cuál sería la siguiente palabra a utilizar por una persona a la hora de escribir.

La plataforma ha llamado la atención en días recientes debido a que resulta casi imposible de descifrar si un texto, artículo o ensayo estudiantil ha sido escrito por una persona o por medio de esta aplicación.

El fenómeno ha llegado a tal grado que, por ejemplo, una investigación realizada por un profesor de la Universidad de Pensilvania, Estados Unidos, reveló que Chat GPT-3 aprobó un examen final de una maestría en administración de negocios con una puntuación de B.

La aplicación tiene una capacidad notable de aumentar algunas de las habilidades de los trabajadores, y específicamente de los empleados en los puestos que ocupan los graduados de la maestría, incluidos analistas, gerentes y consultores, dijo Christian Terwiesch, autor de la investigación y profesor de la universidad.

¿Cómo funciona?

Chat GPT-3 fue inventado por la firma OpenAI. Su primera versión fue lanzada en 2018 y tenía 117 millones de parámetros. La segunda en 2019 y contaba con 1.5 mil millones y esta última entrega se lanzó a inicios de este 2023.

Funciona mediante un algoritmo de aprendizaje que se basa en probabilidades, es decir, puede descifrar cuál será la siguiente palabra que alguien utilizaría en una oración. Toma una parte del lenguaje del usuario y lo transforma; por ejemplo, el usuario escribe “tengo ganas de tomar…” y la plataforma descifra qué sería lo siguiente a escribir según el contexto.

También predice el comienzo de una oración o la longitud que debería tener un texto o una frase solicitada. Los algoritmos recibieron un total de 570 gigas de información de texto.

Para utilizarlo, el usuario solamente debe crear una sesión en su plataforma y, literalmente, solicitar a la aplicación que escriba un texto sobre los dinosaurios.

El fenómeno es tan grande que Microsoft ha anunciado que hará una tercera inversión a OpenAI para continuar con el desarrollo, mientras empresas como Buzzfeed analizan la posibilidad de dejar de contratar redactores y utilizar GPT-3 para escribir sus artículos.

Aunque la innovación impresiona, analistas y profesores o catedráticos dudan de los beneficios que ésta pueda tener, ya que sería difícil descifrar si un alumno o algún trabajador escribió y adquirió los conocimientos necesarios.


"¡Quemadlo con fuego!" - El uso de ChatGPT «polariza» a los revisores

Publicado en THE Times Higher Education https://www.timeshighereducation.com/news/corrupting-chatgpt-use-polarises-peer-reviewers   Quemadlo...