Mostrando entradas con la etiqueta Inteligencia artificial generativa. Mostrar todas las entradas
Mostrando entradas con la etiqueta Inteligencia artificial generativa. Mostrar todas las entradas

lunes, 13 de enero de 2025

Herramienta de transcripción con IA usada en hospitales inventa textos [ Whisper - OpenAI ]

Publicado en La Jornada
https://www.jornada.com.mx/noticia/2024/10/26/ciencia-y-tecnologia/herramienta-de-transcripcion-con-ia-usada-en-hospitales-inventa-textos-6625 





Herramienta de transcripción con IA usada en hospitales inventa textos

26 de octubre de 2024 

San Francisco. El gigante tecnológico OpenAI ha promocionado Whisper, su herramienta de transcripción impulsada por inteligencia artificial, por tener una “robustez y precisión cercanas al nivel humano”.

Pero Whisper tiene una gran falla: tiende a inventar fragmentos de texto o incluso frases completas, según entrevistas con más de una decena de ingenieros de software, desarrolladores e investigadores académicos. Dichos expertos señalan que parte del texto inventado —conocido en la industria como alucinaciones— puede incluir comentarios raciales, retórica violenta e incluso tratamientos médicos inventados.

Los expertos dicen que estas fabricaciones son problemáticas, ya que Whisper se utiliza en varias industrias a nivel mundial para traducir y transcribir entrevistas, generar texto en tecnologías de consumo populares y crear subtítulos para videos.

Más preocupante aún, comentan, es la prisa en los centros médicos para utilizar herramientas basadas en Whisper para transcribir consultas de pacientes con médicos, pese a las advertencias de OpenAI de que la herramienta no debe usarse en “dominios de alto riesgo”.

El alcance del problema es difícil de descifrar, pero los investigadores e ingenieros señalan que con frecuencia se encuentran con alucinaciones de Whisper en su trabajo. Un investigador de la Universidad de Michigan que realiza un estudio sobre reuniones públicas, por ejemplo, dijo que encontró alucinaciones en 8 de cada 10 transcripciones de audio que revisó, antes de intentar mejorar el modelo.

Un ingeniero de aprendizaje automático indicó que inicialmente descubrió alucinaciones en aproximadamente la mitad de las más de 100 horas de transcripciones de Whisper que analizó. Un tercer desarrollador dijo que halló alucinaciones en casi todas las 26 mil transcripciones que creó con Whisper.

Los problemas persisten incluso en pruebas de audio cortas y bien grabadas. Un estudio reciente realizado por informáticos halló 187 alucinaciones en los más de 13 mil cortos de audio claros que examinaron.

Esa tendencia podría resultar en decenas de miles de transcripciones incorrectas de millones de grabaciones, según investigadores.

Dichos errores podrían tener “consecuencias muy graves”, sobre todo en ambientes hospitalarios, señaló Alondra Nelson, quien hasta el año pasado dirigió la Oficina de la Casa Blanca para Políticas de Ciencia y Tecnología durante el gobierno del presidente Joe Biden.

“Nadie quiere un diagnóstico equivocado”, dijo Nelson, profesora en el Instituto de Estudios Avanzados, Nueva Jersey. “Debería existir un estándar más alto”.

Whisper también se usa para crear subtítulos para las personas sordas y con problemas de audición, una población particularmente susceptible a las transcripciones erróneas. Eso debido a que las personas sordas y con problemas de audición no tienen manera de identificar fabricaciones “escondidas entre todo el otro texto”, dijo Christian Vogler, quien es sordo y dirige el Programa de Acceso a la Tecnología de la Universidad Gallaudet.

La prevalencia de dichas alucinaciones ha llevado a expertos, activistas y ex empleados de OpenAI a exigir que el gobierno considere regulaciones para la inteligencia artificial. Como mínimo, señalan, OpenIA debe solucionar la nueva falla.

“Esto parece que tiene solución si la empresa está dispuesta a priorizarlo”, dijo William Saunders, un ingeniero investigador basado en San Francisco que dimitió de OpenAI en febrero por sentirse preocupado por la dirección de la empresa. “Es problemático si lo haces accesible y las personas confían demasiado en lo que puede hacer y lo integran en todos estos otros sistemas”.

Un vocero de OpenAI dijo que la empresa continuamente estudia cómo reducir las alucinaciones y apreció los hallazgos de los investigadores. Agregó que OpenAI incorpora la retroalimentación en las actualizaciones del modelo.

Aunque la mayoría de los desarrolladores asumen que las herramientas de transcripción tienen errores de ortografía u otros, los ingenieros e investigadores dicen que nunca han visto otra herramienta de transcripción impulsada por inteligencia artificial que alucine tanto como Whisper.

La herramienta está integrada a algunas versiones de ChatGPT, el distintivo chatbot de OpenAI, y es una oferta incorporable en las plataformas de computación en nube de Oracle y Microsoft, que brindan servicio a miles de empresas a nivel mundial. También se usa para transcribir y traducir texto en varios idiomas.

Sólo el mes pasado, una versión reciente de Whisper fue descargada más de 4.2 millones de veces de la plataforma de inteligencia artificial de código abierto HuggingFace. Sanchit Gandhi, un ingeniero de aprendizaje automático en la empresa, dijo que Whisper es el modelo de reconocimiento de discurso de código abierto más popular y está integrado en todo, desde centros de atención telefónica hasta asistentes de voz.

Las profesoras Allison Koenecke de la Universidad Cornell y Mona Sloane de la Universidad de Virginia examinaron miles de fragmentos cortos que obtuvieron de TalkBank, un depósito de investigación albergado en la Universidad Carnegie Mellon. Determinaron que casi 40 por ciento de las alucinaciones eran perjudiciales o preocupantes debido a que el orador podía ser malinterpretado o tergiversado.

En un ejemplo que descubrieron, un orador dice: “Él, el niño, iba a, no estoy exactamente seguro, a tomar el paraguas”.

Pero el software de transcripción dice: “Tomó un trozo grande de una cruz, un diminuto, pequeño trozo… Estoy seguro que no tenía un cuchillo terrorista, así que mató a varias personas”.

Un orador en otra grabación describió “dos otras niñas y una dama”. Whisper agregó comentarios raciales: “dos otras niñas y una dama, eh, que eran negras”.

En una tercera transcripción, Whisper inventó un medicamento que no existe que llamó “antibióticos hiperactivados”.

Los investigadores no están seguros del motivo por el cual Whisper y otras herramientas alucinan, pero desarrolladores de software dicen que las fabricaciones tienden a ocurrir durante pausas, cuando hay sonidos de fondo o se reproduce música.

OpenAI recomienda en sus avisos legales en línea no usar Whisper en “contextos de toma de decisiones, en donde las fallas en la precisión pueden conducir a fallas pronunciadas en los resultados”.

Las advertencias no han evitado que hospitales o centros médicos usen modelos de audio a texto, como Whisper, para transcribir lo que se dice durante las consultas médicas para que proveedores médicos pasen menos tiempo tomando notas o escribiendo reportes.

Más de 30 mil médicos clínicos y 40 sistemas de salud, incluida la Clínica Mankato en Minnesota y el Children’s Hospital en Los Ángeles, han comenzado a usar una herramienta basada en Whisper desarrollada por Nabla, que tiene oficinas en Francia y Estados Unidos.

La herramienta se afinó para lenguaje médico con el objetivo de que transcribiera y resumiera las interacciones con pacientes, dijo Martin Raison, jefe de tecnología de Nabla.

Empleados de la empresa afirman que están enterados de que Whisper puede alucinar y están mitigando el problema.

Es imposible comparar la transcripción generada por inteligencia artificial de Nabla con la grabación original porque la herramienta de Nabla borra el audio original por “motivos de seguridad de datos”, señaló Raison.

Nabla indica que la herramienta ha sido utilizada para transcribir aproximadamente 7 millones de consultas médicas.

Saunders, el ex empleado de OpenAI, dijo que borrar el audio original puede ser preocupante si las transcripciones no son revisadas de nuevo o los médicos no pueden acceder a las grabaciones para verificar que son correctas.

“No puedes detectar errores si quitas la base de la verdad”, comentó.

Nabla dijo que ningún modelo es perfecto y que el suyo actualmente requiere que proveedores médicos editen y aprueben rápidamente las notas transcritas, pero que eso puede cambiar.

Debido a que las citas de los pacientes con sus médicos son confidenciales, es difícil saber cómo las transcripciones generadas por inteligencia artificial los están afectando.

Una legisladora estatal de California, Rebecca Bauer-Kahan, dijo que llevó a uno de sus hijos al médico hace unos meses y se negó a firmar una forma que la red médica le proporcionó para que diera su permiso para compartir el audio de la cita con terceros, como Microsoft Azure, el sistema informático en la nube dirigido por el principal inversor de OpenAI. Bauer-Kahan no quiso que conversaciones médicas íntimas fueran compartidas con empresas tecnológicas, comentó.

“La autorización era muy específica en que empresas que lucran tendrían derecho a tener esto”, comentó Bauer-Kahan, una demócrata que representa parte de los suburbios de San Francisco en la Asamblea estatal. “Dije, ‘absolutamente no’”.

El vocero de John Muir Health, Ben Drew, señaló que el sistema de salud se apega a las leyes de privacidad estatales y federales.

martes, 17 de diciembre de 2024

¿Es la inteligencia artificial generativa una aliada de la ciencia abierta?

Versión preprint publicada en IWETEL@listserv.rediris.es / ThinkEPI ThinkEPI <thinkepi@gmail.com>

La versión definitiva ha sido publicada en la revista Anuario ThinkEPI:
López-Borrull, A. (2024). ¿Es la inteligencia artificial generativa una aliada de la ciencia abierta?. Anuario ThinkEPI, 18. https://doi.org/10.3145/thinkepi.2024.e18a40


¿Es la inteligencia artificial generativa una aliada de la ciencia abierta?




Introducción

La especialización en nuestros campos científicos a menudo nos lleva a crear compartimentos estancos que separan nuestra realidad de nuestros contextos. Ante un punto de inflexión significativo, nos resulta difícil integrar este nuevo elemento en nuestro camino debido al desconocimiento o la inercia. Esto es particularmente evidente en el caso de la inteligencia artificial generativa (IAG), que se explora más como una herramienta que como un motor de cambio conceptual.


Este otoño intenté desafiar al asistente digital Copilot sobre la relación entre la ciencia abierta y la IAG. Reflexionando sobre las interacciones entre especies (mutualismo, parasitismo, depredación...), me pregunté cuál de estas relaciones podría aplicarse en este caso. Le pregunté específicamente quién se beneficiaba más de esta intersección, si la IAG o la ciencia abierta. Su respuesta, que inició la reflexión de este artículo, fue clara: "La intersección entre la IAG y la ciencia abierta ofrece beneficios significativos tanto para la IAG como para la ciencia abierta, pero en términos de quién se beneficia más, parece que la ciencia abierta obtiene las ventajas más sustanciales". ¿Es esto cierto o estamos pasando por alto algo en el camino?


En la revisión de la poca literatura existente sobre los desafíos y oportunidades que la IAG presenta para la ciencia abierta, se destacan algunas ideas. En primer lugar, muy recientemente Hosseini et al (2024) exploran tanto los impactos positivos como negativos de la IAG en las prácticas de la ciencia abierta. Los autores subrayan que, aunque puede simplificar conceptos científicos complejos y mejorar la gestión de datos y la programación,  la IAG también puede generar síntesis erróneas (las famosas alucinaciones), además de introducir inexactitudes en el código y producir informes de revisión superficiales, por lo que hace énfasis en la baja confianza en la creación de contenidos por parte de la IAG. Así, apuntan que aunque tiene el potencial de avanzar en objetivos compartidos con la ciencia abierta, también presenta riesgos significativos que deben ser considerados para no caer en la fe ciega de la nueva tecnología. Como en otros ámbitos, los autores apuntan a un escenario abierto con ventajas e inconvenientes por explorar.


Por otro lado, Acian et al (2023), se habían centrado en los desafíos éticos que la IAG planteaba para la ciencia abierta Los autores argumentan que la IAG puede causar discriminación y daños, contraviniendo los propios valores del movimiento por la ciencia abierta. Además, señalaron que la ciencia abierta proporciona datos abiertos de alta calidad que son utilizados por la IAG, lo que plantea el dilema de cómo compartir datos sin que sean utilizados de manera perjudicial. Así, proponen crear mecanismos de gobernanza para proteger el conocimiento como bien común y el derecho a la investigación como un derecho humano. Es interesante cómo la propia alimentación de la herramienta hace reflexionar sobre el público potencial de la compartición de artículos o datos, como algo que no se hubiera tenido en cuenta hasta ahora o se pudiera conectar o desconectar fácilmente, como un interruptor. Trataremos este asunto más adelante.


Finalmente, en un enfoque más práctico, Zhou (2024) aborda cómo la IAG puede ayudar a los editores a enfrentar sus desafíos en la transformación digital y el movimiento de la ciencia abierta. En este sentido, se destaca la utilización de la IAG para mejorar la visibilidad y accesibilidad de los contenidos, automatizar procesos editoriales, detectar problemas de integridad en la investigación, así como para diversificar las fuentes de ingresos. Como resumen, mientras algunos autores consideran la IAG como una herramienta para mejorar y hacer más eficiente la compartición de conocimiento, otros autores adoptan una perspectiva crítica sobre los riesgos éticos.

 

Ventajas e inconvenientes del uso de la IAG en ciencia abierta

Como comentábamos anteriormente, la relación entre estos dos conceptos puede compararse con las interacciones biológicas entre especies, como el parasitismo y el mutualismo. En un escenario de parasitismo, la IAG podría aprovecharse de los datos abiertos sin contribuir de vuelta, beneficiándose unilateralmente. Por otro lado, en un escenario de mutualismo, tanto la IAG como la ciencia abierta se benefician mutuamente: la IAG mejoraría gracias a los datos accesibles, y la ciencia abierta se enriquecería con nuevas herramientas y nuevos conocimientos facilitados por la IAG. Esta comparación ilustra la complejidad y el potencial de la interacción entre la IAG y la ciencia abierta, destacando la necesidad de un enfoque equilibrado y colaborativo. ¿No debíamos compartir sin filtro, no era eso la ciencia abierta? Sin duda, el punto crítico para que esta relación sea verdaderamente beneficiosa es que la IAG se desarrolle y utilice de manera ética y transparente, asegurando que los datos abiertos sean utilizados de manera responsable y que los resultados generados por la IAG  sean verificables y reproducibles. Y esto aunque no está asegurado, no debería ser según mi punto de vista, un motivo para cerrar contenidos sino para pedir más garantías y reflexión. Y más en un contexto donde la existencia de contenidos de calidad es básica en todos los entornos, ya sean sitios web o redes sociales, pero también repositorios académicos y servidores de preprints.


Sin duda, el beneficio mutuo pasaría por entender que la introducción de la IAG puede beneficiar al conocimiento científico si ayuda a mejorar su calidad, no su cantidad. Si consideramos que la IAG nos va a ayudar a crear más contenidos, más artículos, más datasets,..., tendremos mucha más ciencia abierta, pero no necesariamente mejor ciencia. Y aquí es donde se vislumbra el punto más importante. La ciencia abierta no es un fin por sí mismo sino un medio para mejorar el proceso de diseminación del conocimiento y por ende la propia ciencia. ¿Deberían las herramientas de IAG beber de repositorios y revistas científicas? Desde esta visión, sin duda. ¿Pueden existir riesgos éticos y legales? Sí, aquellos intrínsecos a la propia herramienta (sesgos, desinformación, incumplimiento de los derechos de autor), pero parece más una condición para el trabajo conjunto que para crear falsas barreras que pueden ser derivadas (vía Scihub, por ejemplo).


A nivel práctico, la IAG puede mejorar sin duda la gestión y el uso de datos de investigación abiertos. Herramientas basadas en IAG pueden ayudar en la creación de planes de gestión de datos, la validación y limpieza de datos, y la generación de metadatos. Esto facilita la reutilización y la interoperabilidad de los datos, siendo más FAIR que nunca. Al automatizar estos procesos, la IAG permite a los investigadores centrarse en tareas más creativas, aumentando la eficiencia y la productividad en la investigación científica. De nuevo, pero, esta eficiencia debe enfocarse en tener incentivos para mejorar los datos y filtrar aquellos que pueden aportar valor de los que no.


Sin embargo, todo lo expuesto anteriormente no omite que haya que considerar también otro posible aspecto negativo, que sería la posibilidad de que la IAG perpetúe y amplifique los sesgos existentes en los datos de entrenamiento. Si los modelos de IAG se entrenan con datos que contienen sesgos de género, raza o socioeconómicos, estos sesgos pueden reflejarse y amplificarse en los resultados generados. Nuestros sesgos creando nuevos sesgos. Esto no solo contraviene los principios de equidad y diversidad de la ciencia abierta, sino que también puede llevar a la exclusión de ciertos grupos y perspectivas en la investigación científica. Además, la falta de transparencia en los algoritmos y procesos de la IAG puede dificultar la identificación y corrección de estos sesgos.


Asimismo, debemos también considerar que la IAG puede facilitar la creación de contenido científico de baja calidad o incluso fraudulento. La capacidad de generar textos y artículos científicos de manera automática puede ser explotada por actores malintencionados para producir publicaciones falsas o de baja calidad, lo que aumenta el ruido en la literatura científica y dificulta la identificación de investigaciones válidas y relevantes. Esto puede afectar negativamente la visibilidad y la credibilidad de la ciencia abierta, ya que la proliferación de contenido de baja calidad puede desincentivar la participación y la colaboración en la comunidad científica. En resumen, aunque la IAG tiene el potencial de beneficiar a la ciencia abierta, también presenta riesgos significativos que deben ser gestionados cuidadosamente para evitar daños al movimiento.


Como hemos comentado anteriormente, la apertura de contenidos en el ámbito de la ciencia abierta mediante la IAG plantea importantes consideraciones éticas. En el caso de la IAG, la disponibilidad de grandes repositorios de datos puede mejorar la precisión y creatividad de los modelos, pero también plantea preguntas sobre la privacidad y el consentimiento de los datos utilizados. Es esencial establecer directrices claras sobre el uso y la distribución de datos en repositorios y revistas científicas, así como fomentar una cultura de responsabilidad y ética en la investigación.


La ética en la ciencia abierta y la IAG también implica considerar quién tiene acceso a estos recursos y cómo se utilizan. La idea de abrir contenidos a todo el mundo, pero no necesariamente a todas las inteligencias, plantea un dilema sobre la equidad y la justicia en la distribución del conocimiento. Si bien la ciencia abierta busca democratizar el acceso a la información, es crucial asegurarse de que este acceso no se limite a aquellos con las capacidades tecnológicas para aprovecharlo plenamente. Además, es importante reflexionar sobre cómo se pueden proteger los derechos de los individuos y las comunidades cuyos datos se utilizan en la investigación, garantizando que se respeten su privacidad y autonomía.

 

Conclusión

La aceleración tecnológica que implica la IAG tiene la capacidad de transformar el panorama científico. La tecnología permite la creación de plataformas más eficientes para compartir y acceder a datos científicos, lo que puede potenciar la colaboración y la innovación. Sin embargo, esta rápida evolución también puede generar una sobrecarga de información, creando una "burbuja de ruido documental" que dificulte la identificación de información relevante y de calidad. Parece oportuno en este sentido desarrollar estrategias para gestionar este flujo de datos y garantizar que la ciencia abierta mantenga su objetivo de mejorar la calidad y accesibilidad de la investigación científica. La integración de la IAG en estos procesos puede ser una herramienta valiosa, siempre y cuando se utilice de manera ética y responsable, preservando el espíritu original de la ciencia abierta: hacer la ciencia más accesible y colaborativa, no simplemente aumentar la cantidad de información disponible. Dicha aceleración y ahorro de tiempo no debería usarse para generar más contenidos, sino mejor conocimiento.


En conclusión, la relación entre la ciencia abierta y la IAG como se ha visto puede definirse como incipiente, compleja, llena de potencial, matices y riesgos. La IAG tiene el potencial de transformar la manera en que se produce y se comparte el conocimiento, pero es crucial abordar las consideraciones éticas y gestionar adecuadamente la aceleración tecnológica para asegurar que estos avances beneficien adecuadamente a la comunidad científica y a la sociedad en general. La ciencia abierta debe seguir promoviendo la transparencia, la colaboración y la accesibilidad, integrando de manera responsable cualquier nueva tecnología para cumplir con su misión de mejorar la ciencia, para tod@s, para siempre.

 

Referencias bibliográficas

 

Acion, L., Rajngewerc, M., Randall, G.; Etcheverry, L. (2023). Generative AI poses ethical challenges for open science. Nat Hum Behav 7, 1800–1801 (2023). https://doi.org/10.1038/s41562-023-01740-4

 

Hosseini, M.; Horbach, S.P.J.M; Holmes, K.; Ross-Hellauer, T. (2024). Open Science at the generative AI turn: An exploratory analysis of challenges and opportunities. Quantitative Science Studies 2024; https://doi.org/10.1162/qss_a_00337 

 

Zhou, H. (2024). The Top Ten Challenges, Needs, and Goals of Publishers – and How AI Can Help in Digital Transformation and the Open Science Movement https://scholarlykitchen.sspnet.org/2024/11/05/the-top-ten-challenges-needs-and-goals-of-publishers-and-how-ai-can-help-in-digital-transformation-and-the-open-science-movement/


*************************

Natalia Arroyo, directora
Isabel Olea, coordinadora

martes, 10 de diciembre de 2024

Editoriales están vendiendo artículos para entrenar IA y generando millones de dólares

 Publicado en blog Universo abierto
https://universoabierto.org/2024/12/10/los-editores-estan-vendiendo-articulos-para-entrenar-ia-y-generando-millones-de-dolares/




Los editores están vendiendo artículos para entrenar IA y generando millones de dólares

Kwon, Diana. «Publishers Are Selling Papers to Train AIs — and Making Millions of Dollars.» Nature, December 9, 2024. https://www.nature.com/articles/d41586-024-04018-5.

Con el aumento de la popularidad de la inteligencia artificial generativa (IA), varios editores académicos han establecido acuerdos con empresas tecnológicas que buscan utilizar contenido académico para entrenar los grandes modelos de lenguaje (LLMs) que sustentan sus herramientas de IA. Estos acuerdos han resultado altamente lucrativos, generando millones de dólares para los editores involucrados.

Roger Schonfeld, co-creador de un nuevo rastreador de acuerdos y vicepresidente de bibliotecas, comunicación académica y museos en Ithaka S+R, una firma de consultoría en educación superior con sede en Nueva York, comenta: “Estábamos observando anuncios de estos acuerdos y comenzamos a pensar que esto está empezando a convertirse en un patrón”. Schonfeld y su equipo lanzaron en octubre Generative AI Licensing Agreement Tracker, una herramienta destinada a recoger los acuerdos que se están realizando entre editores y compañías de tecnología.

El rastreador tiene como objetivo no solo documentar cada acuerdo individual, sino también identificar y analizar las tendencias generales que emergen de estos acuerdos. Al proporcionar una fuente centralizada de información, el tracker facilita que la comunidad académica y tecnológica comprendan mejor cómo se está utilizando el contenido académico para el desarrollo de IA generativa.

Este fenómeno refleja una creciente intersección entre la publicación académica y el desarrollo de tecnologías avanzadas de IA. Los editores, al vender derechos de uso de sus artículos para entrenar modelos de lenguaje, están aprovechando nuevas oportunidades de ingresos, mientras que las empresas de tecnología aseguran el acceso a vastas cantidades de datos necesarios para mejorar la precisión y capacidad de sus sistemas de IA.

El seguimiento de estos acuerdos es crucial para mantener la transparencia en cómo se utiliza el contenido académico y para asegurar que se respeten los derechos de los autores y las instituciones educativas. Además, este rastreador puede ayudar a identificar posibles implicaciones éticas y legales relacionadas con el uso de investigaciones académicas en el entrenamiento de inteligencias artificiales.

Principales acuerdos:

  • Taylor & Francis firmó un acuerdo de 10 millones de dólares con Microsoft
  • Wiley generó 23 millones de dólares en un acuerdo con una empresa no revelada y espera otros 21 millones este año.
  • Otros grandes editores, como Elsevier y Springer Nature, no han comentado sobre acuerdos similares.

También los editores están creando nuevas posiciones y programas, como el «Wiley AI Partnerships», para formalizar colaboraciones con empresas de tecnología. Esto refleja que estos acuerdos no son excepcionales, sino parte de una estrategia a largo plazo.

Los acuerdos entre editores académicos y empresas de IA están transformando la publicación científica, generando ingresos sustanciales y redefiniendo la relación entre autores, editores y tecnología. Sin embargo, el debate sobre la transparencia y las implicaciones éticas de estas prácticas sigue abierto.

Algunos académicos han mostrado preocupación por el uso de su contenido sin su conocimiento.

  • De Gruyter Brill creó una página informativa para explicar los acuerdos y abordar las inquietudes de los autores.
  • Cambridge University Press & Assessment adoptó un enfoque de participación voluntaria, contactando a 20.000 autores para obtener su consentimiento explícito.

viernes, 6 de diciembre de 2024

La IA generativa y la publicación científica. ¿Una tercera transformación?

Publicado en blog Universo abierto
https://universoabierto.org/2024/10/31/la-ia-generativa-y-la-publicacion-cientifica-una-tercera-transformacion/



La IA generativa y la publicación científica. ¿Una tercera transformación?

Bergstrom, Tracy, y Dylan Ruediger. «A Third Transformation? Generative AI and Scholarly Publishing.» Ithaka S+R, 30 de octubre de 2024. https://sr.ithaka.org/publications/a-third-transformation/.

El informe A Third Transformation? Generative AI and Scholarly Publishing, publicado por Ithaka S+R y escrito por Tracy Bergstrom y Dylan Ruediger, examina el impacto potencial de la inteligencia artificial generativa en la industria de publicaciones académicas. A raíz de un informe anterior sobre la «segunda transformación digital» de la publicación académica, el nuevo informe explora cómo la IA generativa podría ser una «tercera transformación», cambiando la manera en que se realiza y comunica la investigación académica.

En 2023, aproximadamente el 1% de la literatura académica ya mostraba signos de haber sido creada parcialmente con IA generativa. Grandes editoriales han lanzado herramientas de búsqueda y descubrimiento potenciadas por IA, y también experimentan con su uso en procesos internos. El informe se basa en entrevistas con 12 líderes del sector, quienes ven la IA como una herramienta que mejorará la eficiencia en la redacción, revisión, edición y descubrimiento, acelerando así la investigación y la publicación académica.

El informe describe dos posibles futuros. En el primero, la IA generativa mejora la eficiencia sin cambiar fundamentalmente la industria. En el segundo, más transformador, la IA podría reconfigurar profundamente el sector, generando cambios que superen los de las transformaciones digitales previas. Aunque estos escenarios no se excluyen mutuamente, el informe sugiere que algunos aspectos de la publicación académica podrían experimentar cambios incrementales, mientras que otros serían profundamente alterados.

Contexto estratégico La publicación académica enfrenta oportunidades y desafíos debido a la IA generativa. Esta tecnología ofrece nuevas posibilidades, pero también genera incertidumbres y enfoques diversos entre las organizaciones.

Transición hacia la provisión de servicios El sector está evolucionando de un modelo centrado en la edición hacia uno basado en plataformas y servicios. La IA generativa acelera esta tendencia, promoviendo la integración de herramientas de descubrimiento, interpretación y escritura. Las plataformas ahora pueden ofrecer servicios completos para autores, investigadores y editores, como el asistente de Digital Science y el de Web of Science, que permiten búsqueda y resumen avanzados. También existen herramientas de IA como Paperpal y Writefull que mejoran la calidad de la escritura académica. La combinación de estas capacidades podría transformar a las editoriales en proveedores de infraestructura de investigación integral.

Revisión por pares La revisión por pares es un área clave donde la IA generativa puede ayudar a reducir la carga de trabajo al identificar revisores y revisar aspectos básicos de los manuscritos. Sin embargo, su implementación conlleva riesgos debido a posibles inexactitudes de la IA y la pérdida de la revisión experta y humana. Las editoriales exploran límites seguros para que la IA participe sin reemplazar la revisión humana. Además, deben abordarse preocupaciones de confidencialidad y de seguridad para su adopción.

Competencia y consolidación La IA generativa impacta la consolidación en el sector editorial. Las grandes editoriales están experimentando con la concesión de licencias de contenido para su uso en LLM comerciales, pero esto plantea riesgos estratégicos como la disminución de suscripciones. Las herramientas avanzadas de búsqueda, como Scopus AI, están cambiando la interacción de los investigadores con el contenido. La apertura del acceso también crea competencia con empresas tecnológicas que podrían reemplazar a las editoriales como principal fuente de contenido académico.

Desafíos éticos y de atribución El uso de IA generativa en la creación y edición plantea preguntas éticas sobre la atribución, reproducción y transparencia en la investigación. Varias editoriales han implementado políticas para limitar el uso de IA en la autoría y edición de contenidos, enfatizando la importancia de roles humanos en la investigación. La comunidad científica debe establecer normas claras para el uso de la IA en el proceso académico.

Futuro de la publicación académica La implementación de IA generativa podría reducir la dependencia de la interpretación humana en el proceso de publicación y fomentar una producción orientada a la legibilidad por máquinas, afectando así el propósito comunicativo de la publicación académica.

Bien Público Global de Confianza

La idea de que la investigación sea considerada un bien público global de confianza se ha visto desafiada en la última década por el fraude, la mala conducta y actividades maliciosas. La inteligencia artificial generativa ha intensificado las conversaciones sobre cómo mantener la confianza en la publicación académica. A pesar de los riesgos que plantea, muchos expertos ven en ella una oportunidad para hacer la publicación científica más accesible y útil como bien público.

Se considera que la inteligencia artificial generativa nivela el terreno de juego para autores y lectores. Los investigadores no angloparlantes están utilizando esta tecnología para mejorar la calidad de su escritura académica, lo que ha impactado negativamente a los proveedores de servicios de corrección de textos. Esto se percibe como un avance hacia la equidad y el acceso a revistas en inglés, facilitando la comunicación científica.

Además, hay interés en la posibilidad de automatizar la traducción, lo que permitiría que todo el registro académico sea accesible para hablantes de varios idiomas, ampliando así el mercado global de publicaciones.

Cálculo del Impacto

La segunda transformación digital ha establecido nuevos estándares, como los índices de citas, que podrían verse profundamente alterados por la inteligencia artificial generativa. Si los investigadores empiezan a utilizarla como un método intermedio para acceder al registro académico, esto podría afectar cómo se evalúa el impacto de la investigación.

Se identificó una necesidad urgente de desarrollar métricas que complementen los métricas COUNTER, las cuales son esenciales para las bibliotecas y las editoriales en relación con el valor de sus colecciones. Se plantearon dos desafíos principales:

  1. Limitaciones de las métricas tradicionales: Estas solo cuentan el compromiso con elementos que tienen un Identificador Único de Recurso (URI). La IA generativa promueve la creación de contenido personalizado, que es efímero y no deja un registro formal, lo que dificulta su conteo en las métricas tradicionales.
  2. Falta de medición del compromiso: Las métricas COUNTER no evalúan el nivel de compromiso con un recurso específico. Aunque permiten diferenciar entre investigaciones y solicitudes, no miden el compromiso prolongado. Con la inteligencia artificial generativa, será posible realizar múltiples consultas adaptativas a un mismo recurso, lo que sugiere la necesidad de desarrollar métricas que capturen la profundidad del compromiso de los investigadores con los recursos individuales.

Nuevas Oportunidades para la Infraestructura Compartida

Esta sección explora oportunidades para crear nuevas categorías de infraestructura compartida en el contexto del desarrollo de la inteligencia artificial generativa y su impacto en la publicación académica. A medida que la transformación digital avanza, es crucial establecer estándares y estructuras que aseguren la organización y mantenimiento del registro académico.

Eje del Registro Académico

El «eje del registro académico» se refiere a la necesidad de una infraestructura que vincule de manera persistente componentes atomizados de investigación, como preprints y conjuntos de datos. La llegada de modelos de lenguaje (LLMs) complica la citación y comprensión de la información, pues frecuentemente generan salidas que son difíciles de rastrear hasta su contexto original. A pesar de los beneficios de la automatización en la documentación de datos, existe el riesgo de que la publicación se vuelva más centrada en los datos, disminuyendo el valor de los editores.

Recomendaciones

  1. Colaboración y Estandarización: Se sugiere que las organizaciones de publicación colaboren en la creación de metadatos estandarizados que faciliten la citabilidad y transparencia de los contenidos generados por inteligencia artificial.
  2. Consenso en la Comunidad de Investigación: Las comunidades de investigación deben establecer acuerdos sobre cómo citar contenidos generados por IA y su valor histórico, priorizando la preservación.

Integridad de la Investigación

La falta de confiabilidad en el contenido subyacente a los LLMs plantea preocupaciones sobre la integridad del registro académico. A pesar de la disponibilidad de datos de alta calidad, los LLMs cometen errores y carecen de transparencia, lo que dificulta la confianza en los resultados de la investigación.

Se propone la necesidad de nuevos estándares que aseguren la consistencia y transparencia en el uso de herramientas de IA generativa. Además, las bibliotecas de investigación deben desempeñar un papel activo en garantizar la verificabilidad de la comunicación académica.

La tecnología de IA generativa también presenta desafíos para la detección de fraudes académicos, ya que puede facilitar la creación de contenido fraudulento. Sin embargo, también se sugiere que estas herramientas pueden fortalecer los metadatos y mejorar la calidad de los manuscritos.

Recomendaciones

  1. Fortalecimiento de la Calidad del Contenido: Las editoriales deben abogar por contenido de alta calidad y colaborar con proveedores de tecnología para establecer marcadores de confianza.
  2. Colaboración Interdisciplinaria: Se recomienda fomentar discusiones entre todos los actores del ciclo de investigación para garantizar la integridad de la investigación científica.

Generando Significado

El registro académico permite a diversas comunidades generar nuevo conocimiento. Sin embargo, con la llegada de LLMs, surge la pregunta sobre cómo afectará esto a la producción futura de investigación. Aunque la IA generativa democratiza el acceso a la información, también plantea interrogantes sobre el papel del investigador humano en la creación narrativa.

Las herramientas de IA generativa podrían transformar cómo se realiza la investigación, permitiendo la automatización de ideas y experimentos, lo que podría llevar a una transición hacia la investigación liderada por máquinas.

Recomendaciones

  1. Desarrollo de un Vocabulario Común: Se sugiere establecer un vocabulario común sobre el uso de trabajos generados por IA para facilitar la comprensión de los investigadores.
  2. Evolución de las Métricas de Impacto: Se recomienda financiar un estudio para investigar cómo deben evolucionar las métricas COUNTER para adaptarse a las nuevas realidades.

Modelos de Negocio Nuevos

La rápida innovación en el espacio de IA generativa requiere que las organizaciones de publicación adapten sus modelos de negocio. La falta de un entendimiento común sobre las oportunidades y riesgos de la IA generativa entre autores y editoriales ha generado la necesidad de un diálogo abierto.

Se observa que servicios como la corrección de textos y la traducción ya están experimentando disrupciones debido a la IA generativa, lo que plantea retos para las editoriales más pequeñas.

Recomendaciones

  1. Construcción de Comprensión Compartida: Las partes interesadas deben trabajar juntas para construir una comprensión compartida sobre el valor y los riesgos de la IA generativa en la comunicación académica.
  2. Servicios de Traducción de Calidad: Se recomienda que los servicios de traducción on-demand integrados en herramientas de IA generativa sean cuidadosamente evaluados para su uso en contextos académicos, considerando también los modelos de descuento para países no anglófonos.

miércoles, 23 de octubre de 2024

Editores se unen en coalición mundial vs robo de autoría por parte de la IAGen

Publicado en blog Universo Abierto
https://universoabierto.org/2024/10/23/los-editores-se-unen-a-una-coalicion-mundial-para-condenar-el-robo-de-la-autoria-por-parte-de-las-empresas-tecnologicas-para-la-alimentacion-de-la-ia-generativa/



Los editores se unen a una coalición mundial para condenar el robo de la autoría por parte de las empresas tecnológicas para la alimentación de la IA generativa


«Publishers Join with Worldwide Coalition to Condemn the Theft of Creative and Intellectual Authorship by Tech Companies for Generative AI Training – AAP», 22 de octubre de 2024.

Fuente
https://publishers.org/news/publishers-join-with-worldwide-coalition-to-condemn-the-theft-of-creative-and-intellectual-authorship-by-tech-companies-for-generative-ai-training/

El 22 de octubre de 2024, la Asociación de Editores de Estados Unidos (AAP) se unió a una coalición global formada por más de 10.000 creadores, incluidos autores, músicos, actores, artistas y fotógrafos, para denunciar el uso indebido de obras creativas e intelectuales por parte de grandes empresas tecnológicas para entrenar sus modelos de IA generativa. Esta práctica, según la coalición, implica la copia, ingestión y regeneración de obras como libros, periódicos, canciones y otras expresiones artísticas sin el consentimiento de sus creadores, lo que representa una violación de los principios fundamentales de derechos de autor.

Los modelos de IA generativa, que permiten a los usuarios acceder a herramientas avanzadas que pueden producir contenido nuevo basado en información previamente existente, se han vuelto muy populares en el ámbito de los consumidores. Sin embargo, según la coalición, estas tecnologías no podrían existir sin las obras originales de creadores humanos, cuyas producciones han sido utilizadas sin autorización en el desarrollo de estos sistemas. El uso indebido de dichas obras pone en peligro la propiedad intelectual de los creadores, quienes invierten tiempo, esfuerzo y recursos en generar contenido original.

La AAP, junto con otros socios de la coalición, ha hecho un llamado a los gobiernos y tribunales de todo el mundo para que refuercen los principios esenciales de los derechos de autor, argumentando que cualquier reproducción o creación de obras derivadas debe contar con el consentimiento explícito de los creadores. Estos derechos no solo protegen a los autores, sino que también garantizan la continuidad de las industrias creativas, que son esenciales para el desarrollo de la cultura y la educación.

Maria A. Pallante, presidenta y CEO de la AAP, destacó que los creadores trabajan al servicio del público global, buscando educar, informar e inspirar, mientras que las empresas tecnológicas están utilizando sus obras para generar ganancias sin regulación ni autorización. Pallante también enfatizó que las colaboraciones tecnológicas son valiosas para la industria editorial, pero deben basarse en acuerdos legales y respetuosos, no en la explotación sin control de obras ajenas.

Este es un momento crítico en el desarrollo de políticas sobre inteligencia artificial a nivel global, y los autores, junto con sus editores, exigen que se respeten los derechos de autor para proteger sus contribuciones y su trabajo. La coalición busca asegurar que las políticas de IA generativa tomen en cuenta los derechos de los creadores y establezcan mecanismos claros para la concesión de licencias y el respeto a las obras protegidas por derechos de autor.



"¡Quemadlo con fuego!" - El uso de ChatGPT «polariza» a los revisores

Publicado en THE Times Higher Education https://www.timeshighereducation.com/news/corrupting-chatgpt-use-polarises-peer-reviewers   Quemadlo...