Mostrando entradas con la etiqueta Microsoft. Mostrar todas las entradas
Mostrando entradas con la etiqueta Microsoft. Mostrar todas las entradas

martes, 20 de agosto de 2024

¿Se ha utilizado su artículo para entrenar un modelo de inteligencia artificial? Casi seguro

Publicado en Nature
https://www.nature.com/articles/d41586-024-02599-9



¿Se ha utilizado su artículo para entrenar un modelo de inteligencia artificial? 

Casi seguro


Los desarrolladores de inteligencia artificial están comprando acceso a valiosos conjuntos de datos que contienen artículos de investigación, lo que plantea preguntas incómodas sobre los derechos de autor.


Por Elizabeth Gibney


Las editoriales académicas están vendiendo a las empresas tecnológicas el acceso a artículos de investigación para entrenar modelos de inteligencia artificial (IA). Algunos investigadores han reaccionado con consternación ante este tipo de acuerdos que se producen sin consultar a los autores. Esta tendencia está suscitando dudas sobre el uso de trabajos publicados, y a veces protegidos por derechos de autor, para entrenar el creciente número de robots de inteligencia artificial que se están desarrollando.


Los expertos dicen que, si un trabajo de investigación aún no se ha utilizado para entrenar un gran modelo lingüístico (LLM), probablemente lo hará pronto. Los investigadores están estudiando métodos técnicos para que los autores puedan detectar si se está utilizando su contenido.


El mes pasado, se supo que la editorial académica británica Taylor & Francis había firmado un acuerdo con Microsoft por valor de 10 millones de dólares que permitía a la empresa tecnológica estadounidense acceder a los datos de la editorial para mejorar sus sistemas de inteligencia artificial. Y en junio, un informe de los inversores mostró que la editorial estadounidense Wiley había ganado 23 millones de dólares por permitir a una empresa anónima entrenar modelos de IA generativa en sus contenidos.


Según Lucy Lu Wang, investigadora en Inteligencia Artificial de la Universidad de Washington en Seattle, es «muy probable» que cualquier cosa que pueda leerse en línea, esté o no en un repositorio de acceso abierto, ya haya sido introducida en un LLM. «Y si un artículo ya ha sido utilizado como dato de entrenamiento en un modelo, no hay forma de eliminar ese artículo una vez que el modelo ha sido entrenado», añade.


Conjuntos de datos masivos


Los LLM se entrenan con enormes volúmenes de datos, a menudo extraídos de Internet. Obtienen patrones entre los miles de millones de fragmentos lingüísticos de los datos de entrenamiento, conocidos como tokens, que les permiten generar textos con una fluidez asombrosa. 


Los modelos de IA generativa se basan en la absorción de patrones de estas masas de datos para generar textos, imágenes o códigos informáticos. Los artículos académicos son valiosos para los creadores de LLM por su extensión y su «alta densidad de información», dice Stefan Baack, que analiza conjuntos de datos de entrenamiento de IA en la Fundación Mozilla, una organización mundial sin ánimo de lucro de San Francisco (California) cuyo objetivo es mantener Internet abierto al acceso de todos.


Entrenar los modelos con un gran volumen de información científica también les proporciona una capacidad mucho mayor para razonar sobre temas científicos, afirma Wang, cocreador de S2ORC, un conjunto de datos basado en 81,1 millones de artículos académicos. El conjunto de datos se desarrolló originalmente para la minería de textos -aplicar técnicas analíticas para encontrar patrones en los datos-, pero desde entonces se ha utilizado para entrenar LLM.


La tendencia a comprar conjuntos de datos de alta calidad va en aumento. Este año, el Financial Times ha ofrecido sus contenidos al desarrollador de ChatGPT OpenAI en un lucrativo acuerdo, al igual que el foro en línea Reddit, a Google. Y dado que los editores científicos probablemente vean la alternativa de que su trabajo sea desechado sin un acuerdo, «creo que habrá más acuerdos de este tipo en el futuro», afirma Wang.


Secretos de información


Algunos desarrolladores de IA, como la Red de Inteligencia Artificial a Gran Escala, mantienen intencionadamente abiertos sus conjuntos de datos, pero muchas empresas que desarrollan modelos de IA generativa han mantenido en secreto gran parte de sus datos de entrenamiento, dice Baack. «No tenemos ni idea de lo que hay ahí», afirma. Los repositorios de código abierto como arXiv y la base de datos académica PubMed de resúmenes son fuentes «muy populares», afirma, aunque es probable que las grandes empresas tecnológicas extraigan los resúmenes de los artículos de pago de las revistas. «Siempre están a la caza de ese tipo de material», añade.


Según Yves-Alexandre de Montjoye, informático del Imperial College de Londres, es difícil demostrar que un LLM ha utilizado un documento concreto. Una forma consiste en pedir al modelo una frase inusual de un texto y ver si el resultado coincide con las siguientes palabras del original. Si es así, es una buena prueba de que el documento está en el conjunto de entrenamiento. Pero si no es así, eso no significa que no se haya utilizado el artículo, entre otras cosas porque los desarrolladores pueden programar el LLM para que filtre las respuestas y se asegure de que no coinciden demasiado con los datos de entrenamiento. «Hace falta mucho para que esto funcione», afirma.


Otro método para comprobar si los datos están en un conjunto de entrenamiento se conoce como ataque de inferencia de pertenencia. Se basa en la idea de que un modelo tendrá más confianza en sus resultados cuando vea algo que ya ha visto antes. El equipo de De Montjoye ha desarrollado una versión de esto, llamada trampa de derechos de autor, para los LLM.


Para tender la trampa, el equipo genera frases que parecen verosímiles pero que no tienen sentido, y las oculta en una obra, por ejemplo como texto blanco sobre fondo blanco o en un campo que se muestra con ancho cero en una página web. Si un LLM se muestra más «sorprendido» -una medida conocida como su perplejidad- por una frase de control no utilizada que por la oculta en el texto, «eso es una prueba estadística de que las trampas se vieron antes», afirma.


Cuestiones de derechos de autor


Aunque fuera posible demostrar que un LLM ha sido entrenado con un texto determinado, no está claro qué ocurre después. Los editores sostienen que, si los desarrolladores utilizan textos protegidos por derechos de autor en la formación y no han solicitado una licencia, eso se considera una infracción. Pero un argumento jurídico contrario afirma que los LLM no copian nada: recogen el contenido informativo de los datos de entrenamiento, que se fragmentan, y utilizan su aprendizaje para generar un nuevo texto. 


Los litigios podrían ayudar a resolver esta cuestión. En un caso de derechos de autor en curso en Estados Unidos que podría sentar precedente, The New York Times ha demandado a Microsoft y a OpenAI, desarrollador de ChatGPT, en San Francisco (California). El periódico acusa a las empresas de utilizar sus contenidos periodísticos para entrenar sus modelos sin permiso.


Muchos académicos están encantados de que su trabajo se incluya en los datos de entrenamiento de LLM, sobre todo si los modelos los hacen más precisos. «A mí personalmente no me importa tener un chatbot que escriba como yo», dice Baack. Pero reconoce que su trabajo no se ve amenazado por los resultados de los LLM del mismo modo que los de otras profesiones, como artistas y escritores. 


En la actualidad, los autores científicos individuales tienen poco poder si el editor de su artículo decide vender el acceso a sus obras protegidas por derechos de autor. En el caso de los artículos a disposición del público, no existe ningún medio establecido para atribuir los créditos o saber si se ha utilizado un texto.


Algunos investigadores, como de Montjoye, se sienten frustrados. «Queremos LLM, pero queremos algo que sea justo, y creo que aún no hemos inventado qué aspecto tiene esto», afirma.



*********************************

  • NEWS

  • 14 August 2024

Has your paper been used to train an AI model? Almost certainly

Artificial-intelligence developers are buying access to valuable data sets that contain research papers — raising uncomfortable questions about copyright.


Academic publishers are selling access to research papers to technology firms to train artificial-intelligence (AI) models. Some researchers have reacted with dismay at such deals happening without the consultation of authors. The trend is raising questions about the use of published and sometimes copyrighted work to train the exploding number of AI chatbots in development.

Experts say that, if a research paper hasn’t yet been used to train a large language model (LLM), it probably will be soon. Researchers are exploring technical ways for authors to spot if their content being used.

Last month, it emerged that the UK academic publisher Taylor & Francis, had signed a US$10-million deal with Microsoft, allowing the US technology company to access the publisher’s data to improve its AI systems. And in June, an investor update showed that US publisher Wiley had earned $23 million from allowing an unnamed company to train generative-AI models on its content.  

Anything that is available to read online — whether in an open-access repository or not — is “pretty likely” to have been fed into an LLM already, says Lucy Lu Wang, an AI researcher at the University of Washington in Seattle. “And if a paper has already been used as training data in a model, there’s no way to remove that paper after the model has been trained,” she adds.

Massive data sets

LLMs train on huge volumes of data, frequently scraped from the Internet. They derive patterns between the often billions of snippets of language in the training data, known as tokens, that allow them to generate text with uncanny fluency.

Generative-AI models rely on absorbing patterns from these swathes of data to output text, images or computer code. Academic papers are valuable for LLM builders owing to their length and “high information density”, says Stefan Baack, who analyses AI training data sets at the Mozilla Foundation, a global non-profit organization in San Francisco, California that aims to keep the Internet open for all to access.

Training models on a large body of scientific information also give them a much better ability to reason about scientific topics, says Wang, who co-created S2ORC, a data set based on 81.1 million academic papers. The data set was originally developed for text mining — applying analytical techniques to find patterns in data — but has since been used to train LLMs.  

The trend of buying high-quality data sets is growing. This year, the Financial Times has offered its content to ChatGPT developer OpenAI in a lucrative deal, as has the online forum Reddit, to Google. And given that scientific publishers probably view the alternative as their work being scraped without an agreement, “I think there will be more of these deals to come,” says Wang.

Information secrets

Some AI developers, such as the Large-scale Artificial Intelligence Network, intentionally keep their data sets open, but many firms developing generative-AI models have kept much of their training data secret, says Baack. “We have no idea what is in there,” he says. Open-source repositories such as arXiv and the scholarly database PubMed of abstracts are thought to be “very popular” sources, he says, although paywalled journal articles probably have their free-to-read abstracts scraped by big technology firms. “They are always on the hunt for that kind of stuff,” he adds.  

Proving that an LLM has used any individual paper is difficult, says Yves-Alexandre de Montjoye, a computer scientist at Imperial College London. One way is to prompt the model with an unusual sentence from a text and see whether the output matches the next words in the original. If it does, that is good evidence that the paper is in the training set. But if it doesn’t, that doesn’t mean that the paper wasn’t used — not least because developers can code the LLM to filter responses to ensure they don’t match training data too closely. “It takes a lot for this to work,” he says.

Another method to check whether data are in a training set is known as membership inference attack. This relies on the idea that a model will be more confident about its output when it is seeing something that it has seen before. De Montjoye’s team has developed a version of this, called a copyright trap, for LLMs.  

To set the trap, the team generates sentences that look plausible but are nonsense, and hides them in a body of work, for example as white text on a white background or in a field that’s displayed as zero width on a webpage. If an LLM is more ‘surprised’ — a measure known as its perplexity — by an unused control sentence than it is by the one hidden in the text, “that is statistical evidence that the traps were seen before”, he says.

Copyright questions

Even if it were possible to prove that an LLM has been trained on a certain text, it is not clear what happens next. Publishers maintain that, if developers use copyrighted text in training and have not sought a licence, that counts as infringement. But a counter legal argument says that LLMs do not copy anything — they harvest information content from training data, which gets broken up, and use their learning to generate new text.   

Litigation might help to resolve this. In an ongoing US copyright case that could be precedent-setting, The New York Times is suing Microsoft and ChatGPT’s developer OpenAI in San Francisco, California. The newspaper accuses the firms of using its journalistic content to train their models without permission.

Many academics are happy to have their work included in LLM training data — especially if the models make them more accurate. “I personally don’t mind if I have a chatbot who writes in the style of me,” says Baack. But he acknowledges that his job is not threatened by LLM outputs in the way that those of other professions, such as artists and writers, are. 

Individual scientific authors currently have little power if the publisher of their paper decides to sell access to their copyrighted works. For publicly available articles, there is no established means to apportion credit or know whether a text has been used.

Some researchers, including de Montjoye, are frustrated. “We want LLMs, but we still want something that is fair, and I think we’ve not invented what this looks like yet,” he says.

doi: https://doi.org/10.1038/d41586-024-02599-9

******************************


jueves, 25 de julio de 2024

Algunos investigadores ‘sorprendidos’ de que Taylor & Francis haya vendido el acceso a sus investigaciones a Microsoft AI

Publicado en blog Universo Abierto
https://universoabierto.org/2024/07/23/algunos-investigadores-sorprendidos-de-que-taylor-francis-vende-el-acceso-a-sus-investigaciones-a-microsoft-ai/



Algunos investigadores ‘sorprendidos’ de que Taylor & Francis haya vendido el acceso a sus investigaciones a Microsoft AI

Battersby, Matilda. «Academic Authors “shocked” after Taylor & Francis Sells Access to Their Research to Microsoft AI». The Bookseller. Accedido 23 de julio de 2024. https://www.thebookseller.com/news/academic-authors-shocked-after-taylor–francis-sells-access-to-their-research-to-microsoft-ai.

Autores académicos han expresado su sorpresa al enterarse de que la editorial Taylor & Francis, propietaria de Routledge, vendió acceso a las investigaciones de sus autores como parte de una colaboración con Microsoft en inteligencia artificial (IA), en un acuerdo valorado en casi 8 millones de libras (10 millones de $) en su primer año. La sociedad de autores ha mostrado preocupación por esta situación y destacó la falta de consulta con los autores antes de firmar el acuerdo.

La Dra. Ruth Alison Clemens, una académica publicada por Taylor & Francis y Routledge, dijo que los autores no fueron informados sobre el acuerdo de IA y no tuvieron la oportunidad de optar por no participar. Clemens se enteró del trato por casualidad y expresó su sorpresa por la falta de comunicación al respecto.

Un portavoz de Taylor & Francis confirmó el acuerdo, indicando que proporciona a Microsoft acceso no exclusivo a contenido avanzado y datos para mejorar los sistemas de IA. El acuerdo, detallado por Informa, la empresa matriz de Taylor & Francis, en una actualización comercial en mayo, estipula un pago inicial de $10 millones por acceso a los datos, con pagos recurrentes no especificados en los tres años siguientes.

Taylor & Francis afirmó que protege la integridad del trabajo de los autores y los derechos de recibir pagos de regalías conforme a los contratos de autor. Sin embargo, no quedó claro si existe una política de exclusión para los autores en este acuerdo.

La comunidad académica ha mostrado una fuerte preocupación, destacando la necesidad de considerar cuestiones de derechos de autor, derechos morales y protección de datos. The Society of Authors (SoA) instó a los autores que descubran que su trabajo ha sido utilizado sin su consentimiento a contactarlos para recibir orientación.

Barbara Hayes, directora ejecutiva de ALCS, enfatizó la importancia de representar plenamente los intereses y derechos de los autores en estas negociaciones, una etapa que a menudo falta en los acuerdos actuales.

A principios de esta semana, el Copyright Clearance Centre anunció la disponibilidad de los derechos de reutilización de la IA dentro de su  Annual Copyright License (ACL), que, según afirma, es «la primera solución colectiva de concesión de licencias para el uso interno de materiales protegidos por derechos de autor en sistemas de IA». La licencia proporcionará a los titulares derechos y remuneración por los nuevos usos de sus contenidos.

lunes, 13 de marzo de 2023

ChatGPT vs Google: ¿El fin de la barra de búsqueda?

Publicado en Letras Libres
https://letraslibres.com/ciencia-y-tecnologia/future-tense-futuro-barra-busqueda-chatgpt/



¿El fin de la barra de búsqueda?

Industrias enteras dependen de la manera en que Google gestiona las búsquedas y la publicidad en línea. Chatbots como Chat GPT podrían cambiar eso, y alterar de paso el modo en que estructuramos el conocimiento humano.


Por Ed Finn
10 marzo 2023

Como buen niño de los 80, puedo dividir claramente mi vida en Antes de Google y Después de Google. Con el inicio del milenio, internet dejó de ser una maraña de listas incompletas de cosas extrañas para convertirse en una muy útil base de datos de investigación. Desde entonces, buscar en Google ha sido una de las únicas constantes tecnológicas de mi vida adulta, que ha persistido a pesar del auge de los teléfonos inteligentes, las redes sociales, los servicios de streaming, e incluso la entrega de burritos con drones (por cierto, ¿qué pasó con eso?).

En todo este tiempo, nadie ha sido capaz de desafiar el papel de Google como guardián de la abundancia digital. Más de 90% de los usuarios de internet de todo el mundo utilizan Google para comprar, navegar y satisfacer su curiosidad sobre prácticamente todo. Los anuncios que Google a partir de esta actividad (y en otros sitios web) han alimentado una máquina de dinero que generó más de un cuarto de billón de dólares en ventas el año pasado.

Google empezó como una especie de creador de mapas de internet, pero gracias a su éxito se convirtió gradualmente en el arquitecto de la World Wide Web. Hoy, industrias enteras, desde el comercio minorista hasta los seguros de automóvil, dependen de la manera en que Google gestiona los resultados de las búsquedas y la publicidad en línea. La frontera electrónica se hizo cada vez más corporativa, organizada de acuerdo con la tiranía del clic: ¿cuántos usuarios hacen clic en tu anuncio, en tu titular, en tu video? Esa cifra determina cuánto dinero se puede ganar en internet (y explica la alucinante cantidad de artículos escritos con el propósito específico de aparecer cuando tecleas, por ejemplo, “¿A qué hora empiezan los Oscares?”)

La economía basada en los clics ha hecho que el mundo sea más eficiente en algunos aspectos, pero ha convertido esta milagrosa base de datos de información global en una frenética subasta en la que todos los sitios web buscan subir a lo más alto en los resultados de búsqueda, conseguir el mayor número de clics y retener el mayor número de ojos. Cada página web que cargas es un poco más lenta gracias a las subastas para determinar qué anuncios se verán. Un sinfín de periodistas profesionales libraron batallas perdidas contra las mezquinas métricas de clics y porcentajes de descarga de páginas, y luego se adaptaron a ellas, convirtiendo la “optimización de motores de búsqueda” en una de las habilidades periodísticas más preciadas. YouTube y las redes sociales persiguen los clics con tal empeño que, sin darse cuenta, crean algoritmos que enganchan a los usuarios con contenidos cada vez más lascivos y radicales. Google ha construido un internet en el que ganan los que más clics hacen, y Google desempeña un papel clave en el recuento de esos clics.

¿Y si todo esto cambia?

La llegada de ChatGPT de OpenAI a finales de 2022 hizo temblar las salas de juntas de las grandes empresas de tecnología. Microsoft, rival de Google, no tardó en utilizar su participación en OpenAI para crear una versión beta de algo nuevo: un agente conectado a Bing, el motor de búsqueda de Microsoft, que puede conversar. Google conectó su propio chatbot de nueva generación, Bard, a su principal producto de búsqueda. Estamos en los primeros tiempos de todo eso, y se nota: la nueva y parlanchina Bing de Microsoft hace poco asustó a un periodista del New York Times con su megalomanía y sus insinuaciones amorosas. Bard, por su parte, cometió un error fáctico en su demo de lanzamiento, haciendo que las acciones de la empresa matriz Alphabet cayeran en picada.

La rapidez con la que Google ha introducido una herramienta de inteligencia artificial a medio cocer en su mayor fuente de ingresos, a pesar de la amenaza que Bard podría representar para el modelo de negocio, indica la seriedad con la que nuestro guardián de toda la información del mundo se está tomando el momento. (Tras la publicación de este artículo, un portavoz de Google se puso en contacto para aclarar que la empresa no tiene intención de sustituir Search por Bard y que Bard, como chat, es distinta de otras grandes herramientas de inteligencia artificial basadas en modelos lingüísticos que se presentaron al mismo tiempo, incluida una que funciona con Search para extraer información de toda la web. El portavoz dijo que Bard no estaba “cambiando la dirección” de Search y reiteró que ninguna de las dos herramientas se ha lanzado públicamente).

¿Qué podría significar sustituir la economía del clic y su piedra angular, la barra de búsqueda, por algo parecido a una conversación? Esto es lo que ofrecen Bard y  Bing con ChatGPT: la posibilidad de hacer preguntas más humanas (¿cuál es el mejor sitio para comer un burrito por aquí y qué drones recomendarías para transportarlo?), y mantener conversaciones con un sistema que retiene el contexto. (Aunque cabe destacar que, en un intento por frenar algunos de los comportamientos más precipitados de su chatbot, Microsoft limitó recientemente a los usuarios a hacer cinco preguntas por sesión). En lugar de ofrecerte un menú de enlaces (y anuncios), tu interlocutor/mayordomo informativo va al grano, quizás ofreciendo algunas notas a pie de página para que sigas leyendo. Si se lo pides, hasta te ofrecerá sus respuestas con voz de pirata o en rimas.

Antes de que apareciera Google Search y devorara la industria del acceso a la información digital, este tipo de síntesis era lo que todo el mundo pensaba que sería nuestro futuro digital. Los primeros visionarios, como Vannevar Bush, previeron el océano de información en el que nadamos e imaginaron sistemas que nos permitirían seguir a “pioneros” y sintetizadores. Los escritores de ciencia ficción de los años 80 y 90 imaginaron obras de inteligencia artificial que actuaban como bibliotecarios (y a veces se les llamaba así), como el educado subsistema de Snow Crash, del autor Neal Stephenson, capaz de resumir libros, correlacionar información y mantener largas conversaciones con humanos. DARPA, el ala de investigación del ejército estadounidense, invirtió millones en un proyecto llamado Personal Assistant that Learns-PAL (Asistente Personal que Aprende) para construir algo similar en la vida real para los mandos militares. Con el tiempo, esa investigación dio lugar a Siri y, con ella, al sueño de una computadora con la que se pudiera hablar de verdad.

Una interfaz basada en conversación supondría un cambio radical respecto a la forma en que hemos aprendido a trabajar en sistemas basados en palabras clave, como Google. Cuando tengo una pregunta complicada que hacer en internet, a menudo tengo que hacer cierto tipo de esfuerzo en mi consulta, tratando de imaginar posibles escenarios en los que alguien podría haberla respondido y que podrían ser muy diferentes de mi contexto. La lista de resultados de búsqueda que aparece, con enlaces patrocinados en la parte superior, me ofrece opciones sobre qué pista seguir o a qué autoridad creer. Todo internauta aprende rápidamente a evaluar la credibilidad y utilidad de un enlace en función de su URL y de cómo aparece en la búsqueda de Google.

Sustituir esa consulta por una conversación representa una transformación a lo que Google lleva tiempo llamando la “búsqueda del conocimiento” de sus usuarios. La clásica barra de búsqueda se esfuerza por ser omnipresente, esencial y casi invisible. Pero estos nuevos chatbots no se apartan del camino. Se adelantan, dan la mano, presentan personalidad y afecto en sus interacciones con los usuarios. Ofrecen síntesis, extrapolación y refinamiento repetido, mediante preguntas de seguimiento y diálogo. Ofrecen la ilusión de un criterio.

En lugar de una lista de posibles fuentes, tenemos una sola voz. Cuando los usuarios interactúan con Bing (R.I.P. Sydney) o Bard, los sitios subyacentes se esconden como notas a pie de página o se ocultan por completo. No muestran sus cálculos. Es tentador para todos los que alguna vez hemos murmurado con frustración “dime ya la respuesta” cuando la búsqueda de Google no da resultados. Pero también es preocupante. Dejando a un lado problemas bien documentados que tienen estos sistemas, como equivocarse, inventar cosas y asustar a la gente, la ilusión de una respuesta única y coherente puede ser peligrosa cuando la naturaleza de la verdad es complicada y controvertida.

La diferencia entre una pregunta y una consulta a una base de datos tiene enormes implicaciones para la forma en que nos relacionamos con el extenso universo del conocimiento humano y entre nosotros mismos. Una lista de resultados de búsqueda, por muy elaborada y manipulada que esté, sigue recordándonos que puede haber respuestas contradictorias a nuestra pregunta. Una interfaz conversacional con una inteligencia artificial encantadora y simplista oculta toda esa confusión. Estos sistemas podrían convertirse en otra capa de ofuscación entre nosotros y la fuente del conocimiento humano. Otra caja negra, pero que habla, cuenta chistes y puede escribir un soneto si se lo ordenan. Irónicamente, OpenAI está intentando resolver el persistente problema de que estos sistemas “alucinen” con información falsa enseñándoles a validar sus resultados mediante un motor de búsqueda.

Pero va a ser mucho más difícil vender clics desde un bot. ¿Qué ocurrirá con la economía del clic si una inteligencia artificial se convierte en un extraño mutante de un portavoz y una bola mágica, o algo así como un avatar de la suma total del conocimiento humano? Recursos ricos en información, como periódicos y foros de debate, podrían encontrarse con que estos sistemas recojan su material y lo reformulen de forma tan elocuente que nadie se moleste en navegar hasta la página original. Parece una invitación para deslizarse aún más en el sospechoso camino en el que los creadores de contenidos dependen de los gigantes tecnológicos para que les ofrezcan una parte de los ingresos, sin que haya forma de verificar sus cifras de manera independiente.

La cuestión de cuál podría ser el modelo de negocio para estos nuevos guardianes, y más aún para los proveedores repentinamente invisibles de esa información a través de internet, nos lleva a una cuestión más profunda: estamos hablando de poner a un nuevo arquitecto a cargo de Internet.

Los motores de búsqueda se basan en los hipervínculos, esas conexiones explícitas entre palabras y páginas que son legibles y programables por los humanos. Desde los albores de la enciclopedia moderna, se podría argumentar que toda la estructura del conocimiento humano empírico se construye a partir de las piezas clave de las notas a pie de página y las referencias cruzadas.

Esto contrasta con grandes modelos lingüísticos como ChatGPT: sistemas de aprendizaje automático que, por su diseño, identifican relaciones complejas entre palabras y frasesm basándose en probabilidades, lo que lleva a que algunas personas los llamen “loros estocásticos“. Ningún ser humano, ni siquiera los ingenieros que los construyeron, puede entender cómo funcionan esas asociaciones entre miles o millones de variables ni, lo que es más importante, por qué hacen determinadas asociaciones. Y eso dificulta mucho la corrección de errores o la prevención de daños sin recurrir a filtros y censuras torpes. Pasar de los vínculos a las relaciones probabilísticas es como pasar de la física newtoniana a la rareza cuántica, o de la verdad a algo que solo suena verdadero. ¿Cómo lo sabes? Porque te lo dijo el chatbot. ~



Este artículo es publicado gracias a una colaboración de Letras Libres con Future Tense, un proyecto de Slate, New America, y Arizona State University.

jueves, 9 de febrero de 2023

Google y Microsoft se declaran la guerra por el dominio de la inteligencia artificial

Publicado en eldiario.es
https://www.eldiario.es/tecnologia/google-microsoft-declaran-guerra-dominio-inteligencia-artificial_1_9934069.html?mc_cid=31d606b6d0&mc_eid=a59fced014



Google y Microsoft se declaran la guerra por el dominio de la inteligencia artificial
8 de febrero de 2023 22:39h
Actualizado el 09/02/2023 09:12h

Las guerras por el dominio de la inteligencia artificial han comenzado. Su primer capítulo será una carrera tecnológica entre dos corporaciones gigantescas, cuyo resultado no determinará solo cuál de ellas genera cantidades más inconcebibles de beneficios. También tendrá impacto directo en cualquier persona que se conecte regularmente a internet, puesto que en el primer campo de batalla van algunas de las herramientas básicas de la vida digital: los buscadores de información, los navegadores web y las aplicaciones de mapas.     

 Es un mercado que Google había copado casi sin oposición durante una década, lo que la ayudó a convertirse en la tercera compañía más valiosa del mundo. Pero su posición ha sufrido un súbito asalto frontal desde el flanco más inesperado: Microsoft, la más veterana de las multinacionales tecnológicas estadounidenses y que por momentos pareció a punto de caer del grupo de gigantes digitales tras perderse la revolución del Internet móvil, quiere volver al centro de la pista y ha retado abiertamente a Google. “Espero que con nuestra innovación les entren ganas de salir y demostrar que saben bailar. Quiero que la gente sepa que les hemos hecho bailar”, presume Satya Nadella, su presidente.     

Microsoft anunció este martes que ha integrado en tiempo récord una versión mejorada de ChatGPT en su buscador Bing. Quiere superar a Google en todas esas búsquedas que el usuario resuelve a través de las respuestas automatizadas, sin profundizar en otras webs. “Es un nuevo paradigma para las búsquedas. Va a llegar una rápida innovación. La carrera empieza hoy”, declaraba Nadella.

El nuevo Bing está aún en pruebas y se irá abriendo a nuevos usuarios poco a poco. Microsoft espera que sea más “inspirador” que su competencia, al poder dar consejos al usuario, realizar comparaciones personalizadas basadas en los resultados de búsqueda o contestar a preguntas sobre aspectos concretos de la actualidad. Esto último, además, siendo transparente en cuanto a las fuentes que usa para montar sus respuestas, algo que ChatGPT no puede hacer.  

En una presentación junto al CEO de OpenAI, Sam Altman, Microsoft explicó cómo integrará ChatGPT con su navegador Edge, algo que ocurrirá en “las próximas semanas”. A partir de ese momento Edge contará con un asistente que además de contestar a las preguntas del usuario podrá ofrecer formas de terminar sus textos, o de hacer un resumen de lo que se muestra en una página web. “Esta tecnología cambiará prácticamente todas las categorías de software que conocemos”, avanza Nadella, que en el último año ha metido a Microsoft en todas las fiestas, con un acuerdo sin precedentes con Meta para impulsar el metaverso o la compra del estudio de videojuegos Activision Blizzard por 69.000 millones de euros, la mayor adquisición tecnológica de la historia.

La multinacional interpreta el momento actual como un punto de inflexión para la industria tecnológica. Ganar la carrera de la IA podría ser la carrera tecnológica de la década. Quiere la delantera desde ya y lo demuestra con iniciativas como intentar captar usuarios para su ecosistema ofreciendo saltarse parte de la cola para probar el nuevo Bing si se configura Edge como navegador predeterminado y bajando la app móvil de Bing.

Google baila

Google no se esperaba este movimiento de Microsoft y ha activado el modo crisis para impedir que su competidor le adelante por la derecha. Si Microsoft quiere bailar, Google está dispuesta a hacerlo. Incluso a tirar alguna zancadilla si hace falta.

Una prueba de ello es que la compañía dirigida por Sundar Pichai, al enterarse de que Nadella y Altman preparaban una presentación por todo lo alto para este martes, les contraprogramó anunciando Bard el lunes. El bardo de Google es una nueva función que incluirá un cuadro para interactuar con una inteligencia artificial generadora de texto en su buscador, su respuesta a la integración de ChatGPT en Bing. Está basada en LaMDA, una IA que dio la vuelta al mundo después de que uno de los ingenieros que la probaba fuera despedido tras alertar que la máquina había desarrollado consciencia de sí misma y ya era “un ser sintiente”.

Google no tenía planeado anunciar Bard el lunes y de hecho, ni siquiera sabe cuándo estará disponible. “En las próximas semanas”, ha dicho Pichai. A sus empleados fuera de Silicon Valley también les pilló por sorpresa y se enteraron de los planes de la empresa pocas horas antes. Se puede decir incluso que Google se contraprogramó a sí misma, puesto que la compañía llevaba semanas preparando un acto para este miércoles para dar a conocer el mayor paquete de novedades que su buscador ha tenido en años.

Todas las mejoras que Google incluirá en su buscador tienen que ver con la inteligencia artificial, pero no con la generación de textos, lo que las ha relegado a un segundo plano. El problema es que Google ha querido bailar demasiado rápido y ha patinado. Las acciones de su matriz, Alphabet, han caído un 8% tras los errores que se pudieron apreciar en la demostración este miércoles ante periodistas de la inteligencia artificial que está desarrollando.

Los errores tuvieron que ver con una respuesta de Bard, que aseguró que el telescopio James Webb “tomó las primeras imágenes de un planeta fuera de nuestro propio sistema solar”, lo que no es correcto. El fallo desvela uno de los mayores peligros de estos modelos de lenguaje natural: que den una información falsa y el usuario la asuma como correcta al estar proporcionada por una IA. Durante la presentación de este miércoles elDiario.es ha preguntado a una de las vicepresidentas de Google si Bard incluirá las fuentes de la información que usa en cada momento para escribir sus comentarios, quien ha afirmado que no dispone por el momento de esa información.

“Búsqueda mixta”

Lo que Google ha presentado este miércoles ante periodistas de varios países es una revolución de su buscador basada en la imagen. Lo llama “búsqueda mixta” y se compone de un paquete de herramientas que permite tomar una foto y utilizar inteligencia artificial para detectar lo que hay en la imagen y hacer consultas avanzadas a partir de ella. El mensaje es “si puedes verlo, puedes buscarlo”, ha explicado Prabhakar Raghavan, vicepresidente de Google.

Con las nuevas funciones se podrá, por ejemplo, sacar una foto a un texto y pedir al traductor de Google que lo traduzca sobre la propia imagen. También que lo lea, que lo copie a un documento o que lo busque en su buscador tradicional.

No obstante, el gran potencial de las nuevas herramientas es revolucionar el comercio electrónico. A través de una fotografía se puede buscar un producto en la red, pidiendo a la IA que modifique sus características. Que busque un sillón lo más similar posible pero en otro color, que busque los mismos zapatos pero con tacón, que busque un complemento a juego con cualquier prenda que se le muestre. Se trata de una tecnología que puede tener un gran impacto también sobre las tiendas físicas, puesto que sacando una fotografía de cualquier producto Google podrá encontrar uno igual y señalar si se puede conseguir más barato en Internet.

Por último, Google también ha presentado novedades para Maps centradas en la imagen. El sistema será capaz de reconocer los comercios y lugares de interés directamente desde la cámara. “Utiliza IA combinada con realidad aumentada para ayudarte a encontrar visualmente cosas cercanas, como cajeros automáticos, restaurantes y puntos de tránsito con solo levantar el teléfono. Recientemente hemos lanzado la Búsqueda con Live View en varias ciudades, incluida París. En los próximos meses, empezaremos a expandirnos a más lugares como Barcelona, Dublín y Madrid”, ha adelantado Chris Phillips, otro de los vicepresidentes de la multinacional.

Apuesta con riesgo

La nueva carrera entre Google y Microsoft conllevará riesgos para ambas. Por un lado Microsoft ha hecho una apuesta muy fuerte por la tecnología de OpenAI, pagando 10.000 millones en efectivo por tener acceso a ella más los recursos que está empleando en integrarla en sus productos. Google, con su respuesta, va a aumentar exponencialmente sus costes operativos al introducir IA en sus búsquedas.

Los sistemas de procesamiento de lenguaje natural como ChatGPT o Bard consumen muchos más recursos computacionales y energéticos que una búsqueda tradicional. “Los modelos lingüísticos más potentes son más caros que los que no lo son”, explica a elDiario.es Elisebeth Reid, la tercera vicepresidenta de Google presente en la presentación de sus nuevas herramientas. “Pero estamos empezando a ver que el avance en la IA inicialmente necesitaba modelos muy, muy potentes y ahora puedes seguir teniendo modelos de lenguaje grandes, pero sustancialmente menos pesados mientras mantienes una calidad increíble. Es el modelo que vamos a utilizar con Bard: creemos que ofrece el mismo nivel de calidad, pero también es mejor desde el punto de vista de la sostenibilidad del coste computacional”, ha añadido.

Para Microsoft, si logra romper el dominio de Google, la apuesta habrá merecido la pena. “Google domina este mercado por un margen significativo. Esperamos que este movimiento ponga sobre la mesa otros motores de búsqueda, no solo a nosotros”, confía su presidente: “Todo esto ayudará a que todos los editores obtengan tráfico de múltiples fuentes. Y de paso, a que los anunciantes tengan mejores precios. Y a que los editores ganen más dinero. Los usuarios tendrán una gran innovación. Quiero decir, piensa en el gran día que será cuando eso ocurra”, ha declarado en una entrevista con el medio especializado en tecnología The Verge.     

miércoles, 8 de febrero de 2023

Microsoft saca toda la artillería contra Google: renueva Bing con un chatbot de IA y un nuevo motor de búsqueda

Publicado en Xataka
https://www.xataka.com/robotica-e-ia/microsoft-saca-toda-artilleria-google-renueva-bing-chatbot-ia-nuevo-motor-busqueda



Microsoft saca toda la artillería contra Google: renueva Bing con un chatbot de IA y un nuevo motor de búsqueda

Microsoft abraza la inteligencia artificial. Los de Redmond acaban de anunciar el punto de partida de una estrategia que pone como eje el desarrollo de productos basados en esta tecnología. Veremos a un Bing completamente renovado con un chatbot conversacional que se alimentará de la IA. Además, el buscador tendrá un nuevo motor para arrojar resultados más precisos y relevantes.

Y, por si  lo mencionado fuera poco, la compañía también renovará su navegador Edge de la mano de la IA. “Creemos que esta tecnología transformará todas las categorías del software” ha dicho hoy el CEO de Microsoft, Satya Nadella, en su evento junto a Sam Altman, uno de los cofundadores y el máximo responsable de la compañía de inteligencia artificial detrás de ChatGPT, OpenAI.


Microsoft vitamina su buscador con IA

Los de Redmond han querido dejar la cosas claras. No se conformarán con ser meros espectadores en la revolución de la IA que se avecina. Nadella dice que una carrera ha comenzado y que harán todo lo posible para conseguir posicionarse primeros. Ahora bien, escalar posiciones en una industria con actores de peso como Google, que curiosamente acaba de lanzar un competidor para ChatGPT llamado Bard, no será una tarea fácil.

Entonces, ¿cómo se materializará todo esto? Microsoft habla de una experiencia unificada de búsqueda, navegación y chat. Como decimos arriba, a nivel de funcionamiento, el nuevo motor de búsqueda de Bing promete brindar mejores resultados (una de sus grandes falencias frente a Google). A nivel de diseño estrena una nueva barra lateral y una pestaña superior llamada 'Chat'. 

Como era de esperarse, Nadella ha presentado una “experiencia de chat” en el buscador. Previsiblemente se trata de una respuesta a los comentarios de la gente con la llegada de ChatGPT. En este caso, el nuevo chat interactivo servirá para "ofrecer resultados de búsquedas complejas". Entre los ejemplos mencionan desde planificar un itinerario de viaje hasta investigar qué televisor comprar.

Esta nueva mecánica se centra en en dar respuestas y conversar con el usuario, pero además ofrece la capacidad de ayudar al usuario a crear mejores “prompts”, esto es, a hacer las preguntas de la mejor forma posible para obtener lo que busca. La nueva caja de búsqueda permite introducir hasta 1.000 caracteres, y al hacer cualquier búsqueda aparecen dos grandes bloques.


En primer lugar, una lista de resultados en el bloque de la izquierda. En segundo, una respuesta con enlaces en el bloque de la derecha. Como podemos ver, la propuesta de Bing parece tratar de mezclar las búsquedas tradicionales con ese formato conversacional, de forma que el usuario pueda tener acceso a ambos formatos desde la misma búsqueda.

Puede que te preguntes, entonces, cuál es el funcionamiento interno de esto. Veamos. Bing funciona con un LLM (Large Language Model) de nueva generación desarrollado por OpenAI y personalizado especialmente para el ámbito de las búsquedas. Este sistema es aún más potente que el usado en ChatGPT. Además, cuenta con una nueva forma de trabajo con OpenAI llamada “modelo Prometeus” que mejora en la relevancia de las respuestas, las anota, las actualiza y más.

El índice central de la búsqueda se mejora aplicando el modelo de inteligencia artificial al núcleo del algoritmo de búsqueda, lo que según Microsoft ofrece el mayor salto en relevancia de resultados jamás logrado en un motor de búsqueda. En este sentido, aporta además una nueva experiencia de usuario a las búsquedas, algo que es “tan importante como la plataforma técnica que hay por debajo”.

Otro producto beneficiado con el nuevo rumbo que está tomando la compañía dirigida por Nadella es Edge. La nueva versión del navegador cuenta con esquinas redondeadas que se adoptan de forma más completa el lenguaje de diseño Fluent UI. Eso permitirá que se integre mejor que nunca con Windows 11, y en él encontramos otra novedad lógica: una mayor integración de Bing.

De hecho, la misma interfaz conversacional que está disponible en Bing estará disponible como una barra lateral en Edge, lo que permite acceder a esa capacidad sin necesidad de navegar a Bing. Entre las opciones estarán las que ya se vieron en ChatGPT a la hora de dar un resumen de cualquier documento. Durante la demostración cargaron un PDF en Microsoft Edge con los resultados financieros trimestrales de la empresa Gap.

Con un solo click era posible abrir esa barra lateral y usar el chat para que el motor de IA ofreciese un resumen de la página en la que estamos. En este caso, del PDF, que resume en varios puntos. En esa demostración hubo otro momento singular: uno en el que el chatbot integrado en Edge (y en Bing) se encargó de escribir un post en LinkedIn —plataforma que pertenece a Microsoft— para que luego podamos revisarlo y publicarlo en apenas unos instantes.

En Microsoft también explicaron cómo esta integración lleva años en marcha. La empresa sabía que había riesgos como el de los sesgos, pero también el de que alguien lo modificara —como ha sucedido con ChatGPT— para que diera respuestas inapropiadas. Lo curioso es que en este nuevo chatbot conversacional Microsoft y OpenAI han aplicado un singular método para evitar esa posibilidad: usar el propio modelo para reaccionar a los cambios en el mundo y a intentos de que el sistema de inteligencia artificial dijera algo inapropiado. Es como si el propio sistema se estuviera continuamente probando a sí mismo para no dar respuestas inadecuadas o responder en temas tóxicos y delicados.

Una de las limitaciones de ChatGPT era depender de un conjunto de datos que databa de 2021 y que por tanto no era especialmente reciente. En el nuevo Bing el motor conversacional parece haber resuelto este problema, porque según los directivos de Microsoft, quedaremos “impresionados” por lo reciente de la información del modelo.

La precisión es otra de las cuestiones clave, y en Microsoft admitieron que “no siempre vamos a dar la respuesta corriente. Siempre estamos aprendiendo. La clave aquí es cómo aprovechamos esa información” ya que al alimentar al motor con más datos se va incrementando esa precisión en las respuestas.

Y, la pregunta del millón: ¿cuándo podremos empezar a utilizar el nuevo Bing? La compañía dice que la versión de escritorio está disponible en versión preliminar limitada. "Cualquier usuario podrá probar con un número limitado de preguntas y también registrarse a partir de hoy para lograr acceso completo a estas funciones". En cuanto a la versión móvil, han dicho que llegará "en las próximas semanas".

Recompensas, incentivos y/o reconocimientos para los investigadores que practican la Ciencia Abierta

Publicado en blog  Universo abierto https://universoabierto.org/2019/10/14/recompensas-incentivos-y-o-reconocimientos-para-los-investigadore...