Mostrando entradas con la etiqueta Microsoft. Mostrar todas las entradas
Mostrando entradas con la etiqueta Microsoft. Mostrar todas las entradas

viernes, 29 de noviembre de 2024

Cómo Google pasó 15 años creando una cultura de ocultamiento

Publicado en The New York Times
https://www.nytimes.com/es/2024/11/21/espanol/negocios/google-mensajes-empleados-secretos.html


Cómo Google pasó 15 años creando una cultura de ocultamiento

Para evitar demandas antimonopolio, Google ordenó sistemáticamente a sus empleados que destruyeran los mensajes, evitaran ciertas palabras y copiaran a los abogados con la mayor frecuencia posible.

 

Por David Streitfeld

David Streitfeld ha escrito sobre Google desde que era una empresa emergente.

21 de noviembre de 2024

 

Read in English



A fines de 2008, mientras Google se enfrentaba al escrutinio antimonopolio por un acuerdo publicitario con su rival Yahoo y lidiaba con demandas por patentes, marcas registradas y derechos de autor, sus ejecutivos enviaron un memorando confidencial.

“Creemos que la información es buena”, les dijeron los ejecutivos a los empleados. Sin embargo, también afirmaron que los reguladores gubernamentales o los competidores podrían aprovecharse de las palabras que los trabajadores de Google se escribieran unos a otros de manera casual e irreflexiva.

Para minimizar las probabilidades de que un juicio pudiera sacar a la luz los comentarios que podrían ser incriminatorios, Google dijo que los empleados debían abstenerse de especulaciones y sarcasmos y “pensárselo dos veces” antes de escribirse unos a otros sobre “temas candentes”. “No hagas comentarios antes de conocer todos los hechos”, se les indicó.

También se modificó la tecnología. La configuración de la herramienta de mensajería instantánea de la empresa se cambió a “extraoficial”. Las frases incautas se borrarían al día siguiente.

El memorando se convirtió en la primera acción de una campaña de 15 años que fue emprendida por Google para convertir a la acción de borrar en la norma de sus comunicaciones internas. Mientras el gigante de internet almacenaba la información del mundo, creaba una cultura laboral que intentaba minimizar la suya propia. Entre las herramientas utilizadas destacan el uso del privilegio legal como un escudo y la imposición de restricciones a su propia tecnología, todo eso mientras advertía de manera continua que los comentarios irreflexivos podrían hundir incluso a la corporación más exitosa.

La manera en que Google desarrolló esta cultura de desconfianza se reveló a partir de cientos de documentos y pruebas, así como de testimonios de testigos, en tres juicios antimonopolio celebrados el año pasado contra la empresa de Silicon Valley. Los demandantes —Epic Games en un caso, y el Departamento de Justicia en los otros dos— intentaban demostrar un comportamiento monopolístico, lo que les obligó a analizar correos electrónicos, memorandos y mensajes instantáneos de cientos de ingenieros y ejecutivos de Google.

Las pruebas y testimonios demostraron que la empresa tomó numerosas medidas para mantener a raya las comunicaciones internas. Animaba a los empleados a poner “privilegio abogado-cliente” en los documentos y siempre añadir a un abogado de Google a la lista de destinatarios, aunque no hubiera temas legales de por medio y el abogado nunca respondiera.

Las empresas que se anticipan a un litigio están obligadas a conservar los documentos. Pero Google eximió a la mensajería instantánea de las retenciones legales automáticas. Si los trabajadores se veían implicados en un proceso legal, dependía de ellos activar su historial de chat. Por lo visto en los juicios, pocos lo hicieron.

Google no es ni mucho menos la única empresa que intenta mantener las nuevas formas de comunicación afuera de los juzgados. A medida que los mensajes instantáneos y de texto se han convertido en populares herramientas de oficina, las empresas y los reguladores se han enfrentado cada vez más sobre cómo pueden utilizarse en los tribunales.

Hace una generación, una conversación entre amigos o una llamada telefónica podía ser incriminatoria, pero las palabras se disolvían en el aire. Alguien podría recordarlas, pero siempre podían negarse. Tal vez los oyentes escucharon mal o entendieron mal.

A las empresas les gustaría que los mensajes instantáneos fueran tan efímeros como una conversación en la vida real. Un comentario hecho por mensaje de texto a un subordinado sobre las implicaciones de una fusión no es más que cháchara, argumentan. Pero los reguladores y los litigantes los consideran un juego limpio.

En agosto, la Comisión Federal de Comercio (FTC, por su sigla en inglés), que ha interpuesto una demanda para detener una fusión de supermercados de 25.000 millones de dólares entre Albertsons y Kroger, dijo que varios ejecutivos de Albertsons habían demostrado “una práctica generalizada” de borrar mensajes de texto relacionados con la empresa, incumpliendo la obligación legal de conservarlos.

Algunos de estos mensajes, según la FTC, sugerían que al menos un ejecutivo pensaba que los precios podrían aumentar como resultado de la fusión. El juez dijo que Albertsons “no tomó medidas razonables” para conservar los mensajes, pero no sancionó a la cadena. Albertsons declinó hacer comentarios.

En abril, la FTC dijo en una presentación legal como parte de su caso antimonopolio contra Amazon que los ejecutivos de la compañía habían utilizado Signal, la aplicación de mensajería que puede configurarse para que desaparezcan los mensajes, con el fin de discutir temas relacionados con la competencia, incluso después de que se les exigiera conservar todas las comunicaciones en el caso. Amazon dijo que las afirmaciones de que había destruido información eran “infundadas e irresponsables”.
Sin embargo, Google ha sido la empresa que ha enfrentado las mayores críticas por sus acciones porque los jueces de los tres casos antimonopolio han reprendido a la compañía por sus prácticas de comunicación.

El juez James Donato del Tribunal para el Distrito Norte de California, quien presidió el caso Epic, dijo que había “una arraigada cultura sistémica de supresión de pruebas relevantes dentro de Google” y que el comportamiento de la empresa era “un ataque frontal a la administración imparcial de justicia”. Añadió que, tras el juicio, iba a “llegar al fondo” de quién era el responsable en Google de permitir este comportamiento. El juez Donato declinó hacer comentarios.

La jueza Leonie Brinkema, del Tribunal para el Distrito Este de Virginia, quien supervisa el caso antimonopolio de Google relacionado con la tecnología publicitaria, dijo en una audiencia celebrada en agosto que las políticas de conservación de documentos de la empresa “no eran la manera en que debería funcionar una entidad corporativa responsable”. Y añadió: “Es probable que se hayan destruido muchísimas pruebas”.

El Departamento de Justicia ha pedido a la jueza Brinkema que emita sanciones, lo que supondría una presunción de que el material desaparecido era desfavorable para Google en los temas de los casos llevados a juicio, incluido el poder de monopolio y si su conducta fue anticompetitiva. Los alegatos finales del caso están previstos para el lunes.

En un comunicado, Google dijo tomarse “muy en serio nuestra obligación de conservar y presentar los documentos pertinentes. Durante años hemos respondido a consultas y litigios, y educamos a nuestros empleados sobre el privilegio legal”. La empresa dijo que había proporcionado “millones de documentos” solo en los casos del Departamento de Justicia.

Desde el punto de vista de Google, era la Marie Kondo de las empresas, limitándose a poner en orden sus registros y archivos. Pero lo hizo de manera tan exhaustiva y obsesiva que creó la ilusión de engaño que tanto intentaba disipar, dijo Agnieszka McPeak, profesora de la Facultad de Derecho de la Universidad Gonzaga, quien ha escrito sobre la destrucción de pruebas.

“Google tenía una política corporativa vertical de ‘No guardes nada que pueda hacernos quedar mal’”, dijo. “Y eso hace que Google quede mal. Si no tienen nada que ocultar, piensa la gente, ¿por qué actúan como si lo tuvieran?”.

La larga sombra de Microsoft

Google se fundó en septiembre de 1998, pocos meses después de que la empresa tecnológica más dominante de la época —Microsoft— fuera demandada por el Departamento de Justicia por violación de las leyes antimonopolio. Para demostrar que Microsoft monopolizaba de manera ilegal el mercado de los navegadores web, el Departamento de Justicia no tuvo que ir muy lejos para encontrar memorandos condenatorios.

“Tenemos que continuar nuestra yihad el año que viene”, escribió un vicepresidente de la empresa al presidente ejecutivo de Microsoft, Bill Gates, en un memorando. Otro ejecutivo, tratando de persuadir a Apple para que eliminara una función, dijo: “Queremos que acuchilles al bebé”.

Microsoft perdió el caso, aunque el veredicto fue anulado parcialmente en una apelación. Sin embargo, fue una experiencia lo bastante cercana a la muerte como para que la siguiente generación de empresas tecnológicas, incluida Google, desconfiaran tanto de los documentos como de los comentarios.

El problema fue que la tecnología facilitó enormemente la producción y conservación de ambos. Google producía 13 veces más correos electrónicos que el promedio de empresas por empleado antes de cumplir una década, según declaró Kent Walker, el principal abogado de Google, en el juicio de Epic. Dijo que Google se sentía desbordada, y la empresa tenía claro que las cosas solo empeorarían si no se hacían cambios.

El memorando de 2008 que decía que los mensajes de chat se purgarían automáticamente estaba firmado por Walker y Bill Coughran, un ejecutivo de ingeniería. Señalaban que Google tenía “una cultura de correo electrónico y mensajería instantánea”. Sus herramientas de mensajería instantánea, primero llamadas Talk, más tarde Hangouts y después Chat, fueron adoptadas rápidamente por los empleados.

Chat era el lugar en el que los ingenieros podían ser un poco espontáneos, de manera segura. Como escribió un empleado en una conversación que se divulgó como prueba en un juzgado, la necesidad de ser cauteloso “hace que la comunicación escrita sea menos interesante, a veces incluso menos útil. Pero por eso tenemos chats extraoficiales”.

Google, como muchas otras empresas, tiene que hacer frente a tantos pleitos que algunos empleados están vinculados a varios procesos al mismo tiempo. Algunos pueden involucrados en litigios durante toda su carrera.

Lauren Moskowitz, abogada de Epic, preguntó a Walker durante su testimonio en el caso cómo funcionaba realmente poner a los empleados al mando del proceso.

“Usted esperaba que sus empleados, cientos, miles de empleados, dejaran de hacer lo que estaban haciendo por cada mensaje instantáneo que enviaban o recibían cada día, y analizaran una lista de temas con algún tipo de retención legal, para decidir si debían tomar una medida para cambiar una configuración predeterminada en su chat antes de llevar a cabo el resto de sus actividades”, dijo Moskowitz.

Walker respondió que la política había sido “razonable en su momento”.

A medida que Google crecía, su vocabulario se reducía. En un memorando de 2011 titulado “Conceptos básicos antimonopolio para el equipo de búsqueda”, la empresa recomendaba evitar “metáforas que impliquen guerras o deportes, ganar o perder”, y rechazar las referencias a “mercados”, “cuota de mercado” o “dominio”.

En un tutorial posterior para los nuevos empleados, Google dijo que incluso una frase tan benigna como “poner productos en manos de nuevos clientes” debería evitarse porque “puede interpretarse como expresión de la intención de negar a los consumidores la posibilidad de elegir”.

Si utilizar las palabras adecuadas y borrar los mensajes no mantenía a Google afuera del juzgado, concluyó la empresa, invocar a los abogados sí lo haría.

En el caso Epic, el demandante alegó que las numerosas evocaciones de Google del privilegio abogado-cliente eran meramente para aparentar, para mantener los documentos fuera del juzgado. Sundar Pichai, director ejecutivo de Google, escribió en un correo electrónico de 2018 a otro ejecutivo: “Privilegio del cliente abogado, confidencial, Kent, por favor, un consejo”, refiriéndose a Walker. El correo electrónico, sobre un asunto no legal, fue retenido por Google y despojado de su privilegio solo después de que Epic lo exigió en corte.

Se pidió a Walker que explicara al juez el comportamiento de Google. Negó que existiera “una cultura de ocultamiento”, pero dijo que uno de los problemas era que los empleados no estaban seguros del significado de ciertas palabras.

“Piensan que la palabra ‘privilegio’ es similar a ‘confidencial’”, dijo.
En el juicio de Epic salió a la luz un mensaje en el que un abogado de Google calificaba de “falso privilegio” la práctica de copiar a los abogados en los documentos y parecía bastante divertido por eso. Walker dijo sentirse “decepcionado” y “sorprendido” al oír ese término.

El jurado del caso falló a favor de Epic en los 11 cargos en diciembre.

Google declinó que Pichai y Walker hicieran comentarios. El mes pasado, tres grupos de defensa, liderados por el American Economic Liberties Project, pidieron que Walker fuera investigado por el Colegio de Abogados del Estado de California por entrenar a Google para “participar en la destrucción generalizada e ilegal” de documentos relevantes para los juicios federales.

‘Lo que pasa en Las Vegas’

En septiembre de 2023, cuando Google iba a juicio en un caso antimonopolio sobre su dominio en las búsquedas de internet, el Departamento de Justicia afirmó que la empresa había retenido decenas de miles de documentos, alegando que eran confidenciales. Cuando los documentos fueron revisados por el tribunal, se consideró que, después de todo, no eran confidenciales.

El juez Amit P. Mehta, del Tribunal de Distrito de Columbia de Estados Unidos, escribió: “El tribunal se siente sorprendido por los extremos a los que Google llega para evitar crear un rastro documental para los reguladores y los litigantes”. Señaló que Google había aprendido claramente la lección de Microsoft: había formado eficazmente a sus empleados para que no crearan “malas” pruebas.

Mehta dijo que, en última instancia, no importaba: en agosto, declaró a Google culpable de monopolio. Sin embargo, dijo que no creía que la empresa se estuviera comportando bien.

“Cualquier empresa que haga recaer en sus empleados la responsabilidad de identificar y conservar las pruebas pertinentes lo hace por su cuenta y riesgo”, escribió, añadiendo que Google podría no tener tanta suerte para evitar sanciones en el próximo caso.

El siguiente caso llegó en septiembre, cuando el Departamento de Justicia argumentó en la sala del juzgado de Brinkema, en Virginia, que Google había creado un monopolio en la muy rentable tecnología de anuncios en línea.

Las pruebas de los casos demostraron que los empleados de Google habían aprendido a ser un poco paranoicos por el bien de la empresa y de sus propias carreras. Habla en la oscuridad, insistían una y otra vez, en lugar de hacerlo en la luz.

“¿Cómo apagamos el historial?”, escribió Adam Juda, vicepresidente de gestión de productos, en un chat de 2020. “Yo no hago historial 🙂”.

A veces, los ejecutivos estaban tan preocupados por dejar un registro que por defecto optaban por una tecnología obsoleta.

En 2017, Robert Kyncl, entonces director comercial de YouTube, filial de Google, preguntó a su jefa, Susan Wojcicki, si tenía un fax en casa. Kyncl explicó que tenía un “documento privilegiado” y que “solo no quería enviar correos electrónicos”. Wojcicki, quien falleció en agosto, no tenía fax.

Si los empleados querían llevar un registro electrónico, eran reprendidos. En un chat de grupo de 2021, un empleado preguntó: “¿Puedo guardar el historial aquí? Necesito guardar algunos datos para la memoria”.

No está bien, dijo Danielle Romain, vicepresidenta de Trust, un equipo de Google que busca soluciones que mejoren la privacidad y la confianza de los usuarios. “La discusión que inició este hilo se adentra en territorio legal y potencialmente competitivo, que me gustaría ser consciente de tener bajo privilegio”, dijo. “Me gustaría ceñirme a la opción por defecto de historial apagado”.

Julia Tarver Wood, abogada del Departamento de Justicia, dijo en una audiencia celebrada en agosto en el caso de la tecnología publicitaria que los empleados de Google “se referían a estos chats extraoficiales como ‘Las Vegas’. Lo que pasa en Las Vegas se queda en Las Vegas”.

Google dijo que hizo todo lo posible por facilitar al gobierno los documentos que pudo y que, en cualquier caso, el Departamento de Justicia no demostró que las conversaciones eliminadas fueran cruciales para su caso. El Departamento de Justicia dijo que no podía hacerlo porque el material había sido borrado.

Los reguladores han subrayado recientemente que no hay “Vegas” en los chats. Este año, la FTC y la división antimonopolio del Departamento de Justicia lo dejaron “meridianamente claro” en un memorando de aplicación: las comunicaciones a través de aplicaciones de mensajería son documentos y deben conservarse si hay amenaza de litigio.

El año pasado, Google cambió sus procedimientos. Por defecto, pasó a guardarlo todo, incluidos los chats. Los empleados en espera de juicio ya no pueden desactivar el historial.

Sin embargo, los viejos hábitos son difíciles de cambiar. En un chat, los empleados respondieron a la noticia formando un grupo para comunicarse en secreto por WhatsApp, la aplicación de mensajería segura de Meta

martes, 20 de agosto de 2024

¿Se ha utilizado su artículo para entrenar un modelo de inteligencia artificial? Casi seguro

Publicado en Nature
https://www.nature.com/articles/d41586-024-02599-9



¿Se ha utilizado su artículo para entrenar un modelo de inteligencia artificial? 

Casi seguro


Los desarrolladores de inteligencia artificial están comprando acceso a valiosos conjuntos de datos que contienen artículos de investigación, lo que plantea preguntas incómodas sobre los derechos de autor.


Por Elizabeth Gibney


Las editoriales académicas están vendiendo a las empresas tecnológicas el acceso a artículos de investigación para entrenar modelos de inteligencia artificial (IA). Algunos investigadores han reaccionado con consternación ante este tipo de acuerdos que se producen sin consultar a los autores. Esta tendencia está suscitando dudas sobre el uso de trabajos publicados, y a veces protegidos por derechos de autor, para entrenar el creciente número de robots de inteligencia artificial que se están desarrollando.


Los expertos dicen que, si un trabajo de investigación aún no se ha utilizado para entrenar un gran modelo lingüístico (LLM), probablemente lo hará pronto. Los investigadores están estudiando métodos técnicos para que los autores puedan detectar si se está utilizando su contenido.


El mes pasado, se supo que la editorial académica británica Taylor & Francis había firmado un acuerdo con Microsoft por valor de 10 millones de dólares que permitía a la empresa tecnológica estadounidense acceder a los datos de la editorial para mejorar sus sistemas de inteligencia artificial. Y en junio, un informe de los inversores mostró que la editorial estadounidense Wiley había ganado 23 millones de dólares por permitir a una empresa anónima entrenar modelos de IA generativa en sus contenidos.


Según Lucy Lu Wang, investigadora en Inteligencia Artificial de la Universidad de Washington en Seattle, es «muy probable» que cualquier cosa que pueda leerse en línea, esté o no en un repositorio de acceso abierto, ya haya sido introducida en un LLM. «Y si un artículo ya ha sido utilizado como dato de entrenamiento en un modelo, no hay forma de eliminar ese artículo una vez que el modelo ha sido entrenado», añade.


Conjuntos de datos masivos


Los LLM se entrenan con enormes volúmenes de datos, a menudo extraídos de Internet. Obtienen patrones entre los miles de millones de fragmentos lingüísticos de los datos de entrenamiento, conocidos como tokens, que les permiten generar textos con una fluidez asombrosa. 


Los modelos de IA generativa se basan en la absorción de patrones de estas masas de datos para generar textos, imágenes o códigos informáticos. Los artículos académicos son valiosos para los creadores de LLM por su extensión y su «alta densidad de información», dice Stefan Baack, que analiza conjuntos de datos de entrenamiento de IA en la Fundación Mozilla, una organización mundial sin ánimo de lucro de San Francisco (California) cuyo objetivo es mantener Internet abierto al acceso de todos.


Entrenar los modelos con un gran volumen de información científica también les proporciona una capacidad mucho mayor para razonar sobre temas científicos, afirma Wang, cocreador de S2ORC, un conjunto de datos basado en 81,1 millones de artículos académicos. El conjunto de datos se desarrolló originalmente para la minería de textos -aplicar técnicas analíticas para encontrar patrones en los datos-, pero desde entonces se ha utilizado para entrenar LLM.


La tendencia a comprar conjuntos de datos de alta calidad va en aumento. Este año, el Financial Times ha ofrecido sus contenidos al desarrollador de ChatGPT OpenAI en un lucrativo acuerdo, al igual que el foro en línea Reddit, a Google. Y dado que los editores científicos probablemente vean la alternativa de que su trabajo sea desechado sin un acuerdo, «creo que habrá más acuerdos de este tipo en el futuro», afirma Wang.


Secretos de información


Algunos desarrolladores de IA, como la Red de Inteligencia Artificial a Gran Escala, mantienen intencionadamente abiertos sus conjuntos de datos, pero muchas empresas que desarrollan modelos de IA generativa han mantenido en secreto gran parte de sus datos de entrenamiento, dice Baack. «No tenemos ni idea de lo que hay ahí», afirma. Los repositorios de código abierto como arXiv y la base de datos académica PubMed de resúmenes son fuentes «muy populares», afirma, aunque es probable que las grandes empresas tecnológicas extraigan los resúmenes de los artículos de pago de las revistas. «Siempre están a la caza de ese tipo de material», añade.


Según Yves-Alexandre de Montjoye, informático del Imperial College de Londres, es difícil demostrar que un LLM ha utilizado un documento concreto. Una forma consiste en pedir al modelo una frase inusual de un texto y ver si el resultado coincide con las siguientes palabras del original. Si es así, es una buena prueba de que el documento está en el conjunto de entrenamiento. Pero si no es así, eso no significa que no se haya utilizado el artículo, entre otras cosas porque los desarrolladores pueden programar el LLM para que filtre las respuestas y se asegure de que no coinciden demasiado con los datos de entrenamiento. «Hace falta mucho para que esto funcione», afirma.


Otro método para comprobar si los datos están en un conjunto de entrenamiento se conoce como ataque de inferencia de pertenencia. Se basa en la idea de que un modelo tendrá más confianza en sus resultados cuando vea algo que ya ha visto antes. El equipo de De Montjoye ha desarrollado una versión de esto, llamada trampa de derechos de autor, para los LLM.


Para tender la trampa, el equipo genera frases que parecen verosímiles pero que no tienen sentido, y las oculta en una obra, por ejemplo como texto blanco sobre fondo blanco o en un campo que se muestra con ancho cero en una página web. Si un LLM se muestra más «sorprendido» -una medida conocida como su perplejidad- por una frase de control no utilizada que por la oculta en el texto, «eso es una prueba estadística de que las trampas se vieron antes», afirma.


Cuestiones de derechos de autor


Aunque fuera posible demostrar que un LLM ha sido entrenado con un texto determinado, no está claro qué ocurre después. Los editores sostienen que, si los desarrolladores utilizan textos protegidos por derechos de autor en la formación y no han solicitado una licencia, eso se considera una infracción. Pero un argumento jurídico contrario afirma que los LLM no copian nada: recogen el contenido informativo de los datos de entrenamiento, que se fragmentan, y utilizan su aprendizaje para generar un nuevo texto. 


Los litigios podrían ayudar a resolver esta cuestión. En un caso de derechos de autor en curso en Estados Unidos que podría sentar precedente, The New York Times ha demandado a Microsoft y a OpenAI, desarrollador de ChatGPT, en San Francisco (California). El periódico acusa a las empresas de utilizar sus contenidos periodísticos para entrenar sus modelos sin permiso.


Muchos académicos están encantados de que su trabajo se incluya en los datos de entrenamiento de LLM, sobre todo si los modelos los hacen más precisos. «A mí personalmente no me importa tener un chatbot que escriba como yo», dice Baack. Pero reconoce que su trabajo no se ve amenazado por los resultados de los LLM del mismo modo que los de otras profesiones, como artistas y escritores. 


En la actualidad, los autores científicos individuales tienen poco poder si el editor de su artículo decide vender el acceso a sus obras protegidas por derechos de autor. En el caso de los artículos a disposición del público, no existe ningún medio establecido para atribuir los créditos o saber si se ha utilizado un texto.


Algunos investigadores, como de Montjoye, se sienten frustrados. «Queremos LLM, pero queremos algo que sea justo, y creo que aún no hemos inventado qué aspecto tiene esto», afirma.



*********************************

  • NEWS

  • 14 August 2024

Has your paper been used to train an AI model? Almost certainly

Artificial-intelligence developers are buying access to valuable data sets that contain research papers — raising uncomfortable questions about copyright.


Academic publishers are selling access to research papers to technology firms to train artificial-intelligence (AI) models. Some researchers have reacted with dismay at such deals happening without the consultation of authors. The trend is raising questions about the use of published and sometimes copyrighted work to train the exploding number of AI chatbots in development.

Experts say that, if a research paper hasn’t yet been used to train a large language model (LLM), it probably will be soon. Researchers are exploring technical ways for authors to spot if their content being used.

Last month, it emerged that the UK academic publisher Taylor & Francis, had signed a US$10-million deal with Microsoft, allowing the US technology company to access the publisher’s data to improve its AI systems. And in June, an investor update showed that US publisher Wiley had earned $23 million from allowing an unnamed company to train generative-AI models on its content.  

Anything that is available to read online — whether in an open-access repository or not — is “pretty likely” to have been fed into an LLM already, says Lucy Lu Wang, an AI researcher at the University of Washington in Seattle. “And if a paper has already been used as training data in a model, there’s no way to remove that paper after the model has been trained,” she adds.

Massive data sets

LLMs train on huge volumes of data, frequently scraped from the Internet. They derive patterns between the often billions of snippets of language in the training data, known as tokens, that allow them to generate text with uncanny fluency.

Generative-AI models rely on absorbing patterns from these swathes of data to output text, images or computer code. Academic papers are valuable for LLM builders owing to their length and “high information density”, says Stefan Baack, who analyses AI training data sets at the Mozilla Foundation, a global non-profit organization in San Francisco, California that aims to keep the Internet open for all to access.

Training models on a large body of scientific information also give them a much better ability to reason about scientific topics, says Wang, who co-created S2ORC, a data set based on 81.1 million academic papers. The data set was originally developed for text mining — applying analytical techniques to find patterns in data — but has since been used to train LLMs.  

The trend of buying high-quality data sets is growing. This year, the Financial Times has offered its content to ChatGPT developer OpenAI in a lucrative deal, as has the online forum Reddit, to Google. And given that scientific publishers probably view the alternative as their work being scraped without an agreement, “I think there will be more of these deals to come,” says Wang.

Information secrets

Some AI developers, such as the Large-scale Artificial Intelligence Network, intentionally keep their data sets open, but many firms developing generative-AI models have kept much of their training data secret, says Baack. “We have no idea what is in there,” he says. Open-source repositories such as arXiv and the scholarly database PubMed of abstracts are thought to be “very popular” sources, he says, although paywalled journal articles probably have their free-to-read abstracts scraped by big technology firms. “They are always on the hunt for that kind of stuff,” he adds.  

Proving that an LLM has used any individual paper is difficult, says Yves-Alexandre de Montjoye, a computer scientist at Imperial College London. One way is to prompt the model with an unusual sentence from a text and see whether the output matches the next words in the original. If it does, that is good evidence that the paper is in the training set. But if it doesn’t, that doesn’t mean that the paper wasn’t used — not least because developers can code the LLM to filter responses to ensure they don’t match training data too closely. “It takes a lot for this to work,” he says.

Another method to check whether data are in a training set is known as membership inference attack. This relies on the idea that a model will be more confident about its output when it is seeing something that it has seen before. De Montjoye’s team has developed a version of this, called a copyright trap, for LLMs.  

To set the trap, the team generates sentences that look plausible but are nonsense, and hides them in a body of work, for example as white text on a white background or in a field that’s displayed as zero width on a webpage. If an LLM is more ‘surprised’ — a measure known as its perplexity — by an unused control sentence than it is by the one hidden in the text, “that is statistical evidence that the traps were seen before”, he says.

Copyright questions

Even if it were possible to prove that an LLM has been trained on a certain text, it is not clear what happens next. Publishers maintain that, if developers use copyrighted text in training and have not sought a licence, that counts as infringement. But a counter legal argument says that LLMs do not copy anything — they harvest information content from training data, which gets broken up, and use their learning to generate new text.   

Litigation might help to resolve this. In an ongoing US copyright case that could be precedent-setting, The New York Times is suing Microsoft and ChatGPT’s developer OpenAI in San Francisco, California. The newspaper accuses the firms of using its journalistic content to train their models without permission.

Many academics are happy to have their work included in LLM training data — especially if the models make them more accurate. “I personally don’t mind if I have a chatbot who writes in the style of me,” says Baack. But he acknowledges that his job is not threatened by LLM outputs in the way that those of other professions, such as artists and writers, are. 

Individual scientific authors currently have little power if the publisher of their paper decides to sell access to their copyrighted works. For publicly available articles, there is no established means to apportion credit or know whether a text has been used.

Some researchers, including de Montjoye, are frustrated. “We want LLMs, but we still want something that is fair, and I think we’ve not invented what this looks like yet,” he says.

doi: https://doi.org/10.1038/d41586-024-02599-9

******************************


jueves, 25 de julio de 2024

Algunos investigadores ‘sorprendidos’ de que Taylor & Francis haya vendido el acceso a sus investigaciones a Microsoft AI

Publicado en blog Universo Abierto
https://universoabierto.org/2024/07/23/algunos-investigadores-sorprendidos-de-que-taylor-francis-vende-el-acceso-a-sus-investigaciones-a-microsoft-ai/



Algunos investigadores ‘sorprendidos’ de que Taylor & Francis haya vendido el acceso a sus investigaciones a Microsoft AI

Battersby, Matilda. «Academic Authors “shocked” after Taylor & Francis Sells Access to Their Research to Microsoft AI». The Bookseller. Accedido 23 de julio de 2024. https://www.thebookseller.com/news/academic-authors-shocked-after-taylor–francis-sells-access-to-their-research-to-microsoft-ai.

Autores académicos han expresado su sorpresa al enterarse de que la editorial Taylor & Francis, propietaria de Routledge, vendió acceso a las investigaciones de sus autores como parte de una colaboración con Microsoft en inteligencia artificial (IA), en un acuerdo valorado en casi 8 millones de libras (10 millones de $) en su primer año. La sociedad de autores ha mostrado preocupación por esta situación y destacó la falta de consulta con los autores antes de firmar el acuerdo.

La Dra. Ruth Alison Clemens, una académica publicada por Taylor & Francis y Routledge, dijo que los autores no fueron informados sobre el acuerdo de IA y no tuvieron la oportunidad de optar por no participar. Clemens se enteró del trato por casualidad y expresó su sorpresa por la falta de comunicación al respecto.

Un portavoz de Taylor & Francis confirmó el acuerdo, indicando que proporciona a Microsoft acceso no exclusivo a contenido avanzado y datos para mejorar los sistemas de IA. El acuerdo, detallado por Informa, la empresa matriz de Taylor & Francis, en una actualización comercial en mayo, estipula un pago inicial de $10 millones por acceso a los datos, con pagos recurrentes no especificados en los tres años siguientes.

Taylor & Francis afirmó que protege la integridad del trabajo de los autores y los derechos de recibir pagos de regalías conforme a los contratos de autor. Sin embargo, no quedó claro si existe una política de exclusión para los autores en este acuerdo.

La comunidad académica ha mostrado una fuerte preocupación, destacando la necesidad de considerar cuestiones de derechos de autor, derechos morales y protección de datos. The Society of Authors (SoA) instó a los autores que descubran que su trabajo ha sido utilizado sin su consentimiento a contactarlos para recibir orientación.

Barbara Hayes, directora ejecutiva de ALCS, enfatizó la importancia de representar plenamente los intereses y derechos de los autores en estas negociaciones, una etapa que a menudo falta en los acuerdos actuales.

A principios de esta semana, el Copyright Clearance Centre anunció la disponibilidad de los derechos de reutilización de la IA dentro de su  Annual Copyright License (ACL), que, según afirma, es «la primera solución colectiva de concesión de licencias para el uso interno de materiales protegidos por derechos de autor en sistemas de IA». La licencia proporcionará a los titulares derechos y remuneración por los nuevos usos de sus contenidos.

lunes, 13 de marzo de 2023

ChatGPT vs Google: ¿El fin de la barra de búsqueda?

Publicado en Letras Libres
https://letraslibres.com/ciencia-y-tecnologia/future-tense-futuro-barra-busqueda-chatgpt/



¿El fin de la barra de búsqueda?

Industrias enteras dependen de la manera en que Google gestiona las búsquedas y la publicidad en línea. Chatbots como Chat GPT podrían cambiar eso, y alterar de paso el modo en que estructuramos el conocimiento humano.


Por Ed Finn
10 marzo 2023

Como buen niño de los 80, puedo dividir claramente mi vida en Antes de Google y Después de Google. Con el inicio del milenio, internet dejó de ser una maraña de listas incompletas de cosas extrañas para convertirse en una muy útil base de datos de investigación. Desde entonces, buscar en Google ha sido una de las únicas constantes tecnológicas de mi vida adulta, que ha persistido a pesar del auge de los teléfonos inteligentes, las redes sociales, los servicios de streaming, e incluso la entrega de burritos con drones (por cierto, ¿qué pasó con eso?).

En todo este tiempo, nadie ha sido capaz de desafiar el papel de Google como guardián de la abundancia digital. Más de 90% de los usuarios de internet de todo el mundo utilizan Google para comprar, navegar y satisfacer su curiosidad sobre prácticamente todo. Los anuncios que Google a partir de esta actividad (y en otros sitios web) han alimentado una máquina de dinero que generó más de un cuarto de billón de dólares en ventas el año pasado.

Google empezó como una especie de creador de mapas de internet, pero gracias a su éxito se convirtió gradualmente en el arquitecto de la World Wide Web. Hoy, industrias enteras, desde el comercio minorista hasta los seguros de automóvil, dependen de la manera en que Google gestiona los resultados de las búsquedas y la publicidad en línea. La frontera electrónica se hizo cada vez más corporativa, organizada de acuerdo con la tiranía del clic: ¿cuántos usuarios hacen clic en tu anuncio, en tu titular, en tu video? Esa cifra determina cuánto dinero se puede ganar en internet (y explica la alucinante cantidad de artículos escritos con el propósito específico de aparecer cuando tecleas, por ejemplo, “¿A qué hora empiezan los Oscares?”)

La economía basada en los clics ha hecho que el mundo sea más eficiente en algunos aspectos, pero ha convertido esta milagrosa base de datos de información global en una frenética subasta en la que todos los sitios web buscan subir a lo más alto en los resultados de búsqueda, conseguir el mayor número de clics y retener el mayor número de ojos. Cada página web que cargas es un poco más lenta gracias a las subastas para determinar qué anuncios se verán. Un sinfín de periodistas profesionales libraron batallas perdidas contra las mezquinas métricas de clics y porcentajes de descarga de páginas, y luego se adaptaron a ellas, convirtiendo la “optimización de motores de búsqueda” en una de las habilidades periodísticas más preciadas. YouTube y las redes sociales persiguen los clics con tal empeño que, sin darse cuenta, crean algoritmos que enganchan a los usuarios con contenidos cada vez más lascivos y radicales. Google ha construido un internet en el que ganan los que más clics hacen, y Google desempeña un papel clave en el recuento de esos clics.

¿Y si todo esto cambia?

La llegada de ChatGPT de OpenAI a finales de 2022 hizo temblar las salas de juntas de las grandes empresas de tecnología. Microsoft, rival de Google, no tardó en utilizar su participación en OpenAI para crear una versión beta de algo nuevo: un agente conectado a Bing, el motor de búsqueda de Microsoft, que puede conversar. Google conectó su propio chatbot de nueva generación, Bard, a su principal producto de búsqueda. Estamos en los primeros tiempos de todo eso, y se nota: la nueva y parlanchina Bing de Microsoft hace poco asustó a un periodista del New York Times con su megalomanía y sus insinuaciones amorosas. Bard, por su parte, cometió un error fáctico en su demo de lanzamiento, haciendo que las acciones de la empresa matriz Alphabet cayeran en picada.

La rapidez con la que Google ha introducido una herramienta de inteligencia artificial a medio cocer en su mayor fuente de ingresos, a pesar de la amenaza que Bard podría representar para el modelo de negocio, indica la seriedad con la que nuestro guardián de toda la información del mundo se está tomando el momento. (Tras la publicación de este artículo, un portavoz de Google se puso en contacto para aclarar que la empresa no tiene intención de sustituir Search por Bard y que Bard, como chat, es distinta de otras grandes herramientas de inteligencia artificial basadas en modelos lingüísticos que se presentaron al mismo tiempo, incluida una que funciona con Search para extraer información de toda la web. El portavoz dijo que Bard no estaba “cambiando la dirección” de Search y reiteró que ninguna de las dos herramientas se ha lanzado públicamente).

¿Qué podría significar sustituir la economía del clic y su piedra angular, la barra de búsqueda, por algo parecido a una conversación? Esto es lo que ofrecen Bard y  Bing con ChatGPT: la posibilidad de hacer preguntas más humanas (¿cuál es el mejor sitio para comer un burrito por aquí y qué drones recomendarías para transportarlo?), y mantener conversaciones con un sistema que retiene el contexto. (Aunque cabe destacar que, en un intento por frenar algunos de los comportamientos más precipitados de su chatbot, Microsoft limitó recientemente a los usuarios a hacer cinco preguntas por sesión). En lugar de ofrecerte un menú de enlaces (y anuncios), tu interlocutor/mayordomo informativo va al grano, quizás ofreciendo algunas notas a pie de página para que sigas leyendo. Si se lo pides, hasta te ofrecerá sus respuestas con voz de pirata o en rimas.

Antes de que apareciera Google Search y devorara la industria del acceso a la información digital, este tipo de síntesis era lo que todo el mundo pensaba que sería nuestro futuro digital. Los primeros visionarios, como Vannevar Bush, previeron el océano de información en el que nadamos e imaginaron sistemas que nos permitirían seguir a “pioneros” y sintetizadores. Los escritores de ciencia ficción de los años 80 y 90 imaginaron obras de inteligencia artificial que actuaban como bibliotecarios (y a veces se les llamaba así), como el educado subsistema de Snow Crash, del autor Neal Stephenson, capaz de resumir libros, correlacionar información y mantener largas conversaciones con humanos. DARPA, el ala de investigación del ejército estadounidense, invirtió millones en un proyecto llamado Personal Assistant that Learns-PAL (Asistente Personal que Aprende) para construir algo similar en la vida real para los mandos militares. Con el tiempo, esa investigación dio lugar a Siri y, con ella, al sueño de una computadora con la que se pudiera hablar de verdad.

Una interfaz basada en conversación supondría un cambio radical respecto a la forma en que hemos aprendido a trabajar en sistemas basados en palabras clave, como Google. Cuando tengo una pregunta complicada que hacer en internet, a menudo tengo que hacer cierto tipo de esfuerzo en mi consulta, tratando de imaginar posibles escenarios en los que alguien podría haberla respondido y que podrían ser muy diferentes de mi contexto. La lista de resultados de búsqueda que aparece, con enlaces patrocinados en la parte superior, me ofrece opciones sobre qué pista seguir o a qué autoridad creer. Todo internauta aprende rápidamente a evaluar la credibilidad y utilidad de un enlace en función de su URL y de cómo aparece en la búsqueda de Google.

Sustituir esa consulta por una conversación representa una transformación a lo que Google lleva tiempo llamando la “búsqueda del conocimiento” de sus usuarios. La clásica barra de búsqueda se esfuerza por ser omnipresente, esencial y casi invisible. Pero estos nuevos chatbots no se apartan del camino. Se adelantan, dan la mano, presentan personalidad y afecto en sus interacciones con los usuarios. Ofrecen síntesis, extrapolación y refinamiento repetido, mediante preguntas de seguimiento y diálogo. Ofrecen la ilusión de un criterio.

En lugar de una lista de posibles fuentes, tenemos una sola voz. Cuando los usuarios interactúan con Bing (R.I.P. Sydney) o Bard, los sitios subyacentes se esconden como notas a pie de página o se ocultan por completo. No muestran sus cálculos. Es tentador para todos los que alguna vez hemos murmurado con frustración “dime ya la respuesta” cuando la búsqueda de Google no da resultados. Pero también es preocupante. Dejando a un lado problemas bien documentados que tienen estos sistemas, como equivocarse, inventar cosas y asustar a la gente, la ilusión de una respuesta única y coherente puede ser peligrosa cuando la naturaleza de la verdad es complicada y controvertida.

La diferencia entre una pregunta y una consulta a una base de datos tiene enormes implicaciones para la forma en que nos relacionamos con el extenso universo del conocimiento humano y entre nosotros mismos. Una lista de resultados de búsqueda, por muy elaborada y manipulada que esté, sigue recordándonos que puede haber respuestas contradictorias a nuestra pregunta. Una interfaz conversacional con una inteligencia artificial encantadora y simplista oculta toda esa confusión. Estos sistemas podrían convertirse en otra capa de ofuscación entre nosotros y la fuente del conocimiento humano. Otra caja negra, pero que habla, cuenta chistes y puede escribir un soneto si se lo ordenan. Irónicamente, OpenAI está intentando resolver el persistente problema de que estos sistemas “alucinen” con información falsa enseñándoles a validar sus resultados mediante un motor de búsqueda.

Pero va a ser mucho más difícil vender clics desde un bot. ¿Qué ocurrirá con la economía del clic si una inteligencia artificial se convierte en un extraño mutante de un portavoz y una bola mágica, o algo así como un avatar de la suma total del conocimiento humano? Recursos ricos en información, como periódicos y foros de debate, podrían encontrarse con que estos sistemas recojan su material y lo reformulen de forma tan elocuente que nadie se moleste en navegar hasta la página original. Parece una invitación para deslizarse aún más en el sospechoso camino en el que los creadores de contenidos dependen de los gigantes tecnológicos para que les ofrezcan una parte de los ingresos, sin que haya forma de verificar sus cifras de manera independiente.

La cuestión de cuál podría ser el modelo de negocio para estos nuevos guardianes, y más aún para los proveedores repentinamente invisibles de esa información a través de internet, nos lleva a una cuestión más profunda: estamos hablando de poner a un nuevo arquitecto a cargo de Internet.

Los motores de búsqueda se basan en los hipervínculos, esas conexiones explícitas entre palabras y páginas que son legibles y programables por los humanos. Desde los albores de la enciclopedia moderna, se podría argumentar que toda la estructura del conocimiento humano empírico se construye a partir de las piezas clave de las notas a pie de página y las referencias cruzadas.

Esto contrasta con grandes modelos lingüísticos como ChatGPT: sistemas de aprendizaje automático que, por su diseño, identifican relaciones complejas entre palabras y frasesm basándose en probabilidades, lo que lleva a que algunas personas los llamen “loros estocásticos“. Ningún ser humano, ni siquiera los ingenieros que los construyeron, puede entender cómo funcionan esas asociaciones entre miles o millones de variables ni, lo que es más importante, por qué hacen determinadas asociaciones. Y eso dificulta mucho la corrección de errores o la prevención de daños sin recurrir a filtros y censuras torpes. Pasar de los vínculos a las relaciones probabilísticas es como pasar de la física newtoniana a la rareza cuántica, o de la verdad a algo que solo suena verdadero. ¿Cómo lo sabes? Porque te lo dijo el chatbot. ~



Este artículo es publicado gracias a una colaboración de Letras Libres con Future Tense, un proyecto de Slate, New America, y Arizona State University.

"¡Quemadlo con fuego!" - El uso de ChatGPT «polariza» a los revisores

Publicado en THE Times Higher Education https://www.timeshighereducation.com/news/corrupting-chatgpt-use-polarises-peer-reviewers   Quemadlo...