Mostrando entradas con la etiqueta Taylor & Francis. Mostrar todas las entradas
Mostrando entradas con la etiqueta Taylor & Francis. Mostrar todas las entradas

martes, 10 de diciembre de 2024

Editoriales están vendiendo artículos para entrenar IA y generando millones de dólares

 Publicado en blog Universo abierto
https://universoabierto.org/2024/12/10/los-editores-estan-vendiendo-articulos-para-entrenar-ia-y-generando-millones-de-dolares/




Los editores están vendiendo artículos para entrenar IA y generando millones de dólares

Kwon, Diana. «Publishers Are Selling Papers to Train AIs — and Making Millions of Dollars.» Nature, December 9, 2024. https://www.nature.com/articles/d41586-024-04018-5.

Con el aumento de la popularidad de la inteligencia artificial generativa (IA), varios editores académicos han establecido acuerdos con empresas tecnológicas que buscan utilizar contenido académico para entrenar los grandes modelos de lenguaje (LLMs) que sustentan sus herramientas de IA. Estos acuerdos han resultado altamente lucrativos, generando millones de dólares para los editores involucrados.

Roger Schonfeld, co-creador de un nuevo rastreador de acuerdos y vicepresidente de bibliotecas, comunicación académica y museos en Ithaka S+R, una firma de consultoría en educación superior con sede en Nueva York, comenta: “Estábamos observando anuncios de estos acuerdos y comenzamos a pensar que esto está empezando a convertirse en un patrón”. Schonfeld y su equipo lanzaron en octubre Generative AI Licensing Agreement Tracker, una herramienta destinada a recoger los acuerdos que se están realizando entre editores y compañías de tecnología.

El rastreador tiene como objetivo no solo documentar cada acuerdo individual, sino también identificar y analizar las tendencias generales que emergen de estos acuerdos. Al proporcionar una fuente centralizada de información, el tracker facilita que la comunidad académica y tecnológica comprendan mejor cómo se está utilizando el contenido académico para el desarrollo de IA generativa.

Este fenómeno refleja una creciente intersección entre la publicación académica y el desarrollo de tecnologías avanzadas de IA. Los editores, al vender derechos de uso de sus artículos para entrenar modelos de lenguaje, están aprovechando nuevas oportunidades de ingresos, mientras que las empresas de tecnología aseguran el acceso a vastas cantidades de datos necesarios para mejorar la precisión y capacidad de sus sistemas de IA.

El seguimiento de estos acuerdos es crucial para mantener la transparencia en cómo se utiliza el contenido académico y para asegurar que se respeten los derechos de los autores y las instituciones educativas. Además, este rastreador puede ayudar a identificar posibles implicaciones éticas y legales relacionadas con el uso de investigaciones académicas en el entrenamiento de inteligencias artificiales.

Principales acuerdos:

  • Taylor & Francis firmó un acuerdo de 10 millones de dólares con Microsoft
  • Wiley generó 23 millones de dólares en un acuerdo con una empresa no revelada y espera otros 21 millones este año.
  • Otros grandes editores, como Elsevier y Springer Nature, no han comentado sobre acuerdos similares.

También los editores están creando nuevas posiciones y programas, como el «Wiley AI Partnerships», para formalizar colaboraciones con empresas de tecnología. Esto refleja que estos acuerdos no son excepcionales, sino parte de una estrategia a largo plazo.

Los acuerdos entre editores académicos y empresas de IA están transformando la publicación científica, generando ingresos sustanciales y redefiniendo la relación entre autores, editores y tecnología. Sin embargo, el debate sobre la transparencia y las implicaciones éticas de estas prácticas sigue abierto.

Algunos académicos han mostrado preocupación por el uso de su contenido sin su conocimiento.

  • De Gruyter Brill creó una página informativa para explicar los acuerdos y abordar las inquietudes de los autores.
  • Cambridge University Press & Assessment adoptó un enfoque de participación voluntaria, contactando a 20.000 autores para obtener su consentimiento explícito.

lunes, 23 de septiembre de 2024

Bufete de abogados ofrece información sobre el litigio antimonopolio contra editores de revistas académicas

Publicado en Lieff Cabraser Heimann & Bernstein. Attorneys at Law
https://www.lieffcabraser.com/antitrust/academic-journals/ 


Litigio antimonopolio contra editores de revistas académicas

El 12 de septiembre de 2024, Lieff Cabraser y el co-asesor de Justice Catalyst Law presentaron una demanda federal antimonopolio en nombre de la demandante Lucina Uddin en el tribunal federal de Nueva York contra seis editores comerciales de revistas académicas, incluyendo Elsevier, Springer Nature, Taylor y Francis, Sage, Wiley y Wolters Kluwer, en nombre de una clase propuesta de científicos y académicos que proporcionaron manuscritos o revisión por pares, alegando que estos editores conspiraron para apropiarse ilegalmente de miles de millones de dólares que de otro modo habrían financiado la investigación científica.


Como se detalla en la demanda, el presunto plan de los demandados tiene tres componentes principales. En primer lugar, un acuerdo para fijar el precio de los servicios de revisión por pares en cero, que incluye un acuerdo para coaccionar a los académicos para que ofrezcan su trabajo a cambio de nada, vinculando expresamente su trabajo no remunerado con su capacidad para obtener la publicación de sus manuscritos en las revistas preeminentes de los demandados.


En segundo lugar, los editores demandados acordaron no competir entre sí por los manuscritos exigiendo a los académicos que presentaran sus manuscritos a una sola revista a la vez, lo que reduce sustancialmente la competencia al eliminar los incentivos para revisar los manuscritos con prontitud y publicar rápidamente las investigaciones meritorias.


En tercer lugar, los editores demandados acordaron prohibir a los académicos compartir libremente los avances científicos descritos en los manuscritos presentados mientras dichos manuscritos están siendo revisados por pares, un proceso que a menudo dura más de un año. Como se señala en la demanda, «desde el momento en que los académicos presentan manuscritos para su publicación, los demandados editoriales se comportan como si los avances científicos expuestos en los manuscritos fueran de su propiedad, para ser compartidos sólo si el demandado editor concede el permiso. 


Además, cuando los demandados seleccionan manuscritos para su publicación, a menudo exigen a los investigadores que renuncien a todos los derechos de propiedad intelectual a cambio de nada. Los manuscritos pasan entonces a ser propiedad real de los demandados y éstos cobran lo máximo que el mercado permite por el acceso a esos conocimientos científicos».


Como señala la demanda, los tres elementos principales del plan de los demandados son, cada uno por separado, ilegales per se en virtud del artículo 1 de la Ley Sherman. 


NewScientist describió algunos aspectos del plan como «indefendibles» y el «negocio más rentable del mundo», explicando que «la razón por la que es tan lucrativo es porque la mayor parte de los costes de su contenido son sufragados por los contribuyentes. Los investigadores financiados con fondos públicos hacen el trabajo, lo redactan y juzgan sus méritos. Y sin embargo, la propiedad intelectual resultante acaba en manos de los editores. Para colmo, luego la venden a través de suscripciones exorbitantes y muros de pago, a menudo pagados también por los contribuyentes». El Deutsche Bank describe acertadamente el plan como un «extraño» «sistema de triple remuneración» por el que «el Estado financia la mayor parte de la investigación, paga los salarios de la mayoría de los que comprueban la calidad de la investigación y luego compra la mayor parte del producto publicado». Como explicó otro observador, el plan de los demandados «es como si The New Yorker o The Economist exigieran a los periodistas que escribieran y editaran gratis sus trabajos y pidieran al gobierno que pagara la factura».


Además, el sistema ha dado lugar a una serie de fallos perversos del mercado que merman la capacidad de los científicos para hacer su trabajo y ralentizan drásticamente el ritmo del progreso científico. El sistema ha agravado la crisis de la revisión por pares, por lo que cada vez es más difícil obligar a los científicos a ofrecer su valioso trabajo a cambio de nada. El régimen ha frenado la ciencia, retrasando los avances en todos los campos de investigación. Se tardará más en encontrar tratamientos eficaces contra el cáncer. Se tardará más en lograr avances en la ciencia de los materiales que permitan la computación cuántica. Se tardará más en encontrar herramientas tecnológicas para combatir el cambio climático.


La demanda, presentada ante un tribunal federal de distrito de Nueva York, solicita el triple de daños y perjuicios y medidas cautelares y de otro tipo, incluida una orden para impedir que los demandados sigan infringiendo la ley exigiéndoles que disuelvan los acuerdos ilegales impugnados.


Póngase en contacto con nosotros

Si es usted miembro de la comunidad académica y desea recibir información actualizada sobre el caso, o quiere unirse a los demandantes, utilice el formulario de esta página para enviarnos hoy mismo un mensaje confidencial. No hay ningún cargo ni obligación por nuestra revisión de su información, que nos ayudará a responsabilizar a los demandados editores por sus acciones ilegales generalizadas: https://www.lieffcabraser.com/antitrust/academic-journals/


*******************************************************************



Academic Journal Publishers Antitrust Litigation

On September 12, 2024, Lieff Cabraser and co-counsel at Justice Catalyst Law filed a federal antitrust lawsuit on behalf of plaintiff Lucina Uddin in federal court in New York against six commercial publishers of academic journals, including Elsevier, Springer Nature, Taylor and Francis, Sage, Wiley, and Wolters Kluwer, on behalf of a proposed class of scientists and scholars who provided manuscripts or peer review, alleging that these publishers conspired to unlawfully appropriate billions of dollars that would otherwise have funded scientific research.

As detailed in the complaint, the defendants’ alleged scheme has three main components. First, an agreement to fix the price of peer review services at zero that includes an agreement to coerce scholars into providing their labor for nothing by expressly linking their unpaid labor with their ability to get their manuscripts published in the defendants’ preeminent journals. 

Second, the publisher defendants agreed not to compete with each other for manuscripts by requiring scholars to submit their manuscripts to only one journal at a time, which substantially reduces competition by removing incentives to review manuscripts promptly and publish meritorious research quickly.

Third, the publisher defendants agreed to prohibit scholars from freely sharing the scientific advancements described in submitted manuscripts while those manuscripts are under peer review, a process that often takes over a year. As the complaint notes, “From the moment scholars submit manuscripts for publication, the Publisher Defendants behave as though the scientific advancements set forth in the manuscripts are their property, to be shared only if the Publisher Defendant grants permission. Moreover, when the Publisher Defendants select manuscripts for publication, the Publisher Defendants will often require scholars to sign away all intellectual property rights, in exchange for nothing. The manuscripts then become the actual property of the Publisher Defendants, and the Publisher Defendants charge the maximum the market will bear for access to that scientific knowledge.”  

As the complaint notes, the three major elements of defendants’ scheme are each individually per se unlawful under Section 1 of the Sherman Act. NewScientist described aspects of the Scheme as “indefensible,” and the “most profitable business in the world,” explaining that the “reason it is so lucrative is because most of the costs of its content is picked up by taxpayers. Publicly funded researchers do the work, write it up and judge its merits. And yet the resulting intellectual property ends up in the hands of the publishers. To rub salt into the wound they then sell it via exorbitant subscriptions and paywalls, often paid for by taxpayers too.” Deutsche Bank aptly describes the Scheme as a “bizarre” “triple pay system” whereby “the state funds most of the research, pays the salaries of most of those checking the quality of the research, and then buys most of the published product.” As another observer explained, the Publishing Defendants’ Scheme “is as if the New Yorker or the Economist demanded that journalists write and edit each other’s work for free, and asked the government to foot the bill.” 

In addition, the scheme has resulted in a variety of perverse market failures that impair the ability of scientists to do their jobs and slow dramatically the pace of scientific progress. The scheme has resulted in a worsening peer-review crisis, whereby it has become increasingly difficult to coerce busy scholars into providing their valuable labor for nothing. The Scheme has held back science, delaying advances across all fields of research. It will take longer to find effective treatments for cancer. It will take longer to make advancements in material science that will support quantum computing. It will take longer to find technological tools to combat climate change.

The lawsuit, filed in federal district court in New York, seeks treble damages and injunctive and other relief, including an order to enjoin the defendants from continuing to violate the law by requiring them to dissolve the challenged unlawful agreements.

Contact usIf you are a member of the academic community and want more to receive updates about the case, or seek to join the plaintiffs, please use the form on this page to send us a confidential message today. There is no charge or obligation for our review of your information, which will help us hold the publisher defendants accountable for their pervasive illegal actions: https://www.lieffcabraser.com/antitrust/academic-journals/

martes, 20 de agosto de 2024

¿Se ha utilizado su artículo para entrenar un modelo de inteligencia artificial? Casi seguro

Publicado en Nature
https://www.nature.com/articles/d41586-024-02599-9



¿Se ha utilizado su artículo para entrenar un modelo de inteligencia artificial? 

Casi seguro


Los desarrolladores de inteligencia artificial están comprando acceso a valiosos conjuntos de datos que contienen artículos de investigación, lo que plantea preguntas incómodas sobre los derechos de autor.


Por Elizabeth Gibney


Las editoriales académicas están vendiendo a las empresas tecnológicas el acceso a artículos de investigación para entrenar modelos de inteligencia artificial (IA). Algunos investigadores han reaccionado con consternación ante este tipo de acuerdos que se producen sin consultar a los autores. Esta tendencia está suscitando dudas sobre el uso de trabajos publicados, y a veces protegidos por derechos de autor, para entrenar el creciente número de robots de inteligencia artificial que se están desarrollando.


Los expertos dicen que, si un trabajo de investigación aún no se ha utilizado para entrenar un gran modelo lingüístico (LLM), probablemente lo hará pronto. Los investigadores están estudiando métodos técnicos para que los autores puedan detectar si se está utilizando su contenido.


El mes pasado, se supo que la editorial académica británica Taylor & Francis había firmado un acuerdo con Microsoft por valor de 10 millones de dólares que permitía a la empresa tecnológica estadounidense acceder a los datos de la editorial para mejorar sus sistemas de inteligencia artificial. Y en junio, un informe de los inversores mostró que la editorial estadounidense Wiley había ganado 23 millones de dólares por permitir a una empresa anónima entrenar modelos de IA generativa en sus contenidos.


Según Lucy Lu Wang, investigadora en Inteligencia Artificial de la Universidad de Washington en Seattle, es «muy probable» que cualquier cosa que pueda leerse en línea, esté o no en un repositorio de acceso abierto, ya haya sido introducida en un LLM. «Y si un artículo ya ha sido utilizado como dato de entrenamiento en un modelo, no hay forma de eliminar ese artículo una vez que el modelo ha sido entrenado», añade.


Conjuntos de datos masivos


Los LLM se entrenan con enormes volúmenes de datos, a menudo extraídos de Internet. Obtienen patrones entre los miles de millones de fragmentos lingüísticos de los datos de entrenamiento, conocidos como tokens, que les permiten generar textos con una fluidez asombrosa. 


Los modelos de IA generativa se basan en la absorción de patrones de estas masas de datos para generar textos, imágenes o códigos informáticos. Los artículos académicos son valiosos para los creadores de LLM por su extensión y su «alta densidad de información», dice Stefan Baack, que analiza conjuntos de datos de entrenamiento de IA en la Fundación Mozilla, una organización mundial sin ánimo de lucro de San Francisco (California) cuyo objetivo es mantener Internet abierto al acceso de todos.


Entrenar los modelos con un gran volumen de información científica también les proporciona una capacidad mucho mayor para razonar sobre temas científicos, afirma Wang, cocreador de S2ORC, un conjunto de datos basado en 81,1 millones de artículos académicos. El conjunto de datos se desarrolló originalmente para la minería de textos -aplicar técnicas analíticas para encontrar patrones en los datos-, pero desde entonces se ha utilizado para entrenar LLM.


La tendencia a comprar conjuntos de datos de alta calidad va en aumento. Este año, el Financial Times ha ofrecido sus contenidos al desarrollador de ChatGPT OpenAI en un lucrativo acuerdo, al igual que el foro en línea Reddit, a Google. Y dado que los editores científicos probablemente vean la alternativa de que su trabajo sea desechado sin un acuerdo, «creo que habrá más acuerdos de este tipo en el futuro», afirma Wang.


Secretos de información


Algunos desarrolladores de IA, como la Red de Inteligencia Artificial a Gran Escala, mantienen intencionadamente abiertos sus conjuntos de datos, pero muchas empresas que desarrollan modelos de IA generativa han mantenido en secreto gran parte de sus datos de entrenamiento, dice Baack. «No tenemos ni idea de lo que hay ahí», afirma. Los repositorios de código abierto como arXiv y la base de datos académica PubMed de resúmenes son fuentes «muy populares», afirma, aunque es probable que las grandes empresas tecnológicas extraigan los resúmenes de los artículos de pago de las revistas. «Siempre están a la caza de ese tipo de material», añade.


Según Yves-Alexandre de Montjoye, informático del Imperial College de Londres, es difícil demostrar que un LLM ha utilizado un documento concreto. Una forma consiste en pedir al modelo una frase inusual de un texto y ver si el resultado coincide con las siguientes palabras del original. Si es así, es una buena prueba de que el documento está en el conjunto de entrenamiento. Pero si no es así, eso no significa que no se haya utilizado el artículo, entre otras cosas porque los desarrolladores pueden programar el LLM para que filtre las respuestas y se asegure de que no coinciden demasiado con los datos de entrenamiento. «Hace falta mucho para que esto funcione», afirma.


Otro método para comprobar si los datos están en un conjunto de entrenamiento se conoce como ataque de inferencia de pertenencia. Se basa en la idea de que un modelo tendrá más confianza en sus resultados cuando vea algo que ya ha visto antes. El equipo de De Montjoye ha desarrollado una versión de esto, llamada trampa de derechos de autor, para los LLM.


Para tender la trampa, el equipo genera frases que parecen verosímiles pero que no tienen sentido, y las oculta en una obra, por ejemplo como texto blanco sobre fondo blanco o en un campo que se muestra con ancho cero en una página web. Si un LLM se muestra más «sorprendido» -una medida conocida como su perplejidad- por una frase de control no utilizada que por la oculta en el texto, «eso es una prueba estadística de que las trampas se vieron antes», afirma.


Cuestiones de derechos de autor


Aunque fuera posible demostrar que un LLM ha sido entrenado con un texto determinado, no está claro qué ocurre después. Los editores sostienen que, si los desarrolladores utilizan textos protegidos por derechos de autor en la formación y no han solicitado una licencia, eso se considera una infracción. Pero un argumento jurídico contrario afirma que los LLM no copian nada: recogen el contenido informativo de los datos de entrenamiento, que se fragmentan, y utilizan su aprendizaje para generar un nuevo texto. 


Los litigios podrían ayudar a resolver esta cuestión. En un caso de derechos de autor en curso en Estados Unidos que podría sentar precedente, The New York Times ha demandado a Microsoft y a OpenAI, desarrollador de ChatGPT, en San Francisco (California). El periódico acusa a las empresas de utilizar sus contenidos periodísticos para entrenar sus modelos sin permiso.


Muchos académicos están encantados de que su trabajo se incluya en los datos de entrenamiento de LLM, sobre todo si los modelos los hacen más precisos. «A mí personalmente no me importa tener un chatbot que escriba como yo», dice Baack. Pero reconoce que su trabajo no se ve amenazado por los resultados de los LLM del mismo modo que los de otras profesiones, como artistas y escritores. 


En la actualidad, los autores científicos individuales tienen poco poder si el editor de su artículo decide vender el acceso a sus obras protegidas por derechos de autor. En el caso de los artículos a disposición del público, no existe ningún medio establecido para atribuir los créditos o saber si se ha utilizado un texto.


Algunos investigadores, como de Montjoye, se sienten frustrados. «Queremos LLM, pero queremos algo que sea justo, y creo que aún no hemos inventado qué aspecto tiene esto», afirma.



*********************************

  • NEWS

  • 14 August 2024

Has your paper been used to train an AI model? Almost certainly

Artificial-intelligence developers are buying access to valuable data sets that contain research papers — raising uncomfortable questions about copyright.


Academic publishers are selling access to research papers to technology firms to train artificial-intelligence (AI) models. Some researchers have reacted with dismay at such deals happening without the consultation of authors. The trend is raising questions about the use of published and sometimes copyrighted work to train the exploding number of AI chatbots in development.

Experts say that, if a research paper hasn’t yet been used to train a large language model (LLM), it probably will be soon. Researchers are exploring technical ways for authors to spot if their content being used.

Last month, it emerged that the UK academic publisher Taylor & Francis, had signed a US$10-million deal with Microsoft, allowing the US technology company to access the publisher’s data to improve its AI systems. And in June, an investor update showed that US publisher Wiley had earned $23 million from allowing an unnamed company to train generative-AI models on its content.  

Anything that is available to read online — whether in an open-access repository or not — is “pretty likely” to have been fed into an LLM already, says Lucy Lu Wang, an AI researcher at the University of Washington in Seattle. “And if a paper has already been used as training data in a model, there’s no way to remove that paper after the model has been trained,” she adds.

Massive data sets

LLMs train on huge volumes of data, frequently scraped from the Internet. They derive patterns between the often billions of snippets of language in the training data, known as tokens, that allow them to generate text with uncanny fluency.

Generative-AI models rely on absorbing patterns from these swathes of data to output text, images or computer code. Academic papers are valuable for LLM builders owing to their length and “high information density”, says Stefan Baack, who analyses AI training data sets at the Mozilla Foundation, a global non-profit organization in San Francisco, California that aims to keep the Internet open for all to access.

Training models on a large body of scientific information also give them a much better ability to reason about scientific topics, says Wang, who co-created S2ORC, a data set based on 81.1 million academic papers. The data set was originally developed for text mining — applying analytical techniques to find patterns in data — but has since been used to train LLMs.  

The trend of buying high-quality data sets is growing. This year, the Financial Times has offered its content to ChatGPT developer OpenAI in a lucrative deal, as has the online forum Reddit, to Google. And given that scientific publishers probably view the alternative as their work being scraped without an agreement, “I think there will be more of these deals to come,” says Wang.

Information secrets

Some AI developers, such as the Large-scale Artificial Intelligence Network, intentionally keep their data sets open, but many firms developing generative-AI models have kept much of their training data secret, says Baack. “We have no idea what is in there,” he says. Open-source repositories such as arXiv and the scholarly database PubMed of abstracts are thought to be “very popular” sources, he says, although paywalled journal articles probably have their free-to-read abstracts scraped by big technology firms. “They are always on the hunt for that kind of stuff,” he adds.  

Proving that an LLM has used any individual paper is difficult, says Yves-Alexandre de Montjoye, a computer scientist at Imperial College London. One way is to prompt the model with an unusual sentence from a text and see whether the output matches the next words in the original. If it does, that is good evidence that the paper is in the training set. But if it doesn’t, that doesn’t mean that the paper wasn’t used — not least because developers can code the LLM to filter responses to ensure they don’t match training data too closely. “It takes a lot for this to work,” he says.

Another method to check whether data are in a training set is known as membership inference attack. This relies on the idea that a model will be more confident about its output when it is seeing something that it has seen before. De Montjoye’s team has developed a version of this, called a copyright trap, for LLMs.  

To set the trap, the team generates sentences that look plausible but are nonsense, and hides them in a body of work, for example as white text on a white background or in a field that’s displayed as zero width on a webpage. If an LLM is more ‘surprised’ — a measure known as its perplexity — by an unused control sentence than it is by the one hidden in the text, “that is statistical evidence that the traps were seen before”, he says.

Copyright questions

Even if it were possible to prove that an LLM has been trained on a certain text, it is not clear what happens next. Publishers maintain that, if developers use copyrighted text in training and have not sought a licence, that counts as infringement. But a counter legal argument says that LLMs do not copy anything — they harvest information content from training data, which gets broken up, and use their learning to generate new text.   

Litigation might help to resolve this. In an ongoing US copyright case that could be precedent-setting, The New York Times is suing Microsoft and ChatGPT’s developer OpenAI in San Francisco, California. The newspaper accuses the firms of using its journalistic content to train their models without permission.

Many academics are happy to have their work included in LLM training data — especially if the models make them more accurate. “I personally don’t mind if I have a chatbot who writes in the style of me,” says Baack. But he acknowledges that his job is not threatened by LLM outputs in the way that those of other professions, such as artists and writers, are. 

Individual scientific authors currently have little power if the publisher of their paper decides to sell access to their copyrighted works. For publicly available articles, there is no established means to apportion credit or know whether a text has been used.

Some researchers, including de Montjoye, are frustrated. “We want LLMs, but we still want something that is fair, and I think we’ve not invented what this looks like yet,” he says.

doi: https://doi.org/10.1038/d41586-024-02599-9

******************************


jueves, 25 de julio de 2024

Algunos investigadores ‘sorprendidos’ de que Taylor & Francis haya vendido el acceso a sus investigaciones a Microsoft AI

Publicado en blog Universo Abierto
https://universoabierto.org/2024/07/23/algunos-investigadores-sorprendidos-de-que-taylor-francis-vende-el-acceso-a-sus-investigaciones-a-microsoft-ai/



Algunos investigadores ‘sorprendidos’ de que Taylor & Francis haya vendido el acceso a sus investigaciones a Microsoft AI

Battersby, Matilda. «Academic Authors “shocked” after Taylor & Francis Sells Access to Their Research to Microsoft AI». The Bookseller. Accedido 23 de julio de 2024. https://www.thebookseller.com/news/academic-authors-shocked-after-taylor–francis-sells-access-to-their-research-to-microsoft-ai.

Autores académicos han expresado su sorpresa al enterarse de que la editorial Taylor & Francis, propietaria de Routledge, vendió acceso a las investigaciones de sus autores como parte de una colaboración con Microsoft en inteligencia artificial (IA), en un acuerdo valorado en casi 8 millones de libras (10 millones de $) en su primer año. La sociedad de autores ha mostrado preocupación por esta situación y destacó la falta de consulta con los autores antes de firmar el acuerdo.

La Dra. Ruth Alison Clemens, una académica publicada por Taylor & Francis y Routledge, dijo que los autores no fueron informados sobre el acuerdo de IA y no tuvieron la oportunidad de optar por no participar. Clemens se enteró del trato por casualidad y expresó su sorpresa por la falta de comunicación al respecto.

Un portavoz de Taylor & Francis confirmó el acuerdo, indicando que proporciona a Microsoft acceso no exclusivo a contenido avanzado y datos para mejorar los sistemas de IA. El acuerdo, detallado por Informa, la empresa matriz de Taylor & Francis, en una actualización comercial en mayo, estipula un pago inicial de $10 millones por acceso a los datos, con pagos recurrentes no especificados en los tres años siguientes.

Taylor & Francis afirmó que protege la integridad del trabajo de los autores y los derechos de recibir pagos de regalías conforme a los contratos de autor. Sin embargo, no quedó claro si existe una política de exclusión para los autores en este acuerdo.

La comunidad académica ha mostrado una fuerte preocupación, destacando la necesidad de considerar cuestiones de derechos de autor, derechos morales y protección de datos. The Society of Authors (SoA) instó a los autores que descubran que su trabajo ha sido utilizado sin su consentimiento a contactarlos para recibir orientación.

Barbara Hayes, directora ejecutiva de ALCS, enfatizó la importancia de representar plenamente los intereses y derechos de los autores en estas negociaciones, una etapa que a menudo falta en los acuerdos actuales.

A principios de esta semana, el Copyright Clearance Centre anunció la disponibilidad de los derechos de reutilización de la IA dentro de su  Annual Copyright License (ACL), que, según afirma, es «la primera solución colectiva de concesión de licencias para el uso interno de materiales protegidos por derechos de autor en sistemas de IA». La licencia proporcionará a los titulares derechos y remuneración por los nuevos usos de sus contenidos.

"¡Quemadlo con fuego!" - El uso de ChatGPT «polariza» a los revisores

Publicado en THE Times Higher Education https://www.timeshighereducation.com/news/corrupting-chatgpt-use-polarises-peer-reviewers   Quemadlo...