Boletín SciELO-México: ChatGPT

Mostrando entradas con la etiqueta ChatGPT. Mostrar todas las entradas

viernes, 14 de marzo de 2025

Todas las grandes IA han ignorado las leyes del copyright. Lo alucinante es que sigue sin haber consecuencias

Publicado en Xataka
https://www.xataka.com/legislacion-y-derechos/todas-grandes-ia-han-ignorado-leyes-copyright-alucinante-que-sigue-haber-consecuencias

Todas las grandes IA han ignorado las leyes del copyright. Lo alucinante es que sigue sin haber consecuencias

La reciente demanda de grupos editoriales franceses a Meta es otro ejemplo más de la lucha contra la violación de los derechos de autor al entrenar modelos de IA

Javier Pastor

Las editoriales francesas están hartas y acaban de demandar a Meta
por violación del copyright. No son las primeras ni serán las últimas,
pero el problema no es ese: el problema es que las empresas de IA
han usado contenidos con derechos de autor para entrenar sus
modelos, y es como si no pasara nada.

Todo sigue igual. Han pasado más dos años desde que
Getty denunciara a Stable Diffusion, a la que acusaba de robar sus
fotos para entrenar su modelo de IA de generación de imágenes.
Aquella fue la primera de una gran lista de demandas por
exactamente lo mismo, pero a pesar del tiempo que ha transcurrido,
no ha habido novedades al respecto. Es como si lo que hizo
Stable Diffusion —como las demás— acabara en un segundo
plano para los tribunales de justicia.

¿Copyqué? La sospecha sobre este tipo de comportamientos ha sido
constante, y lo era ya antes de que se lanzase ChatGPT en
noviembre de 2022. Meses antes, en junio, DALL-E fue acusada
de basarse en imágenes con derechos de autor de creadores
que no recibían nada a cambio. Microsoft, OpenAI y GitHub
también fueron demandados unas semanas antes del lanzamiento de ChatGPT, pero esta vez porque GitHub Copilot había sido entrenado
sin permiso con código de diversos desarrolladores que
no habían dado su permiso. Un juez de California
desestimó prácticamente todas las reclamaciones de los demandantes en julio de 2024.

Pocas sentencias castigan a las empresas de IA. Por ahora
las sentencias que se han producido, como la mencionada,
dan la victoria aparente a las empresas de IA. Ocurrió
por ejemplo con una demanda contra OpenAI,
que la empresa logró ganar. Eso sí, dicha victoria puede salirle cara
en su otra gran demanda pendiente con The New York Times,
que puede alegar que sufrió un perjuicio demostrable.

¿Uso justo? El juicio del caso de The New York Times contra OpenAI
se inició en enero de 2025 y es sin duda uno de los más importantes
en este ámbito. La empresa liderada por Sam Altman
—que ha usado todos los datos que ha podido— se escuda
en que ellos hacen un "uso justo" de los contenidos para
poder entrenar sus modelos. Lo curioso es que por un lado
dicen eso, y por el otro han ido llegando a acuerdos millonarios con plataformas como Reddit y medios o editoriales como El País
precisamente para licenciar sus contenidos y evitar nuevas demandas.

Lo de Meta es otro nivel. Los extremos a los que están llegando
las empresas para tener datos de calidad con los que entrenar
sus modelos de IA son extraordinarios. Perplexity se saltó las barreras
de internet, pero lo de Meta fue aún más llamativo: hace poco
supimos que habían utilizado más de 80 TB de libros descargados vía BitTorrent para entrenar su modelo. Muchos de ellos con derechos
de autor, algo que ha provocado muchas críticas y la
reciente demanda de algunos grupos editoriales franceses.

No parece haber castigo. Pero como decimos, ese robo histórico de
propiedad intelectual parece estar ya asumido: no hay sentencias
que hayan castigado esas violaciones del copyright de momento,
y es como si colectivamente se hubieran ignorado esas violaciones
porque la IA ofrece ventajas interesantes. Pero nos estamos
olvidando de cómo las han obtenido... o eso parece.

En Xataka | 5.000 "tokens" de mi blog están siendo usados
para entrenar una IA. No he dado mi permiso

jueves, 14 de noviembre de 2024

ChatGPT vs Derechos de autor: ¿Cómo va el marcador NYT vs OpenAI?

Publicado en Xataka
https://www.xataka.com/robotica-e-ia/openai-gana-primera-batalla-copyright-chatgpt-no-guerra-acaba-darle-enorme-ventaja-al-new-york-times

OpenAI gana la primera batalla del copyright con ChatGPT, pero no la guerra. Y acaba de darle una enorme ventaja al New York Times

- Las demandas por violación de derechos de autor se acumulan en OpenAI

- De momento han logrado salir indemnes de uno de esos casos, pero organizaciones como The New York Times están al acecho
- El uso de esos contenidos sin licenciar puede acabar metiendo a
empresas como OpenAI o Google en un problema muy importante

13 Noviembre 2024

Javier Pastor

¿Puede aprovecharse la IA de los contenidos que están públicamente
disponibles en internet? ¿Y si esos contenidos están protegidos por los
derechos de autor? La respuesta a la primera pregunta es clara: lo está
haciendo. La cosa es más delicada para la segunda, pero todo apunta
a que las empresas de IA están usando también contenidos con
copyright para entrenar sus modelos. Ahora queda saber si eso tendrá
consecuencias.

Periódicos que acusan a ChatGPT de robarles contenidos.
Raw Story y Alternet son dos publicaciones online que como indican en
Reuters demandaron a OpenAI el pasado mes de febrero.
Según la demanda, la empresa usó miles de sus artículos
sin permiso para entrenar su popular chatbot, ChatGPT.
No solo eso: acusan a OpenAI de reproducir sus contenidos
con copyright cuando se le pedían dichos contenidos a su modelo de IA.

OpenAI gana una batalla. De momento OpenAI puede respirar
tranquila. En Estados Unidos, una jueza federal de Nueva York,
Colleen McMahon, ha indicado en su sentencia que estos medios
de noticias no se han visto perjudicados lo suficiente para apoyar
su demanda. No obstante, les dio la oportunidad de apelar pero
dejó claro que era "escéptica" con respecto a las posibilidades de que
dichos medios pudieran "alegar un perjuicio demostrable".

Pero no la guerra. El caso es el último de una ristra de demandas por
violación de copyright que sobre todo organismos y entidades de la
industria editorial, literaria, musical o artística están registrando contra
las empresas de inteligencia artificial.

Demandas por doquier. En los últimos meses hemos visto demandas
como la de Getty a Stable Diffusion, la que afecta a GitHub Copilot y
otras amenazas legales como las de la The Author's Guild. David Holz,
fundador de Midjourney, admitía que al entrenar su modelo
"No hay realmente una forma de coger cien millones de imágenes
y saber de dónde provienen. Estaría bien que las imágenes tuvieran metadatos incrustados sobre el propietario del copyright o algo así.
Pero eso no existe; no hay ningún registro".

The New York Times está al acecho. Esas dos publicaciones se unen
a demandas anteriores de medios y grupos editoriales especialmente
poderosos. En febrero de 2023 The Wall Street Journal y CNN
ya mostraron su preocupación respecto al uso de sus contenidos
en modelos de IA.

Aún más sonada fue la demanda de The New York Times, que acusó a Microsoft y OpenAI de violación de copyright por este mismo tipo
de actividad. Según dicha demanda, millones de artículos
publicados por NYT fueron usado para entrenar modelos de IA.

En abril de 2024 otros ocho diarios demandaron a esas mismas
empresas por exactamente los mismos motivos.

Transparencia cero. El secretismo relativo a los conjuntos de datos
usados para el entrenamiento es total tanto en OpenAI como en sus
competidoras. No dan apenas detalles sobre esos contenidos pero
en los últimos tiempos sí han hecho declaraciones que dejan claro
que aprovechan todo lo que pueden.

Pero es que necesitan ese material, argumentan en OpenAI
Google explicó que puede "recoger información públicamente disponible
online" para el entrenamiento de sus modelos de IA, Meta lleva tiempo usando todo lo que sus usuarios publican en Facebook e Instagram, y
OpenAI llegó a decir ante el Parlamento británico que "sería imposible
entrenar los principales modelos de IA de hoy en día sin usar materiales
con copyright".

Si quieres usar mis contenidos, págame. Las empresas de IA están

empezando a darse cuenta del enorme riesgo al que se están
exponiendo, y algunas comienzan a cubrirse las espaldas con un
método sencillo: acuerdos económicos. Google licenció contenidos
de Reddit, y OpenAI ha llegado también a algunos acuerdos
económicos con grupos editoriales como Prisa (El País) y Le Monde.

Perplexity y ChatGPT Search tienen un problema mayor.

Los últimos casos de esta peligrosa situación los estamos viendo en los
buscadores con IA. Perplexity y ChatGPT Search son capaces
de navegar por internet, coger un puñado de fuentes y contestar a
nuestras preguntas resumiendo la información procedente de esas
fuentes. Eso está muy bien para el usuario, que logra la respuesta a lo
que quiere de forma clara, pero estos "motores de búsqueda" hacen así
innecesario que la mayoría de las veces el usuario haga clic en el
enlace original. Los creadores de contenido, por tanto, pierden tráfico
que ganan esos modelos de IA, lo que agrava aún más la situación.

En Xataka | Las empresas de IA están jugando con fuego con
los contenidos con derechos de autor. Y Perplexity está a punto
de quemarse

jueves, 17 de octubre de 2024

¿Se deben citar los Chabots? y si sí ¿Cómo?! (Parte 1)

Publicado en The Scholarly Kitchen
https://scholarlykitchen.sspnet.org/2024/06/19/chatbots-to-cite-or-not-to-cite-part-1/?informz=1&nbd=567d61ec-36ea-4197-85eb-43e2bd36d175&nbd_source=informz

Guest Post - Chatbots: ¿Citar o no citar? (Parte I)

Por LETICIA ANTUNES NOGUEIRA, JAN OVE REIN

19 DE JUNIO DE 2024

Nota del editor: Esta es la primera parte de un debate en dos partes sobre la citación de chatbots escrito por Leticia Antunes Nogueira y Jan Ove Rein, ambos de la Universidad Noruega de Ciencia y Tecnología (NTNU). Leticia es jefa de proyecto de inteligencia artificial en la biblioteca de la universidad. Jan Ove es bibliotecario superior de investigación y especialista en medicina, y presta apoyo docente, de asesoramiento y de investigación al personal y los estudiantes de la Facultad de Medicina y Ciencias de la Salud.

Con la rápida proliferación de herramientas de IA en la investigación y la enseñanza superior, uno de los temas de debate es cómo tratar los resultados de los chatbots basados en grandes modelos lingüísticos (LLM). En lo que respecta a la cuestión de la IA generativa y la autoría, las revistas académicas y las editoriales se han apresurado a publicar políticas y a posicionarse en gran medida en contra de la práctica de tratar a los chatbots como (co)autores, ya que las máquinas no pueden responsabilizarse del texto que producen (véase, por ejemplo, Nature y Science). No obstante, la cuestión de la citación sigue siendo bastante vaga.

Si utilizas un chatbot para escribir un texto y no te animas a incluirlo como coautor, ¿deberías atribuir los pasajes relevantes a la herramienta citándola? ¿Es apropiado citar chatbots como fuentes de información?

Puede ser difícil cuantificar hasta qué punto los académicos han adoptado la práctica de citar chatbots. Un ejemplo de Retraction Watch ilustra un artículo que ha sido retractado después de que los editores se enteraran de que los autores habían utilizado ChatGPT para actualizar las referencias, lo que dio lugar a citas incorrectas y fabricadas. Hemos buscado ChatGPT y OpenAI en las referencias citadas de Web of Science para tratar de identificar dónde podrían aparecer los chatbots. El problema es que, entre los cientos de resultados, puede resultar difícil separar cuáles podrían ser referencias legítimas (como cuando se cita un informe o documentación publicados por OpenAI) de otras más cuestionables (como cuando los autores han utilizado un chatbot como fuente de información). Lo que observamos a partir de nuestras interacciones con otros bibliotecarios, investigadores y estudiantes es que no parece haber un consenso en torno a la citación de chatbot, pero hay una fuerte demanda de una orientación más clara.

La cuestión de si los chatbots deben citarse parece estar relacionada con la de si las herramientas de IA deben considerarse fuentes de información. Para ser claros, nos centramos en aplicaciones que ponen a disposición del público modelos fundacionales, como ChatGPT de OpenAI o Claude de Anthropic. Asumimos que los usuarios que trabajan con herramientas que aplican las capacidades de GenAI combinadas con otras fuentes -como Perplexity, Scopus AI y otras- harían referencia a las fuentes originales.

En este post (parte I), exploramos brevemente lo que dicen las políticas de los editores sobre la IA generativa y las razones por las que citamos otras obras en general. En la segunda parte, defenderemos la idea de tratar los chatbots como herramientas y no como fuentes, es decir, de divulgar cómo se utilizan sin citarlos.

Políticas de las editoriales sobre IA generativa

Hemos consultado las políticas sobre IA de diecisiete editoriales y organizaciones académicas relevantes: AAAS (American Association for the Advancement of Science); APA Publishing; British Medical Journal; Cambridge University Press; COPE (Committee on Publication Ethics); Elsevier; Frontiers; IEEE (Institute of Electrical and Electronics Engineers); International Committee of Medical Journal Editors: IOP Publishing; MDPI; Oxford University Press; PLOS; Sage; Springer Nature; Taylor & Francis; y Wiley. Las políticas se consultaron el 21 de marzo de 2024, y de nuevo el 22 de mayo de 2024.

En general, hay consenso en que los chatbots no cumplen los requisitos mínimos de autoría, y que el uso de herramientas con capacidades de IA generativa debe declararse y detallarse. Sin embargo, la cuestión de si pueden (o deben) citarse como fuentes no es explícita en muchos casos. Las razones aducidas para rechazar a los chatbots como autores también pueden ser motivo para rechazarlos como fuentes, pero es necesario establecer una conexión clara.

Las razones aducidas para rechazar a los chatbots como autores también pueden ser motivo para rechazarlos como fuentes, pero hay que establecer una conexión clara.

Contribuye a la confusión el hecho de que la American Psychological Association (APA) -cuyo estilo se utiliza mucho más allá de la disciplina de la psicología- haya publicado directrices concretas sobre cómo citar a los chatbots como herramientas. Esto podría confundirse con citarlos como fuentes. Además, las influyentes recomendaciones del Comité Internacional de Editores de Revistas Médicas (ICMJE) y Elsevier desaconsejan claramente citar a los chatbots. A continuación se muestra un extracto de APA Style Blog - la última edición del Manual de Publicación de la APA no abarca una directriz clara para AI o Chatbots. Las políticas de publicación de la APA apuntan a APA Style Blog, que es nuestra fuente para esta cita y para la orientación de la APA en la materia. La recomendación de la APA se ilustra en la cita siguiente:

«Si ha utilizado ChatGPT u otras herramientas de IA en su investigación, describa cómo utilizó la herramienta en su sección de Método o en una sección comparable de su trabajo. (...) Desgraciadamente, los resultados de un «chat» ChatGPT no son recuperables por otros lectores, y aunque los datos o citas no recuperables en los documentos de estilo APA suelen citarse como comunicaciones personales, con el texto generado por ChatGPT no hay ninguna persona comunicándose. Por lo tanto, citar el texto de ChatGPT de una sesión de chat es más como compartir el resultado de un algoritmo; por lo tanto, acredite al autor del algoritmo con una entrada en la lista de referencias y la correspondiente cita en el texto. (...) Las citas dentro del texto y las referencias anteriores se han adaptado de la plantilla de referencia para software de la Sección 10.10 del Manual de Publicaciones» (APA Style Blog, 2023, nuestro Énfasis).

APA Style Blog da algunos ejemplos sobre cómo citar de ChatGPT, todos los cuales incluyen informar en el texto en curso no sólo de la respuesta del chatbot, sino también de las instrucciones que la provocaron, además de recomendar la documentación de la transcripción completa del intercambio en un apéndice. Queda claro en el blog de estilo de la APA que, aunque ofrecen directrices para citar chatbots, no se posicionan aceptándolos como fuentes de información. No obstante, contrasta las directrices de la APA con los siguientes extractos del ICMJE y Elsevier:

«En el momento de la presentación, la revista debe exigir a los autores que revelen si han utilizado tecnologías asistidas por inteligencia artificial (IA) (como Large Language Models [LLM], chatbots o creadores de imágenes) en la producción del trabajo presentado. Los autores que utilicen dicha tecnología deberán describir, tanto en la carta de presentación como en el trabajo presentado, cómo la han empleado. (...) Los autores deben revisar y editar cuidadosamente el resultado, ya que la IA puede generar resultados que parezcan fidedignos, pero que pueden ser incorrectos, incompletos o tendenciosos. Los autores no deben mencionar la IA ni las tecnologías asistidas por IA como autor o coautor, ni citar a la IA como autor. Los autores deben poder afirmar que no hay plagio en su artículo, incluidos el texto y las imágenes producidos por la IA. Los humanos deben asegurarse de que hay una atribución apropiada de todo el material citado, incluyendo citas completas» (ICMJE, 2023, p.3, nuestro énfasis).

***

«Los autores no deben enumerar la IA y las tecnologías asistidas por IA como autor o coautor, ni citar a la IA como autor. La autoría implica responsabilidades y tareas que sólo pueden ser atribuidas y realizadas por humanos» (Elsevier, 2023, nuestro énfasis).

Tanto el ICMJE como Elsevier adoptan una postura más clara al respecto. Al igual que la APA, recomiendan a los autores que declaren el uso que hacen de la IA. Pero al ordenar a los académicos que no citen a la IA como autor, excluyen el uso de chatbots como fuentes de información.

Por qué citamos otras obras

La práctica de citar obras es una norma sociocultural, no el resultado de una ley. Las leyes que regulan la ética de la investigación -que también implican mala conducta académica y plagio- surgieron en la posguerra, mientras que la citación es una práctica mucho más antigua. Así pues, los marcos de ética de la investigación han explicitado e institucionalizado formalmente actitudes y prácticas que ya estaban muy extendidas. El problema de las normas sociales, a diferencia de las leyes y reglas estrictas, es que su cumplimiento o incumplimiento depende en gran medida de la situación. Lo mismo ocurre a la hora de decidir cuándo es necesaria una cita, aunque la sabiduría aceptada diría que, en caso de duda, lo más probable es que se necesite una referencia.

Aunque cada estilo académico tiene sus propias especificidades, todos ellos se basan en premisas subyacentes comunes sobre qué tipo de afirmaciones requieren una referencia y cuáles no. Estas premisas pueden ser difíciles de plasmar en reglas inequívocas válidas para todos los casos (el mismo tipo de reglas que las máquinas pueden hacer operativas), pero las capacidades humanas con conocimiento tácito han sido capaces de captarlas con orientación y experiencia.

Las razones por las que citamos otros trabajos son numerosas. Citamos para revelar cuáles son nuestras fuentes y mostrar el apoyo o las pruebas de una afirmación. Citamos para situar nuestro trabajo en el panorama del conocimiento, señalar cuál es nuestra posición en un debate e informar al lector de dónde puede encontrar más información. Citamos para reconocer a aquellos en quienes se basan nuestras ideas y darles el debido crédito. En la práctica, estas razones han ido de la mano, aunque son conceptualmente distintas.

El rápido desarrollo de las capacidades de la IA generativa (especialmente en lo que respecta a los chatbots) nos obliga a considerar de nuevo la citación. Es decir, a la hora de considerar si citar o no a partir de chatbots, nos enfrentamos a una división entre: (i) razones que tienen que ver con el reconocimiento de ideas que no son propias y la atribución de créditos, y (ii) razones que tienen que ver con la divulgación de las fuentes de información.

Las cuestiones relativas a los chatbots y las prácticas de citación nos obligan a lidiar con la pregunta de qué son realmente estas innovaciones de IA. ¿Son fuentes o son herramientas?

¿Los chatbots son fuentes o herramientas?

Si crees que los autores deben añadir una referencia a las frases tomadas de un chatbot depende de cómo veas los chatbots y qué razones para citar tienen más peso en tu opinión. Por un lado, los que piensan que es necesario citar suelen preocuparse por la atribución del crédito y el origen. Al fin y al cabo, si utilizas un texto que no has escrito tú, hay que reconocer la fuente; de lo contrario, estarías incurriendo en plagio. Esto es coherente con la idea de que los chatbots pueden ser aceptados como fuentes. Para mucha gente, la reacción instintiva es que, al igual que se citan textos e ideas que no son suyos, también se debe citar a los chatbots si es de ahí de donde se han obtenido el texto y las ideas.

Por otro lado, los que piensan que una cita no sólo es innecesaria, sino que también debería evitarse, están preocupados por el hecho de que los LLM generan resultados que son predominantemente imposibles de rastrear y, por lo tanto, no dan al lector la posibilidad de cotejar completamente la afirmación con la fuente. Después de todo, ¿cómo puede algo ser una fuente si no puede rastrearse y comprobarse dos veces? Esto es coherente con la opinión de que los chatbots son meras herramientas que aplicamos en el trabajo intelectual. Es decir, al igual que no se hace referencia a la multitud de otras herramientas que se pueden utilizar en la investigación (salvo quizás contextualmente en la sección de métodos), tampoco se cita a un chatbot.

Como ejemplifican estas observaciones, la aparición de los chatbots pone en tela de juicio los supuestos que hasta ahora dábamos por sentados sobre las fuentes, la información y el conocimiento. Las competencias en materia de crítica de fuentes y pensamiento crítico siempre han sido cruciales.

Sin embargo, el reto de garantizar la integridad de nuestro ecosistema de información ha crecido significativamente en la era de la IA. Dado que la coherencia y el significado están en los ojos del espectador, las cadenas de palabras en orden gramatical resultantes de cálculos probabilísticos no constituyen ni fuentes, ni información, ni conocimiento. Más bien, el texto generado por los chatbots constituye texto sintético y aporta la idea de no información.

Teniendo en cuenta las posturas de los editores sobre la IA y la autoría, así como las razones por las que citamos otros trabajos y las diferentes perspectivas sobre los chatbots como herramientas frente a fuentes, en la parte II, exponemos los argumentos para no citar chatbots como fuentes de información.

AGRADECIMIENTOS

Nos gustaría dar las gracias a Ann Michael, Avi Staiman y Tadeu Fernando Nogueira por sus comentarios sobre versiones anteriores de esta serie de dos partes y a Sindre Andre Pedersen por sus interesantes debates sobre este tema. También agradecemos a Inger Hesjevoll Schmidt-Melbye y Alexander Lyngsnes su ayuda con la interpretación etimológica (parte I), y a Katrine Aronsen sus consejos sobre la búsqueda de artículos que emplean chatbots como fuentes de información.

Leticia Antunes Nogueira

Leticia Antunes Nogueira es jefa de proyecto de inteligencia artificial en la biblioteca universitaria de la Universidad Noruega de Ciencia y Tecnología (NTNU).

Jan Ove Rein

Jan Ove Rein es bibliotecario superior de investigación en la Universidad Noruega de Ciencia y Tecnología (NTNU), y actúa como especialista en medicina, proporcionando apoyo docente, de asesoramiento y de investigación al personal y a los estudiantes de la Facultad de Medicina y Ciencias de la Salud.

*********************************************************

Guest Post — Chatbots: To Cite Or Not To Cite? (Part I)

By LETICIA ANTUNES NOGUEIRA, JAN OVE REIN
JUN 19, 2024

Editor’s Note: This is the first part of a two-part discussion on chatbot citation authored by Leticia Antunes Nogueira and Jan Ove Rein, both from the Norwegian University of Science and Technology (NTNU). Leticia is project leader for artificial intelligence at the university library. Jan Ove is Senior Research Librarian and acts as a subject specialist for medicine, providing teaching, counseling and research support for staff and students at The Faculty of Medicine and Health Science.

With the rapid proliferation of AI-tools in research and higher education, how we treat outputs from chatbots powered by large language models (LLMs) is one area of contention. When it comes to the question of generative AI and authorship, academic journals and publishers have been quick to release policies and position themselves largely against the practice of treating chatbots as (co)authors, since machines cannot bear responsibility for the text they produce (see for instance Nature and Science). Nonetheless, the question of citation is still quite vague. If you use a chatbot in writing a text, and are discouraged from listing it as a coauthor, should you attribute the relevant passages to the tool via citation instead? Is it appropriate to cite chatbots as information sources?

If you use a chatbot in writing a text, and are discouraged from listing it as a coauthor, should you attribute the relevant passages to the tool via citation instead? Is it appropriate to cite chatbots as information sources?

It can be difficult to quantify the extent to which scholars have taken up the practice of citing chatbots. One example from Retraction Watch illustrates an article that has been retracted after the editors learned that the authors had used ChatGPT to update references, which led to incorrect and manufactured citations. We have searched for ChatGPT and OpenAI in Web of Science’s Cited References to try and identify where chatbots might show up. The trouble is that, among the hundreds of results, it can be difficult to sort which might be legitimate references (such as when citing a report or documentation issued by OpenAI) from more questionable ones (such as when authors have used a chatbot as information sources). What we observe from our interactions with other librarians, researchers and students is that there does not seem to be a consensus surrounding chatbot citation, but there is a strong demand for more clear guidance. The question of whether chatbots should be cited appears to be related to whether AI tools should be seen as information sources. To be clear, we are focused on applications that make foundational models available to the public, such as OpenAI’s ChatGPT or Anthropic’s Claude. We assume that users working with tools that apply GenAI capabilities combined with other sources — such as Perplexity, Scopus AI, and others — would reference the original sources.

In this post (part I), we briefly explore what publishers’ policies say about generative AI and the reasons why we cite other works in general. In part II, we make the case for treating chatbots as tools rather than sources — in other words, for disclosing how they are used without citing them.

Publishers’ policies on generative AI

We consulted the AI policies for seventeen publishers and relevant academic organizations — AAAS (American Association for the Advancement of Science); APA Publishing; British Medical Journal; Cambridge University Press; COPE (Committee on Publication Ethics); Elsevier; Frontiers; IEEE (Institute of Electrical and Electronics Engineers); International Committee of Medical Journal Editors: IOP Publishing; MDPI; Oxford University Press; PLOS; Sage; Springer Nature; Taylor & Francis; and Wiley. Policies were consulted on 21st March 2024, and once again on 22nd May 2024.

In general, there is consensus that chatbots do not meet the minimum requirements for authorship, and that the use of tools with generative AI capabilities should be declared and detailed. However, the question of whether they can (or should) be cited as sources is not explicit in many cases. The reasons given for rejecting chatbots as authors can also be grounds to reject them as sources, but a clear connection needs to be made.

The reasons given for rejecting chatbots as authors can also be grounds to reject them as sources, but a clear connection needs to be made.

Contributing to the confusion is the fact that the American Psychological Association (APA) — whose style is used far beyond the discipline of psychology — has issued concrete guidelines for how to cite chatbots as tools. This could be confused with citing them as sources. Additionally, the influential recommendations from the International Committee of Medical Journal Editors (ICMJE), and Elsevier clearly advise against citing chatbots. Below is an excerpt from APA Style Blog — the latest edition of the APA’s Publication Manual does not encompass a clear guideline for AI or Chatbots. APA’s publishing policies point to APA Style Blog, which is our source for this quote and for APA’s guidance on the matter. The recommendation given by APA is illustrated by the quote below:

“If you’ve used ChatGPT or other AI tools in your research, describe how you used the tool in your Method section or in a comparable section of your paper. (…) Unfortunately, the results of a ChatGPT ‘chat’ are not retrievable by other readers, and although non-retrievable data or quotations in APA Style papers are usually cited as personal communications, with ChatGPT-generated text there is no person communicating. Quoting ChatGPT’s text from a chat session is therefore more like sharing an algorithm’s output; thus, credit the author of the algorithm with a reference list entry and the corresponding in-text citation. (…) The in-text citations and references above are adapted from the reference template for software in Section 10.10 of the Publication Manual” (APA Style Blog, 2023, our Emphasis).

APA Style Blog gives a few examples on how to cite from ChatGPT, all of which include informing in the running text not only the response from the chatbot, but also the instructions that prompted it, in addition to their recommending the documentation of the full transcript of the exchange in an appendix. It is clear from the APA Style Blog that although they offer guidelines for citing chatbots, they do not take a stand accepting them as information sources. Nonetheless, contrast APA’s guidelines with the following excerpts from ICMJE and Elsevier:

“At submission, the journal should require authors to disclose whether they used artificial intelligence (AI) assisted technologies (such as Large Language Models [LLMs], chatbots, or image creators) in the production of submitted work. Authors who use such technology should describe, in both the cover letter and the submitted work, how they used it. (…) Authors should carefully review and edit the result because AI can generate authoritative-sounding output that can be incorrect, incomplete, or biased. Authors should not list AI and AI assisted technologies as an author or co-author, nor cite AI as an author. Authors should be able to assert that there is no plagiarism in their paper, including in text and images produced by the AI. Humans must ensure there is appropriate attribution of all quoted material, including full citations” (ICMJE, 2023, p.3, our emphasis).

***

“Authors should not list AI and AI-assisted technologies as an author or co-author, nor cite AI as an author. Authorship implies responsibilities and tasks that can only be attributed to and performed by humans” (Elsevier, 2023, our emphasis).

Both the ICMJE and Elsevier take a clearer stance on the matter. Like APA, they recommend authors to declare their use of AI. But by instructing scholars to not cite AI as an author, they preclude the use of chatbots as information sources.

Why we cite other works

The practice of citation is a sociocultural norm; it is not the result of lawmaking. Laws regulating research ethics — which also involve academic misconduct and plagiarism — emerged in the postwar period, while citation is a much older practice. Thus, research ethics frameworks have formally spelled out and institutionalized attitudes and practices that had already been widespread. The issue with social norms, in contrast with hard rules and laws, is that compliance or non-compliance rely to a greater extent on judgment that is situation dependent. The same goes for deciding when a citation is needed, although the accepted wisdom would say that when in doubt, chances are a reference is needed.

The issue with social norms, in contrast with hard rules and laws, is that compliance or non-compliance rely to a greater extent on judgment that is situation dependent.

Although each academic style has its own specificities, all of them build on shared underlying premises concerning which kinds of statements require a reference and which do not. These premises can be difficult to lay out in unambiguous rules valid for all cases (the very kind that machines can operationalize), but humans’ abilities with tacit knowledge have been able to grasp them with guidance and experience.

The reasons why we cite other works are numerous. We cite to disclose what our sources are and to show support/evidence for a claim. We cite to place our work in the landscape of knowledge, signal where we stand in a debate and inform the reader where they can find out more. We cite to acknowledge those upon whom our ideas build, and to give them their due credit. In practice, these reasons have gone hand in hand, even though they are conceptually distinct.

The rapid development of generative AI capabilities (particularly regarding chatbots) forces us to look to citation anew. That is, when considering whether to cite from chatbots, we are confronted with a split between: (i) reasons that have to do with acknowledging ideas that are not one’s own and attributing credit, and (ii) reasons that have to do with disclosing sources of information.

Questions concerning chatbots and citation practices forces us to grapple with the question of what these AI innovations actually are. Are they sources or are they tools?

Are chatbots sources or are they tools?

Whether you think authors should add a reference to sentences taken from a chatbot depends on how you view chatbots and what reasons for citing have more weight in your view. On the one hand, those who think a citation is required are generally concerned with the attribution of credit and origin. After all, if you are using text you have not written yourself, then the source must be acknowledged; otherwise, you would be engaging in plagiarism. This is consistent with the idea that chatbots can be accepted as sources. For many people, the knee jerk reaction is that just as you credit text and ideas that are not yours through citation, you should also cite chatbots if that is where you got your text and ideas from.

On the other hand, those who think a citation is not only unnecessary, but also should be avoided are concerned with the fact that LLMs generate outputs that are predominantly untraceable, and therefore do not give the reader the possibility of fully checking the statement against the source. After all, how can something be a source if it cannot be traced and double-checked? This is consistent with the view that chatbots are merely tools we apply in intellectual work. That is, just as you do not refer to the multitude of other tools you might use in your research (other than perhaps contextually in the methods section), you do not cite a chatbot.

As these observations exemplify, the emergence of chatbots challenges assumptions we have so far taken for granted about sources, information and knowledge. Competences in source criticism and critical thinking have always been crucial. Nonetheless the challenge with securing the integrity of our information ecosystem has grown significantly in the age of AI. Because coherence and meaning are in the eyes of the beholder, strings of words in grammatical order resulting from probabilistic calculations constitute neither sources, nor information or knowledge. Rather, text generated by chatbots constitutes synthetic text and bring about the idea of non-information.

Keeping in mind publishers’ positions on AI and authorship, as well as the reasons why we cite other works and the different perspectives on chatbots as tools vs sources, in part II, we make the case for not citing chatbots as information sources.

ACKNOWLEDGEMENTS

We would like to thank Ann Michael, Avi Staiman and Tadeu Fernando Nogueira for their comments on earlier versions of this two-part series and Sindre Andre Pedersen for interesting discussions on this theme. We are also grateful to Inger Hesjevoll Schmidt-Melbye and Alexander Lyngsnes for their assistance with etymological interpretation (part I), and Katrine Aronsen for her advice on searching for articles that employ chatbots as information sources.

Leticia Antunes Nogueira

Leticia Antunes Nogueira is project leader for artificial intelligence at the university library at the Norwegian University of Science and Technology (NTNU).

Jan Ove Rein

Jan Ove Rein is Senior Research Librarian at the Norwegian University of Science and Technology (NTNU), and acts as a subject specialist for medicine, providing teaching, counseling and research support for staff and students at The Faculty of Medicine and Health Science.

*********************

Boletín SciELO-México

viernes, 14 de marzo de 2025

Todas las grandes IA han ignorado las leyes del copyright. Lo alucinante es que sigue sin haber consecuencias

jueves, 14 de noviembre de 2024

ChatGPT vs Derechos de autor: ¿Cómo va el marcador NYT vs OpenAI?

jueves, 17 de octubre de 2024

¿Se deben citar los Chabots? y si sí ¿Cómo?! (Parte 1)

Los artículos científicos fraudulentos están en auge [ artículo en The Economist ]

Denunciar abuso

Etiquetas