Boletín SciELO-México: ChatGPT no sólo recupera información, también la sintetiza

viernes, 6 de enero de 2023

ChatGPT no sólo recupera información, también la sintetiza

Publicado en blog Universo abierto
https://universoabierto.org/2023/01/03/comparacion-de-resumenes-cientificos-generados-por-chatgpt-con-resumenes-originales-mediante-un-detector-de-resultados-de-inteligencia-artificial-un-detector-de-plagio-y-revisores-humanos/

Documento original disponible en: https://www.biorxiv.org/content/10.1101/2022.12.23.521610v1

Comparación de resúmenes científicos generados por ChatGPT con resúmenes originales mediante un detector de resultados de inteligencia artificial, un detector de plagio y revisores humanos

Gao, C. A., Howard, F. M., Markov, N. S., Dyer, E. C., Ramesh, S., Luo, Y., & Pearson, A. T. (2022). Comparing scientific abstracts generated by ChatGPT to original abstracts using an artificial intelligence output detector, plagiarism detector, and blinded human reviewers (p. 2022.12.23.521610). bioRxiv. https://doi.org/10.1101/2022.12.23.521610

ChatGPT es la última creación de la familia GPT de sistemas de IA para generación de texto, un proyecto de la fundación OpenAI.

Los grandes modelos lingüísticos, como ChatGPT, pueden producir textos cada vez más realistas, pero se desconoce la precisión y la integridad del uso de estos modelos en la escritura científica. Se recopilaron diez resúmenes de investigación de cinco revistas médicas de alto factor de impacto (n=50) y se generaron resúmenes de investigación basados en sus títulos y revistas con ChatGPT. Se evaluaron los resúmenes utilizando un detector de resultados de inteligencia artificial (IA), un detector de plagio, y se hizo que revisores humanos intentaran distinguir si los resúmenes eran originales o generados. Todos los resúmenes generados por ChatGPT estaban escritos con claridad, pero sólo el 8% seguía correctamente los requisitos de formato de la revista específica. La mayoría de los resúmenes generados se detectaron mediante el detector de salida de IA, con puntuaciones (más alta significa más probabilidad de ser generado) de mediana [rango intercuartílico] de 99,98% [12,73, 99,98] en comparación con una probabilidad muy baja de salida generada por IA en los resúmenes originales de 0,02% [0,02, 0,09]. El AUROC del detector de resultados de IA fue de 0,94. Los resúmenes generados obtuvieron una puntuación muy alta en originalidad utilizando el detector de plagio (100% [100, 100] de originalidad). Los resúmenes generados tenían un tamaño de cohorte de pacientes similar al de los resúmenes originales, aunque los números exactos eran inventados. Cuando se les dio una mezcla de resúmenes originales y generales, los revisores humanos identificaron correctamente el 68% de los resúmenes generados como generados por ChatGPT, pero identificaron incorrectamente el 14% de los resúmenes originales como generados. Los revisores indicaron que era sorprendentemente difícil diferenciar entre los dos, pero que los resúmenes generados eran más vagos y tenían una redacción formulista.

Boletín SciELO-México

viernes, 6 de enero de 2023

ChatGPT no sólo recupera información, también la sintetiza

No hay comentarios:

Publicar un comentario

OpenEval: la IA entra en la revisión científica y redefine el futuro del peer review

Denunciar abuso

Etiquetas