miércoles, 8 de diciembre de 2021

Crean índice gigante y gratuito que permite la minería de textos

Publicado en Nature
https://www.nature.com/articles/d41586-021-02895-8 


Se publica en línea un índice gigante y gratuito de los documentos de investigación del mundo


El catálogo de miles de millones de frases de 107 millones de artículos podría facilitar la búsqueda informatizada de la literatura.


Holly Else


En un proyecto que podría facilitar el análisis informático de los trabajos de investigación de todo el mundo, un tecnólogo estadounidense ha puesto en línea un gigantesco índice de palabras y frases cortas contenidas en más de 100 millones de artículos de revistas, incluidos muchos de pago.


El catálogo, que se publicó el 7 de octubre y es de uso gratuito, contiene tablas con más de 355.000 millones de palabras y fragmentos de frases listados junto a los artículos en los que aparecen. Se trata de un esfuerzo por ayudar a los científicos a utilizar programas informáticos para extraer información de los trabajos publicados aunque no tengan acceso legal a los documentos subyacentes, dice su creador, Carl Malamud. Ha publicado los archivos bajo los auspicios de Public Resource, una corporación sin ánimo de lucro fundada por él en Sebastopol, California. 


Malamud afirma que, como su índice no contiene el texto completo de los artículos, sino sólo fragmentos de frases de hasta cinco palabras, su publicación no infringe las restricciones de derechos de autor de los editores sobre la reutilización de artículos de pago. Sin embargo, un experto jurídico afirma que los editores podrían cuestionar la legalidad de cómo Malamud creó el índice en primer lugar.


Algunos investigadores que han tenido acceso temprano al índice dicen que es un avance importante para ayudarles a buscar en la literatura con software, un procedimiento conocido como minería de textos. Gitanjali Yadav, bióloga computacional de la Universidad de Cambridge (Reino Unido), que estudia los compuestos orgánicos volátiles emitidos por las plantas, dice que pretende peinar el índice de Malamud para elaborar análisis de las sustancias químicas vegetales descritas en los artículos de investigación de todo el mundo. "No hay forma de que yo -o cualquier otra persona- analice o mida experimentalmente la huella química de todas y cada una de las especies vegetales de la Tierra. Gran parte de la información que buscamos ya existe, en la literatura publicada", afirma. Pero los investigadores se ven limitados por la falta de acceso a muchos trabajos, añade Yadav.


El Índice General de Malamud, como él lo llama, pretende resolver los problemas a los que se enfrentan investigadores como Yadav. Los informáticos ya hacen minería de textos para crear bases de datos de genes, fármacos y sustancias químicas que se encuentran en la literatura, y para explorar el contenido de los artículos más rápido de lo que podría leer un humano. Sin embargo, a menudo señalan que los editores controlan en última instancia la velocidad y el alcance de su trabajo, y que los científicos se ven limitados a minar sólo los documentos de acceso abierto, o aquellos artículos a los que ellos (o sus instituciones) están suscritos. Algunos editores han afirmado que los investigadores que desean extraer el texto de artículos de pago necesitan su autorización.


Y aunque los motores de búsqueda gratuitos, como Google Scholar, han indexado -con el acuerdo de los editores- el texto de la literatura de pago, sólo permiten a los usuarios buscar con ciertos tipos de consultas de texto, y restringen la búsqueda automatizada. Esto no permite realizar análisis informáticos a gran escala mediante búsquedas más especializadas, afirma Malamud.


Terabytes de datos


El proyecto de Malamud es su última aventura en una carrera dedicada a la publicación de información bloqueada para su libre acceso en línea, a menudo enfrentándose a desafíos legales. Al principio se centró en la publicación de información jurídica y financiera producida por el gobierno. Pero más recientemente ha centrado su atención en la apertura de la literatura científica.


Empezó con un proyecto para permitir a los científicos leer, pero no leer, un gigantesco almacén de documentos de investigación que tiene en un servidor de la India; una idea en la que dice seguir trabajando. El Índice General permite ahora a cualquiera minar trabajos científicos, pero no tiene su propio portal de búsqueda en la web, por lo que si los científicos quieren buscar en él, tendrán que descargar sus archivos y desarrollar sus propios programas. Malamud espera que los usuarios pongan a disposición de los demás los motores de búsqueda que creen.


En su formato comprimido, el catálogo totaliza casi 5 terabytes, y luego se amplía a 38 terabytes. Además de fragmentos de frases, los archivos incluyen tablas con casi 20.000 millones de palabras clave en la literatura, y tablas con el título, los autores y el DOI (identificador del artículo) de un trabajo, para que los usuarios puedan localizar un trabajo completo si tienen acceso a su lectura.


Michael Carroll, investigador jurídico de la Facultad de Derecho de la American University en Washington DC, afirma que la distribución del índice debería ser legal en todo el mundo porque los archivos no copian lo suficiente un artículo subyacente como para infringir los derechos de autor del editor, aunque las leyes varían según el país. "Los derechos de autor no protegen los hechos ni las ideas, y estos resultados se tratarían como comunicación de hechos derivados del análisis de los artículos protegidos por derechos de autor", afirma.


La única cuestión legal, añade Carroll, es si la obtención y copia de los documentos subyacentes por parte de Malamud se hizo sin infringir las condiciones de los editores. Malamud afirma que tuvo que obtener copias de los 107 millones de artículos a los que se hace referencia en el índice para crearlo; no quiso decir cómo, pero subraya que los investigadores no tendrán acceso a los textos completos de los documentos, que están almacenados en un lugar seguro y no revelado de Estados Unidos.


"Estoy muy seguro de que lo que estoy haciendo es legal. No lo hacemos para provocar una demanda, sino para hacer avanzar la ciencia", afirma.


Nature se puso en contacto con seis editoriales sobre el Índice General para este artículo: todas menos una declinaron hacer comentarios. En un comunicado, Springer Nature dijo que la empresa apoya las iniciativas de investigación abierta que utilizan tecnología y algoritmos para satisfacer las necesidades de los investigadores. "Sin embargo, hemos visto que algunas iniciativas tienen problemas cuando no se han asegurado los derechos necesarios para permitir su sostenibilidad", añade el comunicado. (Springer Nature publica esta revista; el equipo de noticias de Nature es editorialmente independiente de su editor).


Otro investigador jurídico, Arul George Scaria, de la Universidad Nacional de Derecho de Delhi, afirma que cualquier editor que intentara utilizar las leyes de derechos de autor para impedir que los investigadores utilizaran el Índice General "acabaría decepcionándose". La publicación del índice, según Scaria, es un "gran avance por la riqueza de información que ha desvelado de esos 107 millones de artículos de revistas".


No hay comentarios:

Publicar un comentario

Una herramienta de Google permite detectar fácilmente la escritura generada por IA

Publicado en blog  Universo abierto https://universoabierto.org/2024/10/25/una-herramienta-de-google-permite-detectar-facilmente-la-escritur...