Publicado en Chemistry World
https://www.chemistryworld.com/news/reliability-of-researcher-metric-the-h-index-is-in-decline/4014025.article
La fiabilidad de la métrica de los investigadores, el índice h, está en declive
Por Jamie Durrani
29 de julio de 2021
Los cambios en los patrones de autoría significan que el índice h ya no es una forma eficaz de medir el impacto de un científico, según un nuevo estudio realizado por científicos de datos del gigante tecnológico Intel.
Creado en 2005 por el físico afincado en Estados Unidos Jorge Hirsch, el índice h es una medida de los artículos más citados de un investigador. Un científico con un índice h de 30 ha publicado 30 artículos que han sido citados más de 30 veces cada uno.
Debido a su relativa sencillez, el índice h se ha convertido en una herramienta muy utilizada para cuantificar el impacto de los científicos en sus campos. Pero su uso siempre ha sido controvertido. Desde su introducción, ha sido muy criticado por los bibliometristas profesionales", afirma Lutz Bornmann, experto en evaluación de la investigación con sede en la Sociedad Max Planck de Múnich (Alemania).
Los críticos del índice h señalan que penaliza injustamente a los investigadores noveles, que han tenido menos tiempo que sus colegas de más edad para publicar artículos y acumular citas. La métrica tampoco tiene en cuenta las diferentes tasas de publicación en los distintos campos académicos y puede incluso fomentar las malas prácticas de publicación, como la autocitación excesiva y la inclusión de autores en trabajos que han contribuido poco a ella. El índice h también ignora por completo aspectos importantes de la vida académica más allá de la publicación, como las funciones de liderazgo, la enseñanza o la divulgación. No obstante, se ha convertido en un indicador popular, especialmente entre los bibliometristas aficionados", afirma Bornmann.
Investigar el h
A pesar de estos problemas, el índice h sigue figurando en las bases de datos académicas más populares y, en algunos casos, puede influir en importantes decisiones de contratación y financiación que afectan a la carrera de los investigadores. Vladlen Koltun, científico jefe del laboratorio de sistemas inteligentes de Intel, explica que él y sus colegas observaron incoherencias al examinar los índices h de los investigadores en diversos campos.
Nos propusimos investigar el índice h y nos preguntamos si realmente es la mejor métrica que podemos encontrar, porque se está utilizando, nos guste o no", dice Koltun. Se utiliza con fines educativos de la misma manera que nosotros, pero también, y quizás más importante, lo utilizan varios comités que evalúan a los científicos para los premios, los ascensos, etc.".
Koltun y su colega David Hafner utilizaron herramientas informáticas para analizar los datos de citas de millones de artículos de cuatro campos científicos diferentes. Recogimos datos con anotaciones temporales, de modo que podemos rastrear la evolución del índice h de un investigador a lo largo del tiempo: sabemos cuál era el índice h del investigador en 2010, 2019, 1998", dice Koltun. Y lo hicimos a escala de miles de investigadores".
A continuación, cotejaron los datos con las listas de los ganadores de diversos premios científicos y de los miembros de las academias nacionales, lo que, según Koltun, sirve como prueba de la reputación de los científicos dentro de su comunidad.
Así podemos examinar la correlación en tiempo real: ¿el índice h está relacionado con la reputación actual?", explica Koltun. Pero, lo que me parece aún más interesante, podríamos plantear preguntas como: "¿Predice el índice h la reputación en el futuro?". Porque en realidad es así como se utiliza... el uso más consecuente de estas métricas es para tomar decisiones como ¿a quién debemos contratar?".
El poder de predicción se desvanece
Según el análisis de Koltun, cuando el índice h se creó por primera vez era un indicador razonablemente bueno de quién podría ganar futuros premios. Pero este "poder predictivo" empezó a decaer con el paso de los años. Hasta el punto de que ahora la correlación entre las clasificaciones inducidas por el índice h en física, por ejemplo, y las clasificaciones inducidas por los premios y el reconocimiento de esa comunidad académica, la correlación es cero, simplemente no hay correlación", dice Koltun.
Una de las razones es el creciente número de grandes colaboraciones científicas, explica Koltun. Señala que la hiperautoría -un fenómeno creciente en el que los consorcios de investigación mundiales producen artículos con miles de coautores- permite a las personas acumular enormes índices h muy rápidamente.
Lo que nuestros datos también muestran es que los hiperautores son simplemente una manifestación extrema de un cambio más amplio en los patrones de autoría y publicación. En general, la gente publica más, es más coautora y las listas de autores crecen", afirma Koltun. Y si no se tiene en cuenta esto, lo que se obtiene es una inflación en las métricas y en los índices h en general".
Koltun y Hafner proponen una nueva métrica, el "h-frac", para resolver este problema. El h-frac, asigna una proporción de citas a cada autor, en función del número de coautores de un trabajo. Es más fiable que el índice h... Incluso si nos remontamos a 2005, cuando se introdujo el índice h, el h-frac ya era más fiable, pero la diferencia se ha ampliado drásticamente porque la fiabilidad del índice h cayó en picado".
Tanto el índice h como el h-frac tratan de determinar qué investigadores han hecho la mayor contribución acumulada a su campo a lo largo de su vida. Pero el equipo de Intel también está interesado en ver si medidas similares pueden ofrecer una visión de los grupos que actualmente están llevando a cabo el trabajo más innovador, o que producen constantemente resultados innovadores. En su último estudio, actualmente disponible antes de la revisión por pares como preimpresión, Koltun y Hafner sugieren otra métrica para abordar esto, el Cap, que evalúa el impacto del trabajo de un investigador en relación con su volumen de publicaciones.
Desde 2005, se han propuesto más de 50 medidas alternativas al índice h sin que hayan recibido importancia práctica, dice Bornmann, que no está convencido de que ninguna de las nuevas variantes se convierta en un indicador importante. Señala que la base de datos Web of Science ha adoptado recientemente beamplots, una herramienta de visualización de datos que el equipo de Bornmann ayudó a desarrollar y que ilustra el historial de publicaciones de un investigador a lo largo del tiempo. Clarivate, que mantiene la Web of Science, espera que estas herramientas "nos alejen de la reducción a una métrica de un solo punto y nos obliguen a considerar por qué el rendimiento de las citas es el que es".
Koltun y Hafner reconocen los llamamientos a abandonar las métricas simplificadas basadas en las citas y coinciden en que lo ideal sería evaluar en profundidad el trabajo de los investigadores. Sin embargo, dado que el uso de este tipo de medidas está "tan extendido como siempre", afirman que es necesario mejorar las métricas. Esperan que sus conclusiones "puedan informar a la ciencia de la ciencia y apoyar un mayor análisis cuantitativo de la investigación, la publicación y los logros científicos".
*******************************************
Reliability of researcher metric the h-index is in declineBy Jamie Durrani
29 July 2021
Changing authorship patterns mean that the h-index is no longer an effective way to gauge a scientist’s impact, according to a new study by data scientists at technology giant Intel.
First created in 2005 by the US-based physicist Jorge Hirsch, the h-index is a measure of a researcher’s most highly cited papers. A scientist with an h-index of 30 has published 30 papers that have each been cited more than 30 times.
Due to its relative simplicity, the h-index has become a widely used tool to quantify scientists’ impact in their fields. But its use has always been controversial. ‘Since its introduction, it has been highly criticised by professional bibliometricians,’ says Lutz Bornmann, an expert on research evaluation based at the Max Planck Society in Munich, Germany.
Critics of the h-index point out that it unfairly penalises early-career researchers, who have had less time than their older colleagues to publish papers and build up citations. The metric also fails to account for differing publishing rates across academic fields and can even encourage bad publishing practices, such as excessive self-citation and inclusion of authors on papers that contributed little to it. The h-index also completely ignores important aspects of academic life beyond publishing – for example leadership roles, teaching or outreach. ‘Nevertheless, it has become a popular indicator especially among amateur bibliometricians,’ says Bornmann.
Investigating hDespite these issues, the h-index still features on popular scholarly databases and in some cases can influence important decisions on recruitment and funding that affect researchers’ careers. Vladlen Koltun, chief scientist at Intel’s intelligent systems lab explains that he and his colleagues noticed inconsistencies when browsing researchers’ h-indices across various fields.
‘We set out to probe the h-index, and we asked whether it is really the best metric we can come up with – because it is being used, whether we like it or not,’ says Koltun. ‘It is being used for educational purposes the way we were using it, but also, perhaps more importantly, it’s being used by various committees that evaluate scientists for awards, for promotions and so forth.’
Koltun and his colleague David Hafner used computational tools to analyse citation data from millions of articles across four different scientific fields. ‘We collected data with temporal annotations, so we can trace the evolution of a researcher’s h-index over time – we know what the researcher’s h-index was in 2010, 2019, 1998,’ says Koltun. ‘And we did this on the scale of thousands of researchers.’
They then cross-referenced the data against lists of winners of various scientific prizes and inductees to national academies, which Koltun reasons serves as evidence of scientists’ reputation within their community.
‘So we can examine correlation in real time – does the h-index correlate with a reputation at present?’ explains Koltun. ‘But even more interestingly to me, we could ask questions such as, “Does the h-index predict reputation in the future?” Because that’s actually how it’s being used … the most consequential use of these metrics is for making decisions such as whom should we hire?’
Predictive power pallsAccording to Koltun’s analysis, when the h-index was first created it was reasonably good indicator of who might win future awards. But this ‘predictive power’ started to wane over the years. ‘To the point that now the correlation between rankings induced by the h-index in physics, for example, and rankings induced by awards and recognition by that academic community – the correlation is zero, there is just no correlation,’ says Koltun.
One reason for this is the increasing number of large scientific collaborations, Koltun explains. He points out that hyper-authorship – a growing phenomenon where global research consortia produce papers with thousands of co-authors – enables people to rack up enormous h-indices very quickly.
‘What our data also shows is that the hyper-authors are simply an extreme manifestation of a broader shift in authorship patterns and publication patterns. Generally, people are publishing more, people are co-authoring more, author lists are growing,’ says Koltun. ‘And if you don’t take that into account, what you get is an inflation in the metrics and inflation in the h-indices across the board.’
Koltun and Hafner propose a new metric, the ‘h-frac’, to solve this issue. The h-frac, allocates a proportion of citations to each author, depending on the number of co-authors on a paper. ‘It’s more reliable than the h-index … Even when we go back to 2005 when the h-index was introduced, h-frac was already more reliable, but the gap has widened dramatically because the reliability of the h-index fell off a cliff.’
The h-index and h-frac both seek to determine which researchers have made greatest cumulative contribution to their field over their lifetime. But the Intel team are also keen to see whether similar measures can offer insight into which groups are currently carrying out the most innovative work, or who consistently produce ground-breaking results. In their latest study, currently available before peer review as a pre-print, Koltun and Hafner suggest another metric to address this, the Cap, which assesses how impactful a researcher’s work is relative to their publishing volume.
Since 2005, more than 50 alternative measures to the h-index have been proposed without any receiving practical significance, says Bornmann, who is unconvinced that any new variants will become important indicators. He points out that the Web of Science database recently adopted beamplots – a data visualisation tool that Bornmann’s team helped to develop, which illustrates a researcher’s publication history over time. Clarivate, who maintain Web of Science, hope that such tools will ‘steer us away from reduction to a single-point metric and force us to consider why the citation performance is the way it is’.
Koltun and Hafner acknowledge the calls to abandon simplified citation-based metrics and agree that ideal scenarios would involve in-depth assessment of researchers’ work. But with the use of such measures ‘as widespread as ever’, they argue that there is a need for better metrics. They hope that their findings ‘can inform the science of science and support further quantitative analysis of research, publication, and scientific accomplishment’.
ReferencesV Koltun and D Hafner, PLOS One, 2021, DOI: 10.1371/journal.pone.0253397
Jamie Durrani Science correspondent, Chemistry World