miércoles, 11 de enero de 2023

Las editoriales son el “Big Brother académico” vigilante: rastrean y lucran con el comportamiento de los investigadores

Publicado en Elephant in the Lab
https://elephantinthelab.org/surveillance-publishing/ 


Google aprendió del análisis de citas de ISI/Web of Science para hacer su primer algoritmo de búsqueda (PageRank). Ahora, las editoriales comerciales aprenden de Google como monetizar los datos de sus usuarios, pero con dos grandes diferencias:
1) Google rastrea el comportamiento de sus usuarios para vender publicidad, mientras que las editoriales Elsevier, Clarivate, Wiley, SpringerNature y Taylor & Francis rastrean el comportamiento de los investigadores para vender productos de “inteligencia de investigación”; 

2) la segunda diferencia, es que Google no cobra a sus usuarios, de los que extrae la información que luego vende… pero las editoriales ¡si cobran por el uso de las revistas y bases de datos de las que extrae la información de sus usuarios! además, que de que luego vende los productos “de analítica” sobre los cuales se basará la toma de decisiones y la política científica de sus clientes. ¡¡¡Negocio redondo, de reventa y autosustentable!!!



Extracto de notas:

  • Las grandes editoriales se adentran en el llamado “análisis predictivo”, Obtienen datos de la producción académica para analizar el comportamiento de los científicos y generar análisis de información a futuro que venden a sus clientes (y proveedores): las universidades. 

  • Las grandes editoriales hacen con los académicos lo que Google hace con todos sus usuarios: extrae datos de su comportamiento y obtiene conclusiones sobre tendencias. Google vende esta información a las empresas que desean vender productos. Las editoriales venden esta información a las universidades y oficinas gubernamentales encargadas de la política científica para la toma de decisiones.

  • Participan y compiten en este nuevo negocio Clarivate, Elsevier, Springer Nature, Wiley, Taylor & Francis, SAGE y otras grandes editoriales.

  • Elsevier, en particular, lleva años adentrándose en el análisis predictivo.

  • Los gigantes de la publicación se han beneficiado durante mucho tiempo de los académicos y de nuestros empleadores universitarios, empaquetando el trabajo de escritura y edición no remunerado de los académicos para vendérnoslo de nuevo en forma de suscripciones a precios usureros o cargos por procesamiento de artículos (APC). Se trata de un negocio lucrativo al que estas editoriales no quieren renunciar. Pero ahora suman otro negocio a sus operaciones editoriales basado en el tesoro de datos del comportamiento de los académicos condensado en las publicaciones que ellas controlan. 

  • Esto representa un problema en un escenario en el que el sistema de recompensas académicas ya está distorsionado por las métricas.

  • En la medida en que los indicadores y los índices de los editores se incorporen a la concesión de becas, a la titularidad y a la promoción, y a otras decisiones de evaluación, la marea métrica ganará poder. 

  • El mayor riesgo es que los académicos interioricen una mentalidad analítica, ya fomentada por los recuentos de citas y los factores de impacto.

  • El concepto de "capitalismo de la vigilancia" de Shoshanna Zuboff no se aplica del todo para este caso, ya que está demasiado ceñida a una parte relativamente pequeña de la economía: la publicidad digital. La interpretación de Zuboff en La era del capitalismo de la vigilancia hace demasiado hincapié en la novedad del negocio de los futuros del comportamiento que atribuye a Google. En realidad, los sectores de los seguros y de la calificación crediticia, por mencionar dos, han vinculado los datos a los beneficios predictivos durante más de cien años.

  • En cambio, el ISI de Garfield estaba en el negocio de los datos antes de que nacieran Larry Page y Sergey Brin (de Google).

  • Es más útil para este análisis,  el concepto de los juristas Mariano-Florentino Cuéllar y Aziz Huq de "economías de vigilancia", para referirse a la gama de modelos de negocio que buscan monetizar los datos de comportamiento. 

  • En otras palabras, no es necesario llevar la analogía con Google demasiado lejos. Es poco probable que los negocios de datos basados en las citas y descargas de los académicos emulen el modelo de Google basado en la publicidad. Es más probable que los grandes editores, junto con Clarivate y otros posibles actores, se apoyen en su actual estrategia de suscripción, con productos de datos licenciados a universidades y otros clientes de investigación. 

  • Más bien, el nuevo negocio está basado en la información de comportamiento que producen los académicos. Como dijo la profesora de Derecho de la CUNY Sarah Lamdan en una charla reciente, "tus revistas te están espiando".

  • Esto es, los investigadores generan datos con cada participación en un artículo o informe de revisión por pares. Algunos de esos datos se incorporan a los productos principales de las editoriales, en forma de recuentos de descargas y recomendaciones de artículos.

  • La publicación académica es su propia economía de vigilancia emergente. Podemos llamar a una empresa editorial de vigilancia si obtiene una proporción sustancial de sus ingresos de productos de predicción, alimentados por datos extraídos del comportamiento de los investigadores. Con esta definición, ya tenemos editores de vigilancia entre nosotros.

  • Elsevier: el editor de la cadena completa: Esta editorial holandesa se fundó a finales del siglo XIX, pero no fue hasta la década de 1970 cuando la empresa empezó a lanzar y adquirir títulos de revistas a un ritmo frenético. El modelo de Elsevier fue Pergamon, la empresa de publicaciones científicas de la posguerra creada por el checo Robert Maxwell. En 1965, más o menos cuando apareció el Science Citation Index de Garfield, Pergamon publicaba 150 revistas. Elsevier siguió el ejemplo de Maxwell, creciendo a un ritmo de 35 títulos al año a finales de la década de 1970. Ambas empresas subieron los precios de sus suscripciones de forma agresiva, obteniendo enormes beneficios gracias a la señalización del prestigio del Factor de Impacto de las Revistas de Garfield. Maxwell vendió Pergamon a Elsevier en 1991, meses antes de su escabrosa muerte.

  • Elsevier acababa de empezar. La empresa adquirió The Lancet ese mismo año (1991), cuando la compañía puso a prueba lo que se convertiría en ScienceDirect, su plataforma de distribución de revistas por Internet. En 1993, la editorial holandesa se fusionó con Reed International, un fabricante de papel británico convertido en conglomerado de medios de comunicación. En 2015, la empresa cambió su nombre por el de RELX Group, tras dos décadas de adquisiciones, desinversiones y lanzamientos de productos, incluido Scopus en 2004, la respuesta de Elsevier a la Web of Science de ISI. 

  • Con este paso, RELX daba un paso a la "transformación" de la empresa, que dejaba de ser una editorial para pasar a un "negocio impulsado por la tecnología, los contenidos y el análisis". La estrategia consistió en el "desarrollo orgánico de herramientas de análisis y decisión cada vez más sofisticadas basadas en la información". En otras palabras, Elsevier se convertía en un editor de vigilancia. 

  • Al contar con todo el ciclo de vida de la investigación, Elsevier se ha posicionado para cosechar el comportamiento en cada etapa.

  • Para el seguimiento de los resultados del laboratorio?: Elsevier adquirió Hivebench en 2016

  • Para controlar un Software de citación e intercambio de datos, Elsevier adquirió Mendeley en 2013

  • Para la publicación de un documento de trabajo o preprint, Elsevier adquirió SSRN y bepress en 2016 y 2017, respectivamente. 

  • Para la fase posterior a la publicación del flujo de trabajo académico, Elsevier cuenta con Scopus y sus 81 millones de registros.

  • Para medir el impacto, Elsevier compró Plum Analytics, una empresa de altmetría, en 2017.

  • Para seguir a los investigadores de su universidad y su trabajo, Elsevier cuenta con el "sistema de gestión de información de investigación" Pure, adquirido en 2012.

  • Para medir el rendimiento de los investigadores, Elsevier tiene a SciVal, escindida de Scopus en 2009, que incorpora el servicio de seguimiento de medios Newsflo, adquirido en 2015.

  • Los productos de Elsevier abarcan todo el ciclo de vida de la investigación, desde la mesa de laboratorio hasta la puntuación de impacto, e incluso -mediante las herramientas de búsqueda de subvenciones de Pure- de vuelta a la mesa, para empezar de nuevo. 

  • Algunos de los productos de Elsevier son servicios con beneficios: Mendeley, por ejemplo, o incluso la plataforma de distribución de revistas ScienceDirect, ofrecen a los clientes la gestión de referencias o el acceso a las revistas y proporcionan datos de comportamiento a Elsevier. 

  • Los productos como SciVal y Pure, en la cadena de datos, venden los datos procesados a los investigadores y sus empleadores, en forma de "inteligencia de investigación".

  • El editor de la cadena completa: Pensemos en Elsevier. Esta editorial holandesa se fundó a finales del siglo XIX, pero no fue hasta la década de 1970 cuando la empresa empezó a lanzar y adquirir títulos de revistas a un ritmo frenético. El modelo de Elsevier fue Pergamon, la empresa de publicaciones científicas de la posguerra creada por el checo Robert Maxwell. En 1965, más o menos cuando apareció el Science Citation Index de Garfield, Pergamon publicaba 150 revistas. Elsevier siguió el ejemplo de Maxwell, creciendo a un ritmo de 35 títulos al año a finales de la década de 1970. Ambas empresas subieron los precios de sus suscripciones de forma agresiva, obteniendo enormes beneficios gracias a la señalización del prestigio del Factor de Impacto de las Revistas de Garfield. Maxwell vendió Pergamon a Elsevier en 1991, meses antes de su escabrosa muerte.

  • Elsevier acababa de empezar. La empresa adquirió The Lancet ese mismo año (1991), cuando la compañía puso a prueba lo que se convertiría en ScienceDirect, su plataforma de distribución de revistas por Internet. En 1993, la editorial holandesa se fusionó con Reed International, un fabricante de papel británico convertido en conglomerado de medios de comunicación. En 2015, la empresa cambió su nombre por el de RELX Group, tras dos décadas de adquisiciones, desinversiones y lanzamientos de productos, incluido Scopus en 2004, la respuesta de Elsevier a la Web of Science de ISI. 

  • Con este paso, RELX daba un paso a la "transformación" de la empresa, que dejaba de ser una editorial para pasar a un "negocio impulsado por la tecnología, los contenidos y el análisis". La estrategia consistió en el "desarrollo orgánico de herramientas de análisis y decisión cada vez más sofisticadas basadas en la información". En otras palabras, Elsevier iba a convertirse en un editor de vigilancia. 

  • Eso se ha dirigido hacia ese objetivo: al moverse por todo el ciclo de vida de la investigación, la empresa se ha posicionado para cosechar el excedente de comportamiento en cada etapa.

  • Para el seguimiento de los resultados del laboratorio?: Elsevier adquirió Hivebench en 2016

  • Para controlar un Software de citación e intercambio de datos, Elsevier adquirió Mendeley en 2013

  • Para la publicación de un documento de trabajo o preprint, Elsevier adquirió SSRN y bepress en 2016 y 2017, respectivamente. 

  • Para la fase posterior a la publicación del flujo de trabajo académico, Elsevier cuenta con Scopus y sus 81 millones de registros.

  • Para medir el impacto, Elsevier compró Plum Analytics, una empresa de altmetría, en 2017.

  • Para seguir a los investigadores de su universidad y su trabajo, Elsevier cuenta con el "sistema de gestión de información de investigación" Pure, adquirido en 2012.

  • Para medir el rendimiento de los investigadores, Elsevier tiene a SciVal, escindida de Scopus en 2009, que incorpora el servicio de seguimiento de medios Newsflo, adquirido en 2015.

  • Los productos de Elsevier abarcan todo el ciclo de vida de la investigación, desde la mesa de laboratorio hasta la puntuación de impacto, e incluso -mediante las herramientas de búsqueda de subvenciones de Pure- de vuelta a la mesa, para empezar de nuevo. 

  • Algunos de los productos de Elsevier son servicios con beneficios: Mendeley, por ejemplo, o incluso la plataforma de distribución de revistas ScienceDirect, ofrecen a los clientes la gestión de referencias o el acceso a las revistas y proporcionan datos de comportamiento a Elsevier. 

  • Los productos como SciVal y Pure, en la cadena de datos, venden los datos procesados a los investigadores y sus empleadores, en forma de "inteligencia de investigación".

****************************************

Publicación de la Vigilancia

25 de marzo de 2022 | doi:10.5281/zenodo.6384605 | 

En abril de 1998, dos estudiantes graduados de Stanford, Sergey Brin y Larry Page, volaron por todo el mundo (flew across the world) para presentar una ponencia (paper) sobre su incipiente motor de búsqueda, Google. En su intervención en la Séptima Conferencia Internacional de la World Wide Web (WWW 98), celebrada en Brisbane (Australia), Brin y Page describieron (described) cómo su planteamiento -tomando el "gráfico" de enlaces existente en la web como indicador de calidad y relevancia- mejoraba los índices clasificados a mano de Yahoo!, Lycos y otros similares. Seis meses más tarde, llevaron su idea al mercado y trabajaron en un garaje cercano. En dos años, Brin y Page habían despachado a sus rivales de los motores de búsqueda, en camino de construir el mayor negocio publicitario de la historia del capitalismo.

La historia del origen de Google, del dormitorio al garaje, es bien conocida. Menos famosa es la deuda que Brin y Page tenían con la biblioteconomía y el campo de la bibliometría. Como reconoció la pareja en Brisbane, su idea clave -utilizar la estructura de enlaces de la web como un plebiscito para la relevancia de la búsqueda- la tomaron prestada del análisis de citas. "El gráfico de citas (enlaces) de la web", dijeron (said), "es un recurso importante que en gran medida no se ha utilizado en los motores de búsqueda existentes". El "PageRank" de una página web, explicaron (explained), es una medida de su "importancia de citación", que resulta coincidir, con una consistencia asombrosa, con lo que los buscadores quieren encontrar. Su enfoque, continuaron, es una extensión de la "literatura de citas académicas".

Los fundadores de Google habían tomado la idea central de la bibliometría, un campo que surgió en la década de 1960 para estudiar (entre otras cosas) la red de citas académicas. Como dijo el historiador de la ciencia Derek de Solla Price en un artículo seminal de 1965 (seminal 1965 paper), las citas proporcionan una "red mundial total de artículos científicos". A principios de la década de 1970, gracias a los avances informáticos, el análisis de las citas en toda regla se utilizaba para medir el impacto de las revistas, la productividad científica y la estructura de la influencia académica.

Dos décadas más tarde, en Brisbane, Brin y Page posicionaron (positioned) a Google como el antídoto académico contra los motores de búsqueda impulsados por la publicidad. Se quejaron de que empresas como Yahoo! no hicieran públicos sus métodos, con el resultado de que la tecnología de búsqueda sigue siendo "en gran medida un arte negro". Con Google, dijeron, "tenemos el firme objetivo de impulsar más el desarrollo y la comprensión en el ámbito académico". En un apéndice (appendix), ahora famoso, de su charla publicada, los dos estudiantes de posgrado denunciaron el modelo de negocio impulsado por la publicidad de sus rivales comerciales. "Esperamos", escribieron (wrote) Brin y Page, "que los motores de búsqueda financiados por la publicidad estén intrínsecamente sesgados hacia los anunciantes y alejados de las necesidades de los consumidores", un "sesgo especialmente insidioso", añadieron, ya que es muy difícil de detectar.

 Cambiaron de opinión. Ante el colapso de las puntocom en 2001 y las demandas de los inversores, Brin y Page -tomando prestado el verbo de Silicon Valley- pivotaron. Como ha documentado Shoshana Zuboff, la empresa apostó por los anuncios: anuncios orientados, informados por el conjunto de datos de los usuarios que la empresa tenía almacenados. En 2004, la empresa había salido a bolsa, valorada en 27.000 millones de dólares. Aprovechando sus datos de usuarios derivados de las búsquedas y los servicios, Google pasó a captar casi el 30% de los ingresos mundiales por publicidad digital. En la actualidad, el valor de mercado de Alphabet, la empresa matriz de Google, ronda los 2 billones de dólares. Construida a partir del análisis de citas académicas, la empresa es el ejemplo definitorio de lo que Zuboff llama "capitalismo de vigilancia"

Hay otra ironía. El campo de la bibliometría, desde su aparición a principios de los años 60, ya estaba inmerso en el capitalismo de datos. También en este caso, la historia es bien conocida: Eugene Garfield, un aspirante a químico que se convirtió en empresario científico, creó su empresa de indexación de la ciencia, el Instituto de Información Científica (ISI), a mediados de la década de 1950. En 1964, el ISI de Garfield creó el primer Science Citation Index, una base de datos de artículos publicados y sus citas. Los pioneros de la bibliometría, como de Solla Price, se asociaron con Garfield para explotar la base de datos del servicio, de ahí que de Solla Price se haya convertido en una red mundial de artículos científicos. Otros índices ISI para las ciencias sociales y las artes siguieron en la década de 1970, cuando la empresa de Garfield también comenzó a publicar sus Journal Citation Reports. En 1992, con la World Wide Web en sus inicios, Garfield vendió ISI a Thomson, el gigante canadiense de la información. El negocio volvió a cambiar de manos en 2016, en una escisión de capital privado llamada Clarivate. El índice de citas de Garfield -ahora llamado Web of Science- fue el centro del acuerdo de 3.500 millones de dólares.

De la Web of Science a la web: En aspectos fundamentales, el negocio de Clarivate se parece al de Alphabet. Clarivate, por supuesto, no se alimenta del negocio de la publicidad como Google. Pero ambas empresas extraen datos del comportamiento, que procesan en productos de predicción. En el caso de Google, todos participamos en la acción, con cada búsqueda y cada correo electrónico; una vez refinados, los datos se venden a los clientes-anunciantes de la empresa para su visualización dirigida. Los datos de comportamiento de Clarivate se obtienen de un público mucho más reducido -los académicos- que, en otra diferencia con Google, son también los principales clientes de la empresa. Pero la estrategia empresarial principal es la misma: extraer datos del comportamiento para alimentar modelos predictivos que, a su vez, se perfeccionan y se venden a los clientes. En un caso se trata de términos de búsqueda y en el otro de resúmenes y citas, pero en cualquier caso el objetivo es sacar dinero de los subproductos del comportamiento (del consumidor o del académico). En lugar de la propensión a comprar de Google, Clarivate vende apuestas sobre la productividad y el impacto futuros de los académicos, entre otros productos de predicción académica. 

Este artículo también se detiene en una predicción: El modelo de negocio de Clarivate está llegando a la publicación académica. Google es un par, pero los verdaderos competidores de la empresa son Elsevier, Springer Nature, Wiley, Taylor & Francis y SAGE. Elsevier, en particular, lleva años adentrándose en el análisis predictivo. Por supuesto, los gigantes de la publicación se han beneficiado durante mucho tiempo de los académicos y de nuestros empleadores universitarios, empaquetando el trabajo de escritura y edición no remunerado de los académicos para vendérnoslo de nuevo en forma de suscripciones a precios usureros o cargos por procesamiento de artículos (APC). Se trata de un negocio lucrativo al que Elsevier y los demás no quieren renunciar. Pero están superponiendo otro negocio a sus operaciones editoriales heredadas, en el molde de Clarivate. El tesoro de datos sobre el que se asientan los editores es, en todo caso, mucho más rico que el gráfico de citas por sí solo. 

¿Por qué preocuparse por la publicación vigilada? Una de las razones es el balance, ya que el intercambio de las empresas con los futuros académicos aumentará los beneficios a expensas de los contribuyentes y los estudiantes. La razón más importante es que nuestro comportamiento -una vez alejado de nosotros y abstraído en métricas predictivas- se duplicará en nuestra vida laboral. Los prejuicios existentes, como la propensión de los académicos masculinos a autocitarse, recibirán una nueva capa de legitimidad algorítmica. En términos más generales, el sistema de recompensas académicas ya está distorsionado por las métricas. En la medida en que las cuentas y los índices de los editores se incorporen a la concesión de becas, a la titularidad y a la promoción, y a otras decisiones de evaluación, la marea métrica ganará poder. El mayor riesgo es que los académicos interioricen una mentalidad analítica, ya fomentada por los recuentos de citas y los factores de impacto. 


LA VIGILANCIA COMO SERVICIO

Por muy útil que sea, la noción de Shoshanna Zuboff de "capitalismo de la vigilancia" está demasiado ceñida a una parte relativamente pequeña de la economía, la publicidad digital. Esa misma apertura estrecha llevó a Zuboff, en La era del capitalismo de la vigilancia, a hacer demasiado hincapié en la novedad del negocio de los futuros del comportamiento que atribuye a Google. Los sectores de los seguros y de la calificación crediticia, por mencionar dos, han vinculado los datos a los beneficios predictivos durante más de cien años. Como hemos visto, el ISI de Garfield estaba en el negocio de los datos antes de que nacieran Larry Page y Sergey Brin.

Para llegar al parentesco de los editores con Google o, para el caso, con Hartford, necesitamos un descriptor más amplio. Los juristas Mariano-Florentino Cuéllar y Aziz Huq han propuesto una alternativa pluralizada, "economías de vigilancia", para referirse a la gama de modelos de negocio que buscan monetizar los datos de comportamiento. "A medida que más industrias encuentren formas de incorporar los excedentes del comportamiento a sus modelos de negocio", escriben, "la parte de la economía que se engloba en este término aumentará, quizás de forma drástica". Cuéllar y Huq destacan el pluralismo: Los contornos específicos de cualquier economía de la vigilancia variarán, en función de las normas y regulaciones específicas del sector. En otras palabras, no es necesario llevar la analogía con Google demasiado lejos. Es poco probable que los negocios de datos basados en las citas y descargas de los académicos emulen el modelo de Google basado en la publicidad. Es más probable que los grandes editores, junto con Clarivate y otros posibles actores, se apoyen en su actual estrategia de suscripción, con productos de datos licenciados a universidades y otros clientes de investigación. En cualquier caso, se quedarán con el excedente de comportamiento que produzcan los académicos. Como dijo la profesora de Derecho de la CUNY Sarah Lamdan en una charla reciente, "tus revistas te están espiando". 

Los editores se encuentran en una posición envidiable, ya que los investigadores generan datos con cada participación en un artículo o informe de revisión por pares. Algunos de esos datos se incorporan a los productos principales de las editoriales, en forma de recuentos de descargas y recomendaciones de artículos. Pero tenemos motivos para creer, basándonos únicamente en los productos de datos existentes, que los editores están desechando los residuos de comportamiento de los académicos ante la perspectiva de una futura monetización. En un importante artículo reciente, el académico de CTS Jathan Sadowski discrepa del lugar común de que los datos son el "nuevo petróleo". Según la visión de las mercancías que él cuestiona, los datos son materia prima para otros productos, fáciles de intercambiar por dinero. Sadowski admite que los datos son a menudo una mercancía de este tipo; el extenso sector del corretaje de datos es un ejemplo de ello. Pero también es útil pensar en los datos como capital, en el sentido específico de "capital" desarrollado por el difunto sociólogo francés Pierre Bourdieu. El capital de datos se asemeja en su forma al capital cultural de Bourdieu: Aunque una apreciación aprendida del arte abstracto puede, en determinadas condiciones, conducir a un trabajo lucrativo, el valor de ese capital cultural no es meramente, ni siquiera principalmente, monetario. El capital de datos, igualmente, puede convertirse en dólares en algunos contextos. Pero su valor para los propietarios puede ser otro. Las empresas pueden utilizar los datos para orientar la estrategia, perfeccionar los flujos de trabajo o formar modelos, entre otras cosas. Al igual que el capital social o cultural, la acumulación de datos tiene una cualidad prospectiva: un incentivo para acumularlos con la expectativa de un valor futuro.

La publicación académica es su propia economía de vigilancia emergente. Podemos llamar a una empresa editorial de vigilancia si obtiene una proporción sustancial de sus ingresos de productos de predicción, alimentados por datos extraídos del comportamiento de los investigadores. Con esta definición, ya tenemos editores de vigilancia entre nosotros.


EL EDITOR DE LA CADENA COMPLETA

Pensemos en Elsevier. Esta editorial holandesa se fundó a finales del siglo XIX, pero no fue hasta la década de 1970 cuando la empresa empezó a lanzar y adquirir títulos de revistas a un ritmo frenético. El modelo de Elsevier fue Pergamon, la empresa de publicaciones científicas de la posguerra creada por el audaz checo Robert Maxwell. En 1965, más o menos cuando apareció el Science Citation Index de Garfield, Pergamon publicaba 150 revistas. Elsevier siguió el ejemplo de Maxwell, creciendo a un ritmo de 35 títulos al año a finales de la década de 1970. Ambas empresas subieron los precios de sus suscripciones de forma agresiva, obteniendo enormes beneficios gracias a la señalización del prestigio del Factor de Impacto de las Revistas de Garfield. Maxwell vendió Pergamon a Elsevier en 1991, meses antes de su escabrosa muerte.

Elsevier acababa de empezar. La empresa adquirió The Lancet ese mismo año, cuando la compañía puso a prueba lo que se convertiría en ScienceDirect, su plataforma de distribución de revistas por Internet. En 1993, la editorial holandesa se fusionó con Reed International, un fabricante de papel británico convertido en conglomerado de medios de comunicación. En 2015, la empresa cambió su nombre por el de RELX Group, tras dos décadas de adquisiciones, desinversiones y lanzamientos de productos, incluido Scopus en 2004, la respuesta de Elsevier a la Web of Science de ISI. El "nombre más corto y moderno", explicó RELX, es un guiño a la "transformación" de la empresa, que ha pasado de ser una editorial a un "negocio impulsado por la tecnología, los contenidos y el análisis". ¿La estrategia de RELX? El "desarrollo orgánico de herramientas de análisis y decisión cada vez más sofisticadas basadas en la información". En otras palabras, Elsevier iba a convertirse en un editor de vigilancia. 

Desde entonces, mediante adquisiciones y lanzamientos de productos, Elsevier se ha movido para hacer realidad su autodescripción. Al moverse por todo el ciclo de vida de la investigación, la empresa se ha posicionado para cosechar el excedente de comportamiento en cada etapa. ¿Seguimiento de los resultados del laboratorio? Elsevier tiene Hivebench, adquirida en 2016. ¿Software de citación e intercambio de datos? Mendeley, adquirido en 2013. ¿Publicar su documento de trabajo o preimpresión? SSRN y bepress, 2016 y 2017, respectivamente. 

Las "soluciones" de Elsevier para la fase posterior a la publicación del flujo de trabajo académico están ancladas en Scopus y sus 81 millones de registros. ¿Curiosidad por el impacto? Plum Analytics, una empresa de altmetría, adquirida en 2017. ¿Quiere seguir a los investigadores de su universidad y su trabajo? Está el "sistema de gestión de información de investigación" Pure, adquirido en 2012. ¿Medir el rendimiento de los investigadores? SciVal, escindida de Scopus en 2009, que incorpora el servicio de seguimiento de medios Newsflo, adquirido en 2015.

Elsevier, para reutilizar una frase de ciencias de la computación, es ahora un editor completo. Sus productos abarcan todo el ciclo de vida de la investigación, desde la mesa de laboratorio hasta la puntuación de impacto, e incluso -mediante las herramientas de búsqueda de subvenciones de Pure- de vuelta a la mesa, para empezar de nuevo. Algunos de sus productos son, podríamos decir, servicios con beneficios: Mendeley, por ejemplo, o incluso la plataforma de distribución de revistas ScienceDirect, ofrecen a los clientes la gestión de referencias o el acceso a las revistas y proporcionan datos de comportamiento a Elsevier. Productos como SciVal y Pure, en la cadena de datos, venden los datos procesados a los investigadores y sus empleadores, en forma de "inteligencia de investigación". Incluso el visor de PDF de la empresa, integrado en ScienceDirect y otros productos, extrae información detallada sobre los lectores.  

Es un buen negocio para Elsevier. Facebook, Google y ByteDance tienen que regalar sus servicios de cara al consumidor para atraer a los usuarios que producen datos. Si no pagas por ello, dice el adagio de Silicon Valley, entonces eres el producto. Para Elsevier y sus colegas, nosotros somos el producto y estamos pagando (mucho) por él. De hecho, es probable que los beneficios inesperados de las suscripciones y el APC en el negocio editorial "heredado" de Elsevier hayan financiado su atracción de adquisiciones de una década en el ámbito de la analítica. Como tuiteó recientemente Björn Brembs: "el sobrepago masivo de las editoriales académicas les ha permitido comprar tecnología de vigilancia que cubre todo el flujo de trabajo y que puede ser utilizada no sólo para ser combinada con nuestros datos privados y vendida, sino también para tomar decisiones de empleo algorítmicas (aka. "evidence-led")." Esto es un insulto que se suma a la herida: Nos despluman una vez para volver a desplumarnos, primero en la biblioteca y luego en la oficina de evaluación.

Los productos de predicción de Elsevier clasifican y procesan los datos extraídos de diversas maneras. La empresa promociona lo que denomina Fingerprint® Engine, que aplica técnicas de aprendizaje automático a un océano de textos académicos -resúmenes de artículos, sí, pero también patentes, anuncios de financiación y propuestas-. El modelo, presumiblemente entrenado con ejemplos codificados por humanos (¿palabras clave de artículos designados por los académicos?), asigna palabras clave (por ejemplo, "Resistencia a los medicamentos") a los documentos, junto con lo que equivale a una puntuación ponderada (por ejemplo, 73%). La lista de términos y puntuaciones es, según la empresa, una "huella digital". El motor se utiliza en diversos productos, como Expert Lookup (para encontrar revisores), JournalFinder de la empresa y su software de gestión de la investigación a nivel universitario Pure. En este último caso, son los académicos los que obtienen  


Fingerprinted:

Pure aplica la tecnología semántica y 10 vocabularios de palabras clave específicos de la investigación para analizar las publicaciones y las concesiones de subvenciones de un investigador y transformarlas en una Fingerprint™ única: un índice visual distinto de conceptos y una lista ponderada de términos estructurados.

Las técnicas de aprendizaje automático que utiliza Elsevier coinciden con otras actividades de análisis predictivo de RELX dirigidas a clientes empresariales y jurídicos, como LexisNexis Risk Solutions. Aunque RELX no proporciona cifras de ingresos específicas para sus productos de predicción académica, las declaraciones de la empresa a la SEC en 2020 indican que más de un tercio de los ingresos de Elsevier proceden de las bases de datos y los productos de referencia electrónicos, un negocio, afirma la empresa, en el que "seguimos impulsando un buen crecimiento a través del desarrollo de contenidos y la mejora de la funcionalidad basada en el aprendizaje automático y el procesamiento del lenguaje natural."

Muchos de los rivales de Elsevier también parecen estar entrando en el mercado de la analítica, con una estrategia similar de recolección de datos en toda la pila de investigación. Taylor & Francis, por ejemplo, es una unidad de Informa, un conglomerado con sede en el Reino Unido cuyas raíces se remontan a Lloyd's List, la revista de inteligencia marítima del siglo XVIII. En su informe anual de 2020, la empresa escribió que tiene la intención de "utilizar y analizar más profundamente los datos de primera parte" que se encuentran en Taylor & Francis y otras divisiones, para "desarrollar nuevos servicios basados en datos duros y conocimientos de datos de comportamiento". El año pasado Informa adquirió la Faculty1000, junto con su plataforma de publicación OA F1000Research. Para no quedarse atrás, Wiley compró Hindawi, una gran editorial independiente de OA, junto con su plataforma Phenom. La compra de Hindawi siguió a la adquisición en 2016 por parte de Wiley de Atypon, una empresa de software orientada a los investigadores cuya plataforma en línea, Literatum, Wiley adoptó recientemente en toda su cartera de revistas. "Conoce a tu lector", dice Atypon sobre Literatum. "Construye informes sobre la marcha y obtén una visualización del uso del contenido y del comportamiento del sitio de los usuarios en tiempo real". Springer Nature, por citar un tercer ejemplo, se encuentra bajo el mismo paraguas corporativo de Holtzbrinck como Digital Science, que incuba startups y lanza productos a lo largo del ciclo de vida de la investigación, incluyendo el competidor de Web of Science/Scopus Dimensions, el repositorio de datos figshare, el rastreador de impacto Altmetric, y muchos otros. El mes pasado se produjo una fatídica convergencia: Elsevier anunció un programa piloto para incorporar algunas revistas de Wiley y Taylor & Francis a ScienceDirect de Elsevier. Si el programa piloto conduce a algo duradero, estaremos un paso más cerca de lo que Leslie Chan ha llamado la "plataformización de la infraestructura académica".

Los grandes oligopolios editoriales no son las únicas empresas que buscan beneficiarse del comportamiento de los investigadores. Está, por supuesto, la propia Clarivate, cuya compra de ProQuest, por valor de 5.300 millones de dólares, se cerró a finales de 2021, el mismo día que Wiley anunció su compra de Knowledge Unlatched, una empresa con ánimo de lucro. Las dos redes sociales académicas respaldadas por empresas, Academia y ResearchGate, vuelven a empaquetar la actividad de los investigadores en los sitios a través de los análisis de los usuarios; los observadores han especulado durante años que las empresas construirán productos de análisis basados en sus trozos de datos. ResearchGate ya vende una herramienta de búsqueda de empleo, así como publicidad dirigida ("Mejore sus opciones de orientación con sofisticados anuncios secuenciales"). Las empresas de vigilancia que parasitan otras facetas de la enseñanza superior sin ánimo de lucro -la vida de los estudiantes, por ejemplo, o el aula- también están creciendo. Las empresas de gestión de programas en línea (OPM), un negocio en el que también participa Wiley, están saliendo a bolsa con valoraciones multimillonarias basadas, según los informes, en el valor de sus decenas de millones de perfiles de "alumnos". Lo mismo ocurre con EAB, financiada con fondos de riesgo, que promociona su software de asesoramiento académico basado en datos como el primer "sistema de gestión de estudiantes" a nivel empresarial. Incluso la propia Google podría, en cualquier momento, decidir monetizar su motor de búsqueda Google Scholar, lo que supondría una vuelta, muy adecuada, a sus raíces bibliométricas.

La comunidad académica está empezando a contraatacar. Existe el sitio de petición Stop Tracking Science, con más de mil firmas en el último recuento. SPARC North America, el grupo de defensa del OA, ha lanzado una alarma. La fundación nacional de investigación alemana, Deutsche Forschungsgemeinschaft (DFG), publicó su propio informe-advertencia en octubre: "la industrialización del conocimiento a través del seguimiento", en palabras del informe. Un acuerdo de lectura y publicación para 2020 entre Elsevier y las universidades holandesas provocó una protesta, sobre todo porque la empresa había incluido sus productos de predicción en el acuerdo.

El sociólogo David Murakami Wood ya nos lo advirtió en 2009: Los editores se están convirtiendo, si no en Gran Hermano, al menos en varios pequeños. El coro, en los últimos años, se ha hecho más fuerte, con las alertas de Alejandro Posada, George Chen, Lisa Hinchliffe, Leslie Chan, Richard Poynder, Björn Brembs y -en Elephant in the Lab el pasado abril- Renke Siems. El problema es que la mayoría de los académicos que trabajan no tienen ni idea de que están siendo empaquetados y vendidos en primer lugar. 


EFECTOS DE BUCLE

Desviar el dinero de los contribuyentes, de las matrículas y de las dotaciones para acceder a nuestro propio comportamiento es una indignidad financiera y moral. Que estemos pagando a los vendedores por segunda vez, después de los gastos de suscripción y APC que agotan el presupuesto, es un escándalo. Elsevier obtuvo 1.400 millones de dólares de beneficios el año pasado, con 3.600 millones de dólares de ingresos, un margen de beneficio del 38%. Este lucrativo negocio se basa en el trabajo no remunerado de los académicos, subvencionado por nuestros empleadores universitarios. El producto tipográfico de ese trabajo, en una queja de larga data, se vende de nuevo a nosotros a precios exorbitantes. Ahora Elsevier se queda con la crema del comportamiento y la vende también. En todo caso, los beneficios del primer negocio han financiado la creación del segundo. 

También hay que tener en cuenta el uso previsto de estos productos de vigilancia. Los clientes de muchos de los análisis predictivos vendidos por Elsevier y otros son administradores universitarios y oficinas nacionales de investigación. El objetivo de estos productos es racionalizar las prácticas de valoración y evaluación descendentes que se han impuesto en las últimas décadas, especialmente en el mundo académico anglófono. Algunas de las prácticas, y la mayor parte de la mentalidad, están tomadas del sector empresarial. En mayor o menor medida, el celo por la medición está impulsado por la idea de que el principal objetivo de la universidad es hacer crecer las economías regionales y nacionales. Productos como Pure y SciVal son, o serán, algunas de las herramientas cuantificadas con las que los valores económicos y de ingeniería dan forma a lo que entendemos por educación superior. Como mínimo, sus cuadros de mando se utilizarán para justificar la "priorización de programas" y otras reasignaciones presupuestarias. Como ha observado Ted Porter, la cuantificación es una forma de tomar decisiones sin parecer que se decide.

En este sentido, las "herramientas de decisión" que venden los editores de vigilancia son máquinas de blanquear, abstracciones que borran el contexto de nuestras desordenadas realidades académicas. Es cierto que el artículo de investigación estándar, e incluso sus conjuntos de datos subyacentes, ya están abstraídos. Pero las puntuaciones de productividad de los investigadores de la caja negra, por poner un ejemplo, están a otra distancia de nuestras prácticas de creación de conocimiento. Una de las razones por las que esto es importante es que las puntuaciones e índices algorítmicos pueden camuflar los sesgos que estructuran la vida académica. Pensemos en la dinámica centro-periferia a lo largo de las líneas Norte-Sur y de los nativos de habla inglesa: Las brechas que se pueden rastrear en la historia geopolítica, incluido el legado del colonialismo europeo, pueden quedar aún más enterradas bajo el peso de las métricas patentadas. 

El problema no es meramente de camuflaje. Con toda la autoridad que se le otorga a la medición cuantitativa, hasta la financiación y las decisiones de contratación, la puntuación predictiva podría agravar los prejuicios encubiertos. Como han demostrado varios estudiosos, las métricas y las clasificaciones contribuyen a promulgar el mundo que pretenden simplemente describir. Así, los hablantes nativos de inglés podrían parecer más propensos a producir artículos de impacto, basándose en los datos de citas anteriores utilizados para entrenar un algoritmo predictivo, una medida que podría, a su vez, justificar la concesión de una subvención. Esta dinámica de ventaja acumulativa serviría para ampliar las disparidades existentes, un efecto Matthew a la escala de Scopus.

Los efectos de bucle de la puntuación algorítmica pueden incluir el juego a la medida. Como dice la Ley de Goodhart, cuando una medida se convierte en un objetivo, deja de ser una buena medida. Los académicos, al igual que otros sujetos de la medición clasificada, pueden "optimizar" sus trabajos para atraer al algoritmo. Si las subvenciones, los ascensos y los reconocimientos son consecuencia de ello, este comportamiento reforzará un sistema de recompensas ya medido. Es posible que modifiquemos nuestro trabajo para que sea, en palabras de Tarleton Gillespie, reconocible desde el punto de vista algorítmico, o incluso para vernos a nosotros mismos a través del prisma de los análisis predictivos de Elsevier.

Una versión anterior de este artículo se publicará en el Journal of Electronic Publishing.


********************************

JEFFERSON POOLEY

Surveillance Publishing

25 March 2022 | doi:10.5281/zenodo.6384605 | 

In April 1998, two Stanford graduate students, Sergey Brin and Larry Page, flew across the world to deliver a paper on their nascent search engine, Google. Speaking at the Seventh International World Wide Web conference (WWW 98) in Brisbane, Australia, Brin and Page described how their approach—taking the web’s existing link “graph” as a proxy for quality and relevance—improved on the classified-by-hand indexes of Yahoo!, Lycos, and the like. Six months later, they took their idea commercial, with the pair working out of a nearby garage. Within two years Brin and Page had dispatched their search engine rivals, on the way to building the largest advertising business in the history of capitalism.

Google’s dorm-to-garage origin story is well-known. Less famous is the debt that Brin and Page owed to library science and the field of bibliometrics. As the pair acknowledged in Brisbane, their key idea—to use the web’s link structure as a plebiscite for search relevance—was borrowed from citation analysis. “The citation (link) graph of the Web,” they said, “is an important resource that has largely gone unused in existing search engines.” A given webpage’s “PageRank,” they explained, is a measure of its “citation importance,” which turns out to match, with uncanny consistency, what searchers want to find. Their approach, they continued, is an extension of the “[a]cademic citation literature.” 

 The Google founders had taken the core insight of bibliometrics, a field that emerged in the 1960s to study (among other things) the web of academic citations. As the historian of science Derek de Solla Price put it in a seminal 1965 paper, citations furnish a “total world network of scientific papers.” By the early 1970s, on the strength of computing advances, full-fledged citation analysis was being used to measure journal impacts, scientific productivity, and the structure of academic influence.

Two decades later in Brisbane, Brin and Page positioned Google as the academic antidote to ad-driven search engines. They complained that companies like Yahoo! wouldn’t make their methods public, with the result that search technology remains “largely a black art.” With Google, they said, “we have a strong goal to push more development and understanding into the academic realm.” In a now notorious appendix to their published talk, the two graduate students decried the ad-driven business model of their commercial rivals. “We expect,” Brin and Page wrote, “advertising funded search engines will be inherently biased towards the advertisers and away from the needs of the consumers”—a “particularly insidious bias,” they added, since it’s so hard to detect.

They changed their minds. In the face of the 2001 dot-com meltdown and investor demands, Brin and Page—to borrow the Silicon Valley verb—pivoted. As Shoshana Zuboff has documented, the company went all in with ads: targeted ads, informed by the user data trove the company had laying about. By 2004, the company had gone public, valued at $27 billion. Harnessing its search-and-services-derived user data, Google went on to capture almost 30% of worldwide digital ad revenue. Today the market value of Alphabet, Google’s parent company, hovers around $2 trillion. Built up from academic citation analysis, the company is the defining example of what Zuboff calls “surveillance capitalism.” 

There is another irony. The field of bibliometrics, all the way back to its early-1960s emergence, was already enmeshed in data capitalism. Here again, the story is well-known: Eugene Garfield, a would-be chemist turned science entrepreneur, established his science-indexing business, the Institute for Scientific Information (ISI), in the mid-1950s. In 1964 Garfield’s ISI produced the first Science Citation Index, a database of published papers and their citations. Bibliometrics pioneers such as de Solla Price partnered with Garfield to mine the service’s database—hence de Solla Price’s total world network of scientific papers. Other ISI indexes for the social sciences and for the arts followed in the 1970s, when Garfield’s firm also began publishing its Journal Citation Reports. In 1992, with the World Wide Web in its infancy, Garfield sold ISI to Thomson, the Canadian information giant. The business traded hands again in 2016, in a private equity spinoff called Clarivate. Garfield’s citation index—now called the Web of Science—stood at the center of the $3.5 billion deal.

From the Web of Science back to the web: In fundamental ways Clarivate’s business resembles Alphabet’s. Clarivate, of course, doesn’t feed from the advertising firehouse like Google. But both companies mine behavior for data, which they process into prediction products. In Google’s case, we’re all in on the action, with every search and email; once refined, the data is sold to the company’s customer-advertisers for targeted display. Clarivate’s behavioral data is harvested from a much smaller public—working academics—who, in another difference from Google, are the company’s main customers too. But the core business strategy is the same: extract data from behavior to feed predictive models that, in turn, get refined and sold to customers. In one case it’s search terms and in the other abstracts and citations, but either way the point is to mint money from the by-products of (consumer or scholarly) behavior. In place of Google’s propensity to buy, Clarivate is selling bets on future scholarly productivity and impact, among other academic prediction products.

This article lingers on a prediction too: Clarivate’s business model is coming for scholarly publishing. Google is one peer, but the company’s real competitors are Elsevier, Springer Nature, Wiley, Taylor & Francis, and SAGE. Elsevier, in particular, has been moving into predictive analytics for years now. Of course the publishing giants have long profited off of academics and our university employers—by packaging scholars’ unpaid writing-and-editing labor only to sell it back to us as usuriously priced subscriptions or article processing charges (APCs). That’s a lucrative business that Elsevier and the others won’t give up. But they’re layering another business on top of their legacy publishing operations, in the Clarivate mold. The data trove that publishers are sitting on is, if anything, far richer than the citation graph alone. 

Why worry about surveillance publishing? One reason is the balance sheet, since the companies’ trading in academic futures will further pad profits at the expense of taxpayers and students. The bigger reason is that our behavior—once alienated from us and abstracted into predictive metrics—will double back onto our work lives. Existing biases, like male academics’ propensity for self-citation, will receive a fresh coat of algorithmic legitimacy. More broadly, the academic reward system is already distorted by metrics. To the extent that publishers’ tallies and indices get folded into grant-making, tenure-and-promotion, and other evaluative decisions, the metric tide will gain power. The biggest risk is that scholars will internalize an analytics mindset, one already encouraged by citation counts and impact factors.

SURVEILLANCE AS A SERVICE

Useful as it is, Shoshanna Zuboff’s notion of “surveillance capitalism” is too tightly drawn around a relatively small pocket of the economy, digital advertising. That same narrowed aperture led Zuboff, in The Age of Surveillance Capitalism, to over-emphasize the novelty of the behavioral futures business she attributes to Google. The insurance and credit-rating industries, to mention two, have hitched data to predictive profit for well over a hundred years. As we have seen, Garfield’s ISI was in the data business before Larry Page and Sergey Brin were born.

To get at the publishers’ kinship with Google or, for that matter, the Hartford, we need a broader descriptor. The legal scholars Mariano-Florentino Cuéllar and Aziz Huq have proposed a pluralized alternative, “surveillance economies,” to refer to the range of business models that seek to monetize behavioral data. “As more industries find ways to incorporate behavioral surpluses into their business models,” they write, “the share of the economy that falls under this term will increase, perhaps dramatically.” Cuéllar and Huq foreground the pluralism: The specific contours of any given surveillance economy will vary, based on sector-specific norms and regulations. There is, in other words, no need to take the analogy to Google too far. Data businesses based on academics’ citations and downloads are unlikely to emulate Google’s ad-driven model. The big publishers, along with Clarivate and other potential players, are more likely to piggyback on their existing subscription strategy, with data products licensed to university and other research clients. Either way, they’ll be lapping up the behavioral surplus that scholars produce. As CUNY law professor Sarah Lamdan put it in a recent talk, “your journals are spying on you.” 

The publishers are in an enviable position, since researchers generate data with every article engagement or peer review report. Some of that data gets folded into the publishers’ core products, by way of download counts and article recommendations. But we have every reason to believe, based on existing data products alone, that publishers are skimming scholars’ behavioral residue on the prospect of monetization to come. In an important recent paper, STS scholar Jathan Sadowski took issue with the commonplace that data is the “new oil.” On the commodity view that he challenges, data is raw material for other products, easy to exchange for cash. Data is often a commodity like this, Sadowski concedes; the sprawling data brokerage industry is an illustration in point. But it’s also useful to think about data as capital, in the specific sense of “capital” developed by the late French sociologist Pierre Bourdieu. Data capital resembles in form something like Bourdieu’s cultural capital: Though a learned appreciation for abstract art can, in certain conditions, lead to a lucrative job, the value of that cultural capital isn’t merely, or even mainly, monetary. Data capital, likewise, can be converted into dollars in some contexts. But its value to owners may lie elsewhere. Firms may use data to guide strategy, refine workflows, or train models, among other things. Like social or cultural capital, there is a prospective quality to data accumulation—an incentive to hoard on the expectation of future value.

Scholarly publishing is its own, emerging surveillance economy. We can call a company a surveillance publisher if it derives a substantial proportion of its revenue from prediction products, fueled by data extracted from researcher behavior. On that definition, we already have surveillance publishers in our midst. 

 

THE FULL-STACK PUBLISHER

Consider Elsevier. The Dutch publishing house was founded in the late nineteenth century, but it wasn’t until the 1970s that the firm began to launch and acquire journal titles at a frenzied pace. Elsevier’s model was Pergamon, the postwar science publishing venture established by the brash Czech-born Robert Maxwell. By 1965, around the time that Garfield’s Science Citation Index first appeared, Pergamon was publishing 150 journals. Elsevier followed Maxwell’s lead, growing at a rate of 35 titles a year by the late 1970s. Both firms hiked their subscription prices aggressively, making huge profits off the prestige signaling of Garfield’s Journal Impact Factor. Maxwell sold Pergamon to Elsevier in 1991, months before his lurid death.

Elsevier was just getting started. The firm acquired The Lancet the same year, when the company piloted what would become ScienceDirect, its Web-based journal delivery platform. In 1993 the Dutch publisher merged with Reed International, a UK paper-maker turned media conglomerate. In 2015, the firm changed its name to RELX Group, after two decades of acquisitions, divestitures, and product launches—including Scopus in 2004, Elsevier’s answer to ISI’s Web of Science. The “shorter, more modern name,” RELX explained, is a nod to the company’s “transformation” from publisher to a “technology, content and analytics driven business.” RELX’s strategy? The “organic development of increasingly sophisticated information-based analytics and decisions tools.” Elsevier, in other words, was to become a surveillance publisher.

Since then, by acquisition and product launch, Elsevier has moved to make good on its self-description. By moving up and down the research lifecycle, the company has positioned itself to harvest behavioral surplus at every stage. Tracking lab results? Elsevier has Hivebench, acquired in 2016. Citation and data-sharing software? Mendeley, purchased in 2013. Posting your working paper or preprint? SSRN and bepress, 2016 and 2017, respectively. 

Elsevier’s “solutions” for the post-publication phase of the scholarly workflow are anchored by Scopus and its 81 million records. Curious about impact? Plum Analytics, an altmetrics company, acquired in 2017. Want to track your university’s researchers and their work? There’s the Pure “research information management system,” acquired in 2012. Measure researcher performance? SciVal, spun off from Scopus in 2009, which incorporates the media monitoring service Newsflo, acquired in 2015.

Elsevier, to repurpose a computer science phrase, is now a full-stack publisher. Its products span the research lifecycle, from the lab bench through to impact scoring, and even—by way of Pure’s grant-searching tools—back to the bench, to begin anew. Some of its products are, you might say, services with benefits: Mendeley, for example, or even the ScienceDirect journal-delivery platform, provide reference management or journal access for customers and give off behavioral data to Elsevier. Products like SciVal and Pure, up the data chain, sell the processed data back to researchers and their employers, in the form of “research intelligence.” Even the company’s PDF viewer, built into ScienceDirect and other products, is extracting granular details about readers. 

It’s a good business for Elsevier. Facebook, Google, and ByteDance have to give away their consumer-facing services to attract data-producing users. If you’re not paying for it, the Silicon Valley adage has it, then you’re the product. For Elsevier and its peers, we’re the product and we’re paying (a lot) for it. Indeed, it’s likely that windfall subscription-and-APC profits in Elsevier’s “legacy” publishing business have financed its decade-long acquisition binge in analytics. As Björn Brembs recently Tweeted: “massive over-payment of academic publishers has enabled them to buy surveillance technology covering the entire workflow that can be used not only to be combined with our private data and sold, but also to make algorithmic (aka. ‘evidence-led’) employment decisions.” This is insult piled on injury: Fleece us once only to fleece us all over again, first in the library and then in the assessment office.

Elsevier’s prediction products sort and process mined data in a variety of ways. The company touts what it calls its Fingerprint® Engine, which applies machine learning techniques to an ocean’s worth of scholarly texts—article abstracts, yes, but also patents, funding announcements, and proposals. Presumably trained on human-coded examples (scholar-designated article keywords?), the model assigns keywords (e.g., “Drug Resistance”) to documents, together with what amounts to a weighted score (e.g., 73%). The list of terms and scores is, the company says, a “Fingerprint.” The Engine is used in a variety of products, including Expert Lookup (to find reviewers), the company’s JournalFinder, and its Pure university-level research-management software. In the latter case, it’s scholars who get here**

 

Fingerprinted:

Pure applies semantic technology and 10 different research-specific keyword vocabularies to analyze a researcher’s publications and grant awards and transform them into a unique Fingerprint™—a distinct visual index of concepts and a weighted list of structured terms.

 

The machine learning techniques that Elsevier is using are of a piece with RELX’s other predictive analytics businesses aimed at corporate and legal customers, including LexisNexis Risk Solutions. Though RELX doesn’t provide specific revenue figures for its academic prediction products, the company’s 2020 SEC disclosures indicate that over a third of Elsevier’s revenue come from databases and electronic reference products—a business, the company states, in which “we continued to drive good growth through content development and enhanced machine learning and natural language processing based functionality.”

Many of Elsevier’s rivals appear to be rushing into the analytics market, too, with a similar full research-stack data harvesting strategy. Taylor & Francis, for example, is a unit of Informa, a UK-based conglomerate whose roots can be traced to Lloyd’s List, the eighteenth-century maritime-intelligence journal. In its 2020 annual report, the company wrote that it intends to “more deeply use and analyze the first party data” sitting in Taylor & Francis and other divisions, to “develop new services based on hard data and behavioral data insights.” Last year Informa acquired the Faculty of 1000, together with its OA F1000Research publishing platform. Not to be outdone, Wiley bought Hindawi, a large independent OA publisher, along with its Phenom platform. The Hindawi purchase followed Wiley’s 2016 acquisition of Atypon, a researcher-facing software firm whose online platform, Literatum, Wiley recently adopted across its journal portfolio. “Know thy reader,” Atypon writes of Literatum. “Construct reports on the fly and get visualization of content usage and users’ site behavior in real time.” Springer Nature, to cite a third example, sits under the same Holtzbrinck corporate umbrella as Digital Science, which incubates startups and launches products across the research lifecycle, including the Web of Science/Scopus competitor Dimensions, data repository figshare, impact tracker Altmetric, and many others. There was, last month, a fateful convergence: Elsevier announced a pilot program to incorporate some Wiley and Taylor & Francis journals into Elsevier’s ScienceDirect. If the pilot leads to something lasting, we’ll be one step closer to what Leslie Chan has called the “platformization of scholarly infrastructure.” 

The big publishing oligopolists aren’t the only firms looking to profit from researcher behavior. There is, of course, Clarivate itself, whose $5.3 billion purchase of ProQuest closed in late 2021, the same day that Wiley announced its purchase of stealth for-profit Knowledge Unlatched. The two venture-backed academic social networks, Academia and ResearchGate, re-package researchers’ activity on the sites via user analytics; observers have speculated for years that the companies will build analytics products based on their data troves. ResearchGate is already selling a jobs-search tool as well as targeted advertising (“Upgrade your targeting options with sophisticated Sequential Ads”). Surveillance businesses parasitic on other facets of nonprofit higher ed—student life, for example, or the classroom—are growing too. Online program management (OPMs) firms, a business Wiley is in too, are going public with multi-billion dollar valuations predicated, according to reports, on the value of their tens of millions of “learner” profiles. Likewise with venture-funded EAB, which touts its data-driven academic advising software as the first enterprise-level “student management system.” Even Google itself could, at any moment, decide to monetize its Google Scholar search engine—in what would be a return, a fitting one, to its bibliometrics roots.

The scholarly community is beginning to fight back. There is the Stop Tracking Science petition site, with over a thousand signatures at last count. SPARC North America, the OA advocacy group, has issued an alarm. The German national research foundation, Deutsche Forschungsgemeinschaft (DFG), released its own report-cum-warning in October—“industrialization of knowledge through tracking,” in the report’s words. A 2020 read-and-publish agreement between Elsevier and Dutch universities sparked an outcry, largely because the company had baked its prediction products into the deal. here**

Sociologist David Murakami Wood warned us all the way back in 2009: Publishers are becoming, if not Big Brother, then at least several little ones. The chorus, in the last several years, has grown louder, with alerts sounded by Alejandro Posada, George Chen, Lisa Hinchliffe, Leslie Chan, Richard Poynder, Björn Brembs, and—in Elephant in the Lab last April—Renke Siems. The problem is that most working academics have no idea they’re being packaged and sold in the first place.

LOOPING EFFECTS

Siphoning taxpayer, tuition, and endowment dollars to access our own behavior is a financial and moral indignity. That we are paying the sellers a second time, after budget-draining subscription and APC outlays, is a scandal. Elsevier made $1.4 billion in profit last year, on $3.6 billion in revenue—a profit margin of 38%. That lucrative business is built on scholars’ unpaid labor, as subsidized by our university-employers. The typeset product of that labor, in a longstanding complaint, is sold back to us at extortionate prices. Now Elsevier is skimming the behavioral cream, and selling that too. If anything, profits from the first business have financed the build-up of the second. 

Consider, too, the intended use of these surveillance products. The customers for many of the predictive analytics sold by Elsevier and others are university administrators and national research offices. The products’ purpose is to streamline the top-down assessment and evaluation practices that have taken hold in recent decades, especially across the Anglophone academy. Some of the practices, and most of the mindset, are borrowed from the business sector. To varying extent, the zeal for measurement is driven by the idea that the university’s main purpose is to grow regional and national economies. Products like Pure and SciVal are, or will be, among the quantified tools by which economic and engineering values shape what we mean by higher education. At the very least, their dashboard tabulations will be deployed to justify “program prioritization” and other budgetary re-allocations. As Ted Porter has observed, quantification is a way of making decisions without seeming to decide.

In that sense, the “decision tools” peddled by surveillance publishers are laundering machines—context-erasing abstractions of our messy academic realities. It’s true that the standard research article, and even its underlying datasets, are already abstracted. But black box researcher productivity scores, to take one example, are at another remove from our knowledge-making practices. One reason this matters is that algorithmic scores and indices can camouflage the biases that structure academic life. Consider center-periphery dynamics along North-South and native-English-speaking lines: Gaps traceable to geopolitical history, including the legacy of European colonialism, may be buried still deeper under the weight of proprietary metrics. here**

The problem isn’t merely camouflage. With all the authority granted quantitative measure, up to and including funding and hiring decisions, predictive scoring might make smuggled-in biases worse. As a number of scholars have shown, metrics and rankings help enact the world that they purport to merely describe. Thus native English speakers might appear more likely to produce impactful papers, based on past citation data used to train a predictive algorithm—a measure that could, in turn, justify a grant award. Such dynamics of cumulative advantage would serve to widen existing disparities—a Matthew effect on the scale of Scopus.

The looping effects of algorithmic scoring may include playing to the measure. As Goodhart’s Law has it, when a measure becomes a target, it ceases to be a good measure. Scholars, like other subjects of ranked measurement, may “optimize” their papers to appeal to the algorithm. If grants, promotion, and recognition follow, such behavior will reinforce an already metricized reward system. We may tweak our work to be, in Tarleton Gillespie’s phrase, algorithmically recognizable—or even to see ourselves through the prism of Elsevier’s predictive analytics.

An earlier version of this article will be published in the Journal of Electronic Publishing.

—---------

No hay comentarios:

Publicar un comentario

Una herramienta de Google permite detectar fácilmente la escritura generada por IA

Publicado en blog  Universo abierto https://universoabierto.org/2024/10/25/una-herramienta-de-google-permite-detectar-facilmente-la-escritur...