Esfuerzos recientes para dilucidar la validez científica de las pruebas de medicamentos con animales por parte de la industria farmacéutica, los grupos de presión a favor de las pruebas y las organizaciones de bienestar animal
Respuestas a nuestros análisis de las pruebas de medicamentos/toxicología con animales, y la continua defensa de los ensayos de medicamentos con animales
Tras la publicación de cada uno de nuestros tres documentos complementarios en 2013, 2014 y 2015, escribimos a docenas de representantes de empresas farmacéuticas, reguladores y otras partes interesadas, solicitando comentarios, con la esperanza de aprovechar nuestro trabajo y abrir algún diálogo sobre esta importante cuestión, con implicaciones éticas para los animales utilizados, así como para los usuarios humanos de productos farmacéuticos. Lamentablemente, las respuestas recibidas fueron escasas, y casi todas ellas fueron formulistas y educadas, pero no comprometidas. La Asociación de la Industria Farmacéutica Británica (ABPI) expresó algunas preocupaciones sobre varios atributos del conjunto de datos que utilizamos, pero nuestra respuesta sustancial y publicada constituyó una refutación completa. Tal vez con retraso, el National Centre for the 3Rs (NC3Rs) del Reino Unido -a pesar de su postura inicialmente despectiva- anunció en el verano de 2016 su propio proyecto de colaboración con la ABPI, para analizar los datos de la industria. Su esperado informe se esperaba para finales de 2018, pero todavía no se ha anunciado en el momento de escribir este artículo.
Mientras tanto, algunos defensores de las pruebas de medicamentos en animales han seguido argumentando que estas pruebas tienen utilidad, citando algunos de los pocos informes anteriores que sugieren que este podría ser el caso. Esto debe ser abordado, porque esta conclusión no está respaldada por esos informes. Uno de estos informes, como ya hemos comentado en nuestro trabajo, no estimó la especificidad, sin la cual no se puede calcular el peso probatorio hacia la probabilidad de toxicidad/no toxicidad en humanos que proporcionan los modelos animales, que es precisamente lo que necesitamos saber. Como reconocen los propios autores del estudio citado, «una evaluación más completa de este aspecto de la predictibilidad será una parte importante de un futuro estudio prospectivo.» Otro de los informes citados mostró que la predictibilidad en humanos para algunas áreas terapéuticas era superior al 90%, pero también mostró muchas otras áreas en las que los resultados de los estudios en animales no se correlacionaban significativamente con las observaciones en humanos, que se pasaron por alto. Es importante destacar que este análisis también utilizó los cocientes de probabilidad (LR), y el autor argumentó por qué esto es superior y necesario, al igual que hicimos nosotros en nuestros propios artículos. Nuestra justificación para utilizar los LR -en el inicio de nuestros análisis, antes de que se analizara ningún dato, y en común con el estudio antes mencionado- fue, simplemente, porque los LR son mucho más apropiados e inclusivos, incorporando la sensibilidad y la especificidad, ambas necesarias para derivar el verdadero valor de los resultados de cualquier prueba, y que son superiores a los Valores Predictivos (PV), porque no dependen de la prevalencia de los efectos adversos. Hemos discutido esto en detalle en nuestros documentos, y otros han apoyado específicamente este enfoque.
Otros análisis publicados recientemente sobre datos de toxicología de medicamentos
Dos estudios similares al nuestro han sido publicados en el último año. Dado nuestro interés en esto, y dada la importancia ética y científica de la cuestión, deseamos añadir a la discusión y el debate, destacando las áreas con las que estamos de acuerdo y que acogemos con satisfacción, pero también algunos problemas que tenemos con esos trabajos y sus conclusiones.
Monticello et al.
Un estudio que no se limita a los PV, pero que se basa en ellos, fue publicado muy recientemente por Monticello et al. en noviembre de 2017 . Si bien acogemos y apreciamos los intentos de los autores para dilucidar esta cuestión controvertida y opaca, creemos que su conclusión de que, «Estos resultados apoyan el paradigma regulatorio actual de la experimentación con animales en el apoyo a la entrada segura en los ensayos clínicos y proporcionan un contexto para los modelos alternativos emergentes», debe ser abordada.
En nuestra opinión, hay varias advertencias importantes. Quizás la más destacada es que, aunque los autores informan tanto de los PV como de los LR, se centran casi exclusivamente en el Valor Predictivo Negativo (VPN) para apoyar su conclusión. Esto es desconcertante, dada la naturaleza de estas métricas estadísticas y sus cualidades y deficiencias asociadas, y especialmente, dado que los autores discuten específicamente algunas de ellas antes de pasarlas por alto en última instancia. Por ejemplo, aunque admiten que los LR «no están influenciados por la prevalencia clínica positiva» (razón por la que, según afirman algunos, pueden ser superiores), esto no impide que los autores sigan concentrándose en los PV, que sí están influenciados por la prevalencia de la toxicidad.
Nosotros, en nuestros análisis, argumentamos, con cierto detalle, por qué los LR deberían utilizarse con preferencia a los PV , como se ha mencionado anteriormente. En la literatura existe un amplio apoyo para ello. En resumen, los expertos afirman que las RL son la «elección óptima», son «más informativas que las VP» y son «el indicador más potente de la utilidad diagnóstica», ya que incorporan la sensibilidad y la especificidad y son independientes de la prevalencia, que debe tenerse en cuenta para estimar el valor de una prueba (véase ).
El énfasis de Monticello et al.se acepta que el énfasis de Mónticello et al. en un VAN alto se basa «…en gran medida en la baja prevalencia clínica positiva observada en nuestra base de datos y en la literatura, que puede atribuirse al hecho de que los compuestos que entran en el desarrollo clínico normalmente han superado muchos obstáculos de seguridad a través de extensas actividades de cribado de optimización de pistas in silico, in vitro e in vivo». Sin embargo, parece que los autores pasan por alto la contribución de estas actividades de cribado, cuando concluyen que no son ellas, sino la falta de toxicidad en los ensayos con animales, lo que predice la falta de toxicidad en la clínica, hasta el punto de apoyar el paradigma actual centrado en los ensayos con animales. Lo que también pone en tela de juicio su conclusión -incluso adoptando la postura de los autores y dejando de lado los LR para concentrarse en los PV- es que sus PV positivos (PPV) calculados eran relativamente bajos (una media comunicada de sólo el 36%, incluso cuando se excluía la categoría de «otros» órganos de baja puntuación); los autores optaron por comunicar que había dos valores impresionantes de los 36 comunicados, para primates no humanos (NHP), en las categorías de sistema nervioso y gastrointestinal. Debemos cuestionar cómo esto puede «apoyar el actual paradigma regulador de los ensayos con animales». Se supone que los ensayos con animales no sólo existen para «apoyar la entrada segura en los ensayos clínicos» mediante la predicción de qué fármacos podrían no ser tóxicos para los seres humanos, sino que también se supone que sirven como un medio eficaz para detectar qué fármacos podrían ser perjudiciales.
Cuando se examinan los LR en el análisis de Monticello et al. en lugar de los PV (véase nuestro argumento anterior), surge una imagen más clara. Los LRs negativos inversos (iNLRs) reportados son muy bajos de hecho -a veces menos de 1,0, y a menudo apenas mayores que la unidad- lo que sugiere que las pruebas en animales no están proporcionando ningún peso probatorio a la probabilidad de que un medicamento no muestre toxicidad en los seres humanos. Este es precisamente el hallazgo más importante que hemos reportado en nuestros artículos, y que apuntala nuestro argumento de que las pruebas con animales no son adecuadas para su propósito. Informan de un iNLR medio de sólo 1,5-1,6, y un LR positivo (PLR) medio de 2,9. Se trata de valores de LR bajos, que indican que los ensayos con animales aportan muy poco peso probatorio a la probabilidad de toxicidad/ausencia de toxicidad en humanos. También informan de iNLRs igualmente pobres para roedores, perros y monos, como hemos encontrado. En resumen, en muchos aspectos, en realidad repiten y refuerzan nuestros hallazgos, de acuerdo con su declaración en la sección 2.7 de sus Métodos, que, «Como regla general, una prueba se considera ‘diagnóstica’ para predecir un resultado positivo cuando el LR+ es >10 o para predecir un resultado negativo cuando el iLR- es > 10». De sus 36 resultados posibles, sólo dos PLRs/LR+ cumplían la definición de «diagnóstico» reconocida por los autores de un valor de > = 10, y ninguno de los iNLRs/iLR- lo hacía. De hecho, 30 de los valores de iLR- eran < =2, y la mayoría de ellos se situaban en la unidad o en torno a ella; es decir, no aportaban ningún peso probatorio. En otras palabras, según la definición y los criterios que citan, las pruebas con animales, basadas en sus datos y su análisis, no pueden considerarse diagnósticas/predictivas.
Apreciamos que los autores reconozcan algunos puntos importantes sobre esta área de la ciencia en general, así como algunas limitaciones de su estudio. Al igual que hicimos en nuestro propio trabajo, informan de esfuerzos «limitados» para analizar el valor de las pruebas con animales en el pasado, y aceptan que se basan en la «precedencia histórica» y en una suposición de valor. Con respecto a su análisis, aceptan que sus datos incluían sólo 182 fármacos (en comparación con nuestros > 3200, por ejemplo); sólo observaron la concordancia entre las pruebas con animales y la fase I, y no incluyeron los ensayos clínicos de la fase posterior, en los que fallarán más fármacos. Su estudio también utilizó pocas y amplias categorías para las reacciones adversas a los medicamentos (ADRs), lo que favorece su hipótesis en comparación con más, y más estrictas, clasificaciones; y combinaron ratones y ratas como «una especie efectiva», a pesar de que los ratones y las ratas a menudo muestran diferencias significativas en la toxicidad . Por último, no informaron de ningún conflicto de intereses, pero agradecieron a casi 20 empresas biofarmacéuticas en sus agradecimientos, y tienen afiliaciones con nueve empresas. Aunque no sugerimos ninguna incorrección, algunos podrían argumentar que podrían tener un interés en justificar el uso histórico y actual de los animales en las pruebas de medicamentos por parte de su industria y de las empresas.
Clark y Steger-Hartmann
Se trataba de un análisis de más de 3000 fármacos, basado en los datos de la completa base de datos PharmaPendium de Elsevier . Los autores adoptaron un enfoque similar al nuestro, utilizando LRs para determinar el poder de diagnóstico de las pruebas en animales para informar sobre la toxicidad en humanos, además de concluir que su estudio confirmaba nuestro propio hallazgo destacado: «…se encontró que la falta de estos eventos en los estudios no clínicos no era un buen predictor de la seguridad en los seres humanos, confirmando así en parte los hallazgos de Bailey et al. (2014). «
La confirmación de nuestro hallazgo destacado es de suma importancia por dos razones. En primer lugar, aunque no buscamos ninguna validación de nuestro propio enfoque y publicaciones, sino que siempre hemos tenido la máxima confianza en ellos, algunas partes interesadas con opiniones opuestas sobre el valor de las pruebas de medicamentos basadas en animales se empeñaron en denigrar nuestro trabajo. En segundo lugar, no importa lo bien que cualquier prueba en animales pueda predecir la toxicidad en humanos (hipotéticamente), es la ausencia de toxicidad en animales el factor crítico para la progresión de un nuevo fármaco hacia los ensayos clínicos (en humanos). Como seguimos argumentando, si los ensayos con animales fallan en este aspecto crucial -como parece ser el caso-, esto no sólo significa que dichos ensayos no son adecuados para su propósito general (identificar fármacos humanos seguros y eficaces), sino que esto debe tener repercusiones para la industria farmacéutica y sus reguladores, y para la forma en que abordan los ensayos de fármacos en general.
Este documento también confirmó nuestro otro hallazgo principal, que sugería que las reacciones adversas en los ensayos con animales son, de hecho, también probables en los seres humanos (aunque, lo que es importante, a menudo no de una manera similar). Sin embargo, hemos interpretado las consecuencias de este aspecto de forma diferente. Tanto los autores de este artículo como nosotros mismos hemos considerado que este aspecto es muy variable, sin un patrón claro en cuanto a los tipos de efectos tóxicos o los tipos de fármacos. Por lo tanto, concluimos que no puede considerarse especialmente relevante o fiable. Clark y Steger-Hartmann, sin embargo, proporcionaron algunos ejemplos en los que los animales sí predecían la toxicidad en humanos, pero no mostraron, ni sopesaron, las áreas en las que este aspecto predictivo era menor, inexistente o negativo. De hecho, algunos de los ejemplos que proporcionaron apenas superaban el umbral estadístico que ellos mismos habían establecido. En consecuencia, creemos que aunque tanto sus datos como los nuestros apoyan su conclusión de que «se confirma que la traslación animal-humana de muchas observaciones clave es predictiva», no apoyan su conclusión de que su estudio «…confirmó la predictividad general de las observaciones de seguridad animal para los humanos». A esto se suman observaciones muy poco predictivas que sólo pueden considerarse graves, como la muerte, las convulsiones, los trastornos del movimiento y los trastornos hepáticos.