Efforts récents pour élucider la validité scientifique des tests de médicaments sur les animaux par l’industrie pharmaceutique, les groupes de pression pro-tests et les organisations de protection des animaux
Réponses à nos analyses des tests de médicaments/toxicologie sur les animaux, et défense continue des tests de médicaments sur les animaux
Après la publication de chacun de nos trois articles complémentaires en 2013, 2014 et 2015, nous avons écrit à des dizaines de représentants de sociétés pharmaceutiques, de régulateurs et d’autres parties prenantes, leur demandant un retour d’information, espérant ainsi construire sur notre travail et ouvrir un certain dialogue sur cette question importante, avec des implications éthiques pour les animaux utilisés, ainsi que pour les utilisateurs humains de produits pharmaceutiques. Malheureusement, nous n’avons reçu que peu de réponses, et presque toutes étaient formulées et polies, mais pas engageantes. L’Association de l’industrie pharmaceutique britannique (ABPI) a fait part de certaines inquiétudes concernant divers attributs de l’ensemble de données que nous avons utilisé, mais notre réponse substantielle et publiée a constitué une réfutation complète. Peut-être tardivement, le National Centre for the 3Rs (NC3Rs) du Royaume-Uni – malgré sa position initialement dédaigneuse – a annoncé à l’été 2016 son propre projet de collaboration avec l’ABPI, pour analyser les données de l’industrie Nous nous en félicitons naturellement, à condition, bien sûr, que cela soit fait de manière transparente et objective, et de préférence avec une supervision indépendante. Son rapport tant attendu était attendu fin 2018, mais n’a toujours pas été annoncé au moment de la rédaction de cet article.
En attendant, certains défenseurs des tests de médicaments sur les animaux ont continué à soutenir que ces tests ont une utilité, en citant certains des rares rapports antérieurs suggérant que cela pourrait être le cas. Ce point doit être abordé, car cette conclusion n’est pas soutenue par ces articles. L’un de ces rapports, comme nous l’avons déjà mentionné dans notre travail, n’a pas estimé la spécificité, sans laquelle le poids de la preuve de la probabilité de toxicité/non-toxicité pour l’homme fournie par les modèles animaux – qui est précisément ce que nous devons savoir – ne peut être calculé. Comme les auteurs de l’étude citée l’ont eux-mêmes reconnu, « une évaluation plus complète de cet aspect de prédictivité constituera une partie importante d’une future enquête prospective. » Un autre rapport cité de ce type a montré que la prédictibilité humaine pour certains domaines thérapeutiques était supérieure à 90 % – mais il a également montré de nombreux autres domaines dans lesquels les résultats des études animales ne présentaient pas de corrélation significative avec les observations humaines, qui ont été négligées. Il est important de noter que cette analyse a également utilisé les rapports de vraisemblance (LR), et l’auteur a expliqué pourquoi cette méthode était supérieure et nécessaire, tout comme nous l’avons fait dans nos propres articles. La raison pour laquelle nous avons utilisé les RL – dès le début de nos analyses, avant que les données ne soient analysées, et à l’instar de l’étude susmentionnée – était simplement que les RL sont beaucoup plus appropriés et inclusifs, intégrant la sensibilité et la spécificité, toutes deux nécessaires pour dériver la véritable valeur des résultats de tout test, et qu’ils sont supérieurs aux valeurs prédictives (VP), car ils ne dépendent pas de la prévalence des effets indésirables. Nous en avons discuté en détail dans nos articles, et d’autres ont spécifiquement soutenu cette approche .
Autres analyses de données toxicologiques de médicaments publiées récemment
Deux études similaires à la nôtre ont été publiées l’année dernière. Compte tenu de l’intérêt que nous y portons, et de l’importance éthique et scientifique de la question, nous souhaitons ajouter à la discussion et au débat, en soulignant les domaines avec lesquels nous sommes d’accord et que nous saluons, mais aussi certains problèmes que nous avons avec ces articles et leurs conclusions.
Monticello et al.
Une étude qui ne se limite pas aux PV, mais qui s’appuie sur eux, a été très récemment publiée par Monticello et al. en novembre 2017 . Bien que nous accueillions et appréciions les tentatives des auteurs d’élucider cette question controversée et opaque, nous pensons que leur conclusion selon laquelle « Ces résultats soutiennent le paradigme réglementaire actuel de l’expérimentation animale pour soutenir l’entrée sûre dans les essais cliniques et fournissent un contexte pour les modèles alternatifs émergents », doit être abordée.
À notre avis, il y a plusieurs mises en garde importantes. La plus saillante est peut-être que – bien que les auteurs rapportent à la fois les PV et les LR – ils se concentrent presque exclusivement sur la valeur prédictive négative (NPV) pour soutenir leur conclusion. Cela laisse perplexe, étant donné la nature de ces mesures statistiques et leurs qualités et défauts associés, et d’autant plus que les auteurs discutent spécifiquement de certains d’entre eux avant de les négliger. Par exemple, même s’ils admettent que les RL » ne sont pas influencés par la prévalence positive clinique » (ce qui explique, selon certains, leur supériorité), cela n’empêche pas les auteurs de se concentrer ensuite sur les PV, qui sont influencés par la prévalence de la toxicité.
Nous avons, dans nos analyses, argumenté, de manière assez détaillée, pourquoi les RL devraient être utilisés de préférence aux PV , comme mentionné ci-dessus. Il existe un soutien abondant à cet égard dans la littérature. En bref, les experts affirment que les RL constituent le « choix optimal », sont « plus informatifs que les PV » et sont « l’indicateur le plus puissant de l’utilité diagnostique », car ils intègrent la sensibilité et la spécificité et sont indépendants de la prévalence, qui doit être prise en compte pour estimer la valeur d’un test (voir ).
Monticello et al.L’accent mis par les auteurs sur une VPN élevée est accepté comme étant « …largement basé sur la faible prévalence clinique positive observée dans notre base de données et dans la littérature, qui peut être attribuée au fait que les composés entrant dans le développement clinique ont généralement franchi de nombreux obstacles de sécurité via des activités de criblage d’optimisation des pistes in silico, in vitro et in vivo. » Pourtant, il semble que les auteurs négligent la contribution de ces activités de criblage, lorsqu’ils concluent que ce ne sont pas elles, mais l’absence de toxicité dans les tests sur les animaux, qui prédisent une absence de toxicité sur le plan clinique, au point de soutenir le paradigme actuel centré sur les tests sur les animaux. Ce qui remet également en question leur conclusion – même en adoptant la position des auteurs et en évitant les LR pour se concentrer sur les PV – c’est que leurs PV positifs (PPV) calculés étaient relativement faibles (une moyenne rapportée de seulement 36 %, même lorsque la catégorie d’organes » autres » à faible score était exclue) ; les auteurs ont choisi de rapporter qu’il y avait deux valeurs impressionnantes sur les 36 rapportées, pour les primates non humains (PNH), dans les catégories système nerveux et gastro-intestinal. Nous devons nous demander comment cela peut « soutenir le paradigme réglementaire actuel de l’expérimentation animale ». Les tests sur les animaux ne sont pas seulement censés exister pour « soutenir une entrée sûre dans les essais cliniques » en prédisant quels médicaments pourraient ne pas être toxiques pour les humains – ils sont également censés servir de moyen efficace pour détecter quels médicaments pourraient être nocifs.
Lorsqu’on examine les LR dans l’analyse de Monticello et al. au lieu des PV (voir notre argument ci-dessus), une image plus claire émerge. Les LR négatifs inverses (iNLR) rapportés sont en effet très faibles – parfois inférieurs à 1,0, et souvent à peine supérieurs à l’unité – ce qui suggère que les tests sur les animaux n’apportent aucun poids probant à la probabilité qu’un médicament ne présente aucune toxicité chez l’homme. C’est précisément la principale constatation que nous avons faite dans nos articles, et qui sous-tend notre argument selon lequel les tests sur les animaux ne sont pas adaptés à leur objectif. Ils rapportent un iNLR moyen de seulement 1,5-1,6, et un LR positif (PLR) moyen de 2,9. Il s’agit de faibles valeurs de LR, qui indiquent que les tests sur les animaux n’apportent qu’une très faible valeur probante à la probabilité de toxicité/absence de toxicité pour l’homme. Ils rapportent également des RIN aussi faibles pour les rongeurs, les chiens et les singes, comme nous l’avons constaté. En bref, à bien des égards, ils répètent et renforcent nos conclusions, conformément à leur déclaration dans la section 2.7 de leurs Méthodes, selon laquelle « En règle générale, un test est considéré comme « diagnostique » pour prédire un résultat positif lorsque le LR+ est >10 ou pour prédire un résultat négatif lorsque le iLR- est > 10″. Sur leurs 36 résultats possibles, seuls deux DPP/LR+ répondaient à la définition » diagnostique » reconnue par les auteurs d’une valeur > = 10, et aucun des iNLR/iLR- ne le faisait. En fait, 30 des valeurs iLR- étaient < =2, la plupart d’entre elles se situant dans ou autour de l’unité ; c’est-à-dire qu’elles n’ont fourni aucun poids probant. En d’autres termes, selon la définition et les critères qu’ils citent, les tests sur les animaux, sur la base de leurs données et de leur analyse, ne peuvent pas être considérés comme des diagnostics/prédictifs.
Nous apprécions que les auteurs reconnaissent certains points importants sur ce domaine de la science en général, ainsi que certaines limites de leur étude. Comme nous l’avons fait dans notre propre travail, ils font état d’efforts « limités » pour analyser la valeur des tests sur les animaux dans le passé, et acceptent qu’ils soient basés sur une « préséance historique » et une hypothèse de valeur. En ce qui concerne leur analyse, ils reconnaissent que leurs données ne portaient que sur 182 médicaments (par rapport à nos > 3200, par exemple) ; ils n’ont examiné que la concordance entre les tests sur animaux et la phase I, et n’ont pas inclus les essais cliniques de phase ultérieure, au cours desquels davantage de médicaments échoueront. Leur étude a également utilisé peu de catégories générales pour les effets indésirables des médicaments (EIM), ce qui favorise leur hypothèse par rapport à des classifications plus nombreuses et plus strictes ; et ils ont combiné les souris et les rats comme « une seule espèce efficace », même si les souris et les rats présentent souvent des différences significatives en matière de toxicité . Enfin, ils n’ont signalé aucun conflit d’intérêts, mais ont remercié près de 20 sociétés biopharmaceutiques dans leurs remerciements, et sont affiliés à neuf sociétés. Bien que nous ne suggérions aucune inconvenance, certains pourraient faire valoir qu’ils pourraient avoir un intérêt à justifier l’utilisation historique et actuelle de leur industrie et de leurs entreprises des animaux dans les tests de médicaments.
Clark et Steger-Hartmann
Il s’agissait d’une analyse de plus de 3000 médicaments, basée sur les données de la base de données complète PharmaPendium d’Elsevier . Les auteurs ont adopté une approche similaire à la nôtre, en utilisant les LR pour déterminer le pouvoir diagnostique des tests sur les animaux pour informer la toxicité humaine, ainsi que de conclure que leur étude a confirmé notre propre résultat saillant : « …l’absence de ces événements dans les études non cliniques s’est avérée ne pas être un bon prédicteur de la sécurité chez l’homme, confirmant ainsi en partie les conclusions de Bailey et al. (2014). « .
La confirmation de notre résultat saillant est de la plus haute importance pour deux raisons. Premièrement, bien que nous n’ayons cherché aucune validation de notre propre approche et de nos publications, mais que nous ayons toujours eu la plus grande confiance en elles, certaines parties prenantes ayant des opinions opposées sur la valeur des tests de médicaments sur les animaux avaient l’intention de dénigrer notre travail. Deuxièmement, quelle que soit l’efficacité de l’expérimentation animale à prédire la toxicité humaine (hypothétiquement), c’est l’absence de toxicité chez l’animal qui est le facteur critique pour la progression d’un nouveau médicament vers les essais cliniques (humains). Comme nous continuons à le faire valoir, si les tests sur les animaux échouent à cet égard crucial – comme ils semblent le faire – cela signifie non seulement que ces tests ne sont pas adaptés à leur objectif global (identifier des médicaments sûrs et efficaces pour l’homme), mais cela doit avoir des répercussions sur l’industrie pharmaceutique et ses régulateurs, et sur la façon dont ils abordent les tests de médicaments en général.
Ce document a également confirmé notre autre principale conclusion, qui suggère que les réactions indésirables dans les tests sur les animaux sont, en fait, également susceptibles de se produire chez les humains (bien que, ce qui est important, souvent pas de la même manière). De manière cruciale, cependant, nous avons interprété différemment les conséquences de cet aspect. Les auteurs de cet article et nous-mêmes avons trouvé que cet aspect était très variable, sans schéma clair en termes de types d’effets toxiques ou de types de médicaments. Nous avons donc conclu que cet aspect ne peut être considéré comme particulièrement pertinent ou fiable. Clark et Steger-Hartmann ont toutefois fourni quelques exemples de cas où les animaux ont prédit la toxicité pour l’homme, mais n’ont pas montré, ni comparé, les domaines où cet aspect prédictif était plus faible, inexistant ou négatif. En effet, certains des exemples qu’ils ont fournis dépassaient à peine le seuil statistique qu’ils avaient eux-mêmes fixé. Par conséquent, nous pensons que, bien que leurs données et les nôtres soutiennent leur conclusion selon laquelle » la transposition animal-humain de nombreuses observations clés est confirmée comme étant prédictive « , elles ne soutiennent pas leur conclusion selon laquelle leur étude » …a confirmé la prédictivité générale des observations de sécurité animale pour les humains « . A cela s’ajoutent des observations très peu prédictives qui ne peuvent être considérées que comme graves, comme la mort, les convulsions, les troubles du mouvement et les troubles hépatiques.