Die jüngsten Bemühungen der pharmazeutischen Industrie, von Lobbygruppen, die Tierversuche befürworten, und von Tierschutzorganisationen, die wissenschaftliche Validität von Arzneimitteltests an Tieren aufzuklären
Antworten auf unsere Analysen von Arzneimittel-/Toxikologietests an Tieren, und fortgesetzte Verteidigung von Arzneimitteltests an Tieren
Nach der Veröffentlichung unserer drei sich ergänzenden Papiere in den Jahren 2013, 2014 und 2015 haben wir Dutzende von Vertretern von Pharmaunternehmen, Aufsichtsbehörden und anderen Interessengruppen angeschrieben und um Rückmeldung gebeten, in der Hoffnung, auf unserer Arbeit aufbauen und einen Dialog über dieses wichtige Thema eröffnen zu können, das sowohl für die verwendeten Tiere als auch für die menschlichen Nutzer von Arzneimitteln ethische Auswirkungen hat. Enttäuschend ist, dass wir nur wenige Antworten erhalten haben, und fast alle waren formelhaft und höflich, aber nicht engagiert. Die Association of the British Pharmaceutical Industry (ABPI) äußerte einige Bedenken zu verschiedenen Merkmalen des von uns verwendeten Datensatzes, aber unsere umfangreiche, veröffentlichte Antwort stellte eine vollständige Widerlegung dar. Vielleicht mit Verspätung kündigte das britische National Centre for the 3Rs (NC3Rs) – trotz seiner anfänglich ablehnenden Haltung – im Sommer 2016 ein eigenes Kooperationsprojekt mit der ABPI an, um die Daten der Industrie zu analysieren. Wir begrüßen dies natürlich, vorausgesetzt natürlich, dass es transparent und objektiv und vorzugsweise unter unabhängiger Aufsicht erfolgt. Der mit Spannung erwartete Bericht wurde für Ende 2018 erwartet, lag aber zum Zeitpunkt der Erstellung dieses Berichts noch nicht vor.
In der Zwischenzeit haben einige Befürworter von Arzneimitteltests an Tieren weiterhin argumentiert, dass diese Tests nützlich sind, indem sie einige der wenigen früheren Berichte zitierten, die darauf hindeuten, dass dies der Fall sein könnte. Dem muss widersprochen werden, denn diese Schlussfolgerung wird durch diese Berichte nicht gestützt. In einem dieser Berichte wurde, wie wir bereits in unserer Arbeit erörtert haben, die Spezifität nicht abgeschätzt, ohne die die Beweiskraft der Tiermodelle in Bezug auf die Wahrscheinlichkeit der Toxizität/Nicht-Toxizität beim Menschen – und genau das müssen wir wissen – nicht berechnet werden kann. Wie die Autoren der zitierten Studie selbst einräumten, „wird eine umfassendere Bewertung dieses Aspekts der Vorhersagbarkeit ein wichtiger Bestandteil einer künftigen prospektiven Erhebung sein.“ Ein anderer zitierter Bericht zeigte, dass die Vorhersagbarkeit beim Menschen für einige therapeutische Bereiche bei über 90 % liegt – er zeigte jedoch auch viele andere Bereiche, in denen die Ergebnisse aus Tierstudien nicht signifikant mit den Beobachtungen beim Menschen korrelierten, was übersehen wurde. Wichtig ist, dass bei dieser Analyse auch Likelihood Ratios (LRs) verwendet wurden, und der Autor argumentierte, warum dies besser und notwendig ist – ähnlich wie wir es in unseren eigenen Arbeiten getan haben. Unsere Begründung für die Verwendung von LRs – die wir zu Beginn unserer Analysen, noch vor der Auswertung von Daten, verwendet haben und die mit der oben erwähnten Studie übereinstimmen – war ganz einfach, dass LRs viel geeigneter und umfassender sind, da sie die Sensitivität und Spezifität einbeziehen, die beide notwendig sind, um den wahren Wert der Ergebnisse eines Tests abzuleiten, und die den prädiktiven Werten (PVs) überlegen sind, da sie nicht von der Prävalenz unerwünschter Wirkungen abhängen. Wir haben dies in unseren Veröffentlichungen ausführlich erörtert, und auch andere haben diesen Ansatz ausdrücklich unterstützt.
Andere, kürzlich veröffentlichte Analysen von Daten zur Toxikologie von Arzneimitteln
Im vergangenen Jahr wurden zwei Studien veröffentlicht, die unserer eigenen ähneln. Angesichts unseres Interesses daran und der ethischen und wissenschaftlichen Bedeutung des Themas möchten wir zur Diskussion und Debatte beitragen, indem wir Bereiche hervorheben, mit denen wir übereinstimmen und die wir begrüßen, aber auch einige Probleme, die wir mit diesen Papieren und ihren Schlussfolgerungen haben.
Monticello et al.
Eine Studie, die sich nicht auf PVs beschränkt, sich aber auf diese stützt, wurde erst kürzlich von Monticello et al. im November 2017 veröffentlicht. Während wir die Versuche der Autoren, dieses kontroverse und undurchsichtige Thema zu erhellen, begrüßen und würdigen, sind wir der Meinung, dass ihre Schlussfolgerung „Diese Ergebnisse unterstützen das aktuelle regulatorische Paradigma von Tierversuchen bei der Unterstützung des sicheren Eintritts in klinische Studien und bieten einen Kontext für neu entstehende alternative Modelle“, angesprochen werden muss.
Unserer Meinung nach gibt es mehrere wichtige Vorbehalte. Der vielleicht auffälligste ist, dass die Autoren zwar sowohl PVs als auch LRs angeben, sich aber fast ausschließlich auf den negativen prädiktiven Wert (NPV) konzentrieren, um ihre Schlussfolgerung zu untermauern. Dies ist rätselhaft, wenn man die Natur dieser statistischen Metriken und die damit verbundenen Qualitäten und Unzulänglichkeiten bedenkt, und vor allem, wenn man bedenkt, dass die Autoren einige von ihnen ausdrücklich erörtern, bevor sie sie schließlich übersehen. Obwohl sie beispielsweise zugeben, dass LRs „nicht von der klinischen Positivprävalenz beeinflusst werden“ (weshalb sie, wie einige behaupten, überlegen sein könnten), hindert dies die Autoren nicht daran, sich auf die PVs zu konzentrieren, die von der Toxizitätsprävalenz beeinflusst werden.
Wir haben in unseren Analysen ausführlich argumentiert, warum LRs den PVs vorgezogen werden sollten, wie oben erwähnt. Dafür gibt es in der Literatur reichlich Unterstützung. Kurz gesagt, Experten behaupten, dass LRs die „optimale Wahl“ sind, „informativer als PVs“ und „der mächtigste Indikator für den diagnostischen Nutzen“ sind, da sie Sensitivität und Spezifität beinhalten und unabhängig von der Prävalenz sind, die berücksichtigt werden muss, um den Wert eines Tests zu schätzen (siehe ).
Monticello et al.Die Betonung eines hohen NPV wird als „…weitgehend auf der in unserer Datenbank und in der Literatur beobachteten niedrigen klinisch positiven Prävalenz basiert, die auf die Tatsache zurückgeführt werden kann, dass Substanzen, die in die klinische Entwicklung eintreten, typischerweise viele Sicherheitshürden durch umfangreiche in silico-, in vitro- und in vivo-Screeningaktivitäten zur Leitstrukturoptimierung überwunden haben.“ Dennoch scheinen die Autoren den Beitrag dieser Screening-Aktivitäten zu übersehen, wenn sie zu dem Schluss kommen, dass nicht sie, sondern das Fehlen von Toxizität in Tierversuchen das Fehlen von Toxizität in der Klinik vorhersagt, und zwar in dem Maße, dass sie das derzeitige Paradigma unterstützen, das sich auf Tierversuche konzentriert. Was auch ihre Schlussfolgerung in Frage stellt – selbst wenn man die Haltung der Autoren annimmt und die LRs umgeht, um sich auf die PVs zu konzentrieren – ist, dass ihre berechneten positiven PVs (PPVs) relativ niedrig waren (ein gemeldeter Mittelwert von nur 36 %, selbst wenn die niedrig bewertete Kategorie „andere“ Organe ausgeschlossen wurde); die Autoren haben sich dafür entschieden, zu berichten, dass es zwei beeindruckende Werte von den 36 gemeldeten für nicht-menschliche Primaten (NHPs) in den Kategorien Nervensystem und Magen-Darm gab. Wir müssen uns fragen, wie dies „das derzeitige regulatorische Paradigma von Tierversuchen unterstützen kann“. Tierversuche sollen nicht nur dazu dienen, „den sicheren Zugang zu klinischen Studien zu unterstützen“, indem sie vorhersagen, welche Arzneimittel für den Menschen nicht toxisch sein könnten – sie sollen auch als effizientes Mittel dienen, um festzustellen, welche Arzneimittel schädlich sein könnten.
Wenn man die LRs in der Analyse von Monticello et al. anstelle der PVs (siehe unser Argument oben) untersucht, ergibt sich ein klareres Bild. Die gemeldeten inversen negativen LRs (iNLRs) sind in der Tat sehr niedrig – manchmal weniger als 1,0 und oft kaum größer als 1 -, was darauf hindeutet, dass die Tierversuche kein beweiskräftiges Gewicht für die Wahrscheinlichkeit haben, dass ein Medikament beim Menschen keine Toxizität zeigt. Dies ist genau das hervorstechende Ergebnis, über das wir in unseren Veröffentlichungen berichtet haben, und das unser Argument untermauert, dass die Tierversuche nicht zweckmäßig sind. Sie berichten über eine mittlere iNLR von nur 1,5-1,6 und eine mittlere positive LR (PLR) von 2,9. Dies sind niedrige LR-Werte, die darauf hindeuten, dass die Tierversuche nur ein sehr geringes Beweisgewicht für die Wahrscheinlichkeit der Humantoxizität bzw. des Fehlens von Toxizität haben. Auch für Nagetiere, Hunde und Affen werden ähnlich niedrige iNLR-Werte angegeben, wie wir festgestellt haben. Kurz gesagt, in vielerlei Hinsicht wiederholen und verstärken sie unsere Ergebnisse in Übereinstimmung mit ihrer Aussage in Abschnitt 2.7 ihrer Methoden, dass „ein Test im Allgemeinen als ‚diagnostisch‘ für die Vorhersage eines positiven Ergebnisses betrachtet wird, wenn die LR+ >10 ist, oder für die Vorhersage eines negativen Ergebnisses, wenn die iLR- > 10 ist.“ Von den 36 möglichen Ergebnissen erfüllten nur zwei PLRs/LR+ die von den Autoren anerkannte „diagnostische“ Definition eines Wertes von > = 10, und keines der iNLRs/iLR- tat dies. Tatsächlich lagen 30 der iLR–Werte bei < =2, wobei die meisten von ihnen bei oder um den Wert 1 lagen, d. h. sie hatten keinerlei Beweiskraft. Mit anderen Worten, nach der Definition und den Kriterien, die sie anführen, können die Tierversuche auf der Grundlage ihrer Daten und ihrer Analyse nicht als diagnostisch/prädiktiv angesehen werden.
Wir begrüßen, dass die Autoren einige wichtige Punkte zu diesem Bereich der Wissenschaft im Allgemeinen sowie einige Einschränkungen ihrer Studie anerkennen. Wie auch wir in unserer eigenen Arbeit berichten sie von „begrenzten“ Bemühungen, den Wert von Tierversuchen in der Vergangenheit zu analysieren, und räumen ein, dass diese auf „historischen Präzedenzfällen“ und einer Wertannahme beruhen. In Bezug auf ihre Analyse räumen sie ein, dass ihre Daten nur 182 Arzneimittel umfassten (im Vergleich zu unseren > 3200, zum Beispiel); sie untersuchten nur die Übereinstimmung zwischen Tierversuchen und Phase I und bezogen spätere klinische Studien nicht mit ein, in denen mehr Arzneimittel versagen. In ihrer Studie wurden auch nur wenige, weit gefasste Kategorien für unerwünschte Arzneimittelwirkungen (UAW) verwendet, was ihre Hypothese im Vergleich zu mehr und strengeren Klassifizierungen begünstigt; und sie kombinierten Mäuse und Ratten als „eine wirksame Spezies“, obwohl Mäuse und Ratten oft erhebliche Unterschiede in der Toxizität aufweisen. Schließlich gaben sie keine Interessenkonflikte an, bedankten sich aber in ihren Danksagungen bei fast 20 biopharmazeutischen Unternehmen und stehen mit neun Unternehmen in Verbindung. Wir unterstellen zwar kein unangemessenes Verhalten, aber einige könnten argumentieren, dass sie ein Interesse daran haben könnten, die historische und gegenwärtige Verwendung von Tieren in Arzneimitteltests durch ihre Branche und ihre Unternehmen zu rechtfertigen.
Clark und Steger-Hartmann
Dies war eine Analyse von mehr als 3000 Arzneimitteln, die auf Daten in der umfassenden PharmaPendium-Datenbank von Elsevier basierte. Die Autoren verfolgten einen ähnlichen Ansatz wie wir, indem sie LRs verwendeten, um die diagnostische Aussagekraft von Tierversuchen in Bezug auf die Humantoxizität zu bestimmen, und sie kamen zu dem Schluss, dass ihre Studie unsere eigene wichtige Erkenntnis bestätigt: „…das Fehlen dieser Ereignisse in nicht-klinischen Studien erwies sich nicht als guter Prädiktor für die Sicherheit beim Menschen, was die Ergebnisse von Bailey et al. (2014) teilweise bestätigt. „.
Die Bestätigung unseres herausragenden Ergebnisses ist aus zwei Gründen von größter Bedeutung. Erstens: Obwohl wir keine Validierung unseres eigenen Ansatzes und unserer Veröffentlichungen anstrebten, sondern ihnen stets vollstes Vertrauen entgegenbrachten, waren einige Interessengruppen mit gegenteiligen Ansichten über den Wert tiergestützter Arzneimitteltests darauf aus, unsere Arbeit zu verunglimpfen. Zweitens: Unabhängig davon, wie gut ein Tierversuch (hypothetisch) die Toxizität für den Menschen vorhersagen kann, ist das Ausbleiben von Toxizität im Tierversuch der entscheidende Faktor für die Aufnahme eines neuen Arzneimittels in klinische (Human-)Versuche. Wenn Tierversuche in diesem entscheidenden Punkt versagen – und das scheint der Fall zu sein -, bedeutet dies nicht nur, dass diese Tests für ihren eigentlichen Zweck (die Identifizierung sicherer und wirksamer Humanarzneimittel) ungeeignet sind, sondern es muss auch Auswirkungen auf die pharmazeutische Industrie und ihre Aufsichtsbehörden haben und darauf, wie sie Arzneimittelprüfungen im Allgemeinen angehen.
Dieses Papier bestätigte auch unser anderes Hauptergebnis, das darauf hindeutet, dass unerwünschte Wirkungen in Tierversuchen tatsächlich auch beim Menschen auftreten können (wenn auch, was wichtig ist, oft nicht auf ähnliche Weise). Entscheidend ist jedoch, dass wir die Konsequenzen dieses Aspekts anders interpretiert haben. Sowohl die Autoren dieser Arbeit als auch wir selbst haben festgestellt, dass dieser Aspekt sehr variabel ist und kein klares Muster in Bezug auf die Art der toxischen Wirkungen oder die Art der Arzneimittel aufweist. Wir kamen daher zu dem Schluss, dass dieser Aspekt nicht als besonders relevant oder zuverlässig angesehen werden kann. Clark und Steger-Hartmann lieferten jedoch einige Beispiele, bei denen Tiere die Humantoxizität vorhersagen konnten, zeigten jedoch nicht auf, dass dieser Aspekt weniger, nicht vorhanden oder negativ ist, und wägten dies auch nicht gegen andere Bereiche ab. Einige der von ihnen angeführten Beispiele lagen sogar nur knapp über dem statistischen Schwellenwert, den sie selbst festgelegt hatten. Folglich sind wir der Meinung, dass sowohl ihre Daten als auch unsere eigenen Daten zwar ihre Schlussfolgerung stützen, dass „die Tier-Mensch-Übersetzung vieler wichtiger Beobachtungen als vorhersagend bestätigt wird“, dass sie aber nicht ihre Schlussfolgerung stützen, dass ihre Studie „… die allgemeine Vorhersagbarkeit von Beobachtungen zur Sicherheit von Tieren für Menschen bestätigt“. Hinzu kommen sehr schlecht vorhersagbare Beobachtungen, die nur als schwerwiegend angesehen werden können, wie Tod, Krämpfe, Bewegungsstörungen und Leberstörungen.