Recent efforts to elucidate the scientific validity of animal-based drug tests by the pharmaceutical industry, pro-testing lobby groups, and animal welfare organisations
Response to our analyses of animal drug/toxicology tests, i dalsza obrona testowania leków na zwierzętach
Po opublikowaniu każdego z naszych trzech, uzupełniających się dokumentów w 2013, 2014 i 2015 roku, napisaliśmy do kilkudziesięciu przedstawicieli firm farmaceutycznych, regulatorów i innych interesariuszy, prosząc o informacje zwrotne, mając tym samym nadzieję, że uda nam się wykorzystać naszą pracę i otworzyć pewien dialog na temat tej ważnej kwestii, mającej etyczne implikacje dla wykorzystywanych zwierząt, jak również dla ludzkich użytkowników farmaceutyków. Rozczarowujące jest to, że otrzymaliśmy niewiele odpowiedzi, a prawie wszystkie z nich były formułowane i uprzejme, ale nie angażujące. Stowarzyszenie Brytyjskiego Przemysłu Farmaceutycznego (ABPI) wyraziło pewne obawy dotyczące różnych atrybutów wykorzystanego przez nas zestawu danych, ale nasza obszerna, opublikowana odpowiedź stanowiła pełną kontrę. Być może z opóźnieniem, brytyjskie National Centre for the 3Rs (NC3Rs) – pomimo swojego początkowo lekceważącego stanowiska – ogłosiło latem 2016 roku swój własny projekt współpracy z ABPI, mający na celu analizę danych branżowych. Jego niecierpliwie oczekiwany raport był oczekiwany pod koniec 2018 roku, ale nadal nie został ogłoszony w czasie pisania.
W międzyczasie niektórzy zwolennicy testów leków na zwierzętach nadal argumentowali, że te testy mają użyteczność, powołując się na niektóre z niewielu, wcześniejszych raportów sugerujących, że tak może być. Należy się tym zająć, ponieważ wniosek ten nie jest poparty tymi dokumentami. Jeden z tych raportów, jak już omówiliśmy w naszej pracy, nie oszacował specyficzności, bez której nie można obliczyć wagi dowodowej w kierunku prawdopodobieństwa toksyczności/nietoksyczności u ludzi dostarczonej przez modele zwierzęce – co jest dokładnie tym, co musimy wiedzieć. Jak przyznali sami autorzy cytowanego badania, „Bardziej kompletna ocena tego aspektu przewidywalności będzie ważną częścią przyszłego badania prospektywnego.” Inny taki cytowany raport wykazał, że przewidywalność u ludzi dla niektórych obszarów terapeutycznych wynosi ponad 90% – jednak wykazał on również wiele innych obszarów, w których wyniki badań na zwierzętach nie korelowały znacząco z obserwacjami u ludzi, co zostało przeoczone. Co ważne, ta analiza również wykorzystywała współczynniki prawdopodobieństwa (LR), a autor argumentował, dlaczego jest to lepsze i konieczne – podobnie jak my to robiliśmy w naszych własnych pracach. Nasze uzasadnienie dla stosowania współczynników LR – wprowadzone na początku naszych analiz, zanim jakiekolwiek dane zostały przeanalizowane, i wspólne z wyżej wymienionym badaniem – było po prostu takie, że współczynniki LR są znacznie bardziej odpowiednie i uwzględniają czułość i swoistość, z których oba są niezbędne do uzyskania prawdziwej wartości wyników każdego testu, i które są lepsze od wartości predykcyjnych (PV), ponieważ nie zależą od częstości występowania działań niepożądanych. Omówiliśmy to szczegółowo w naszych pracach, a inni w szczególności poparli to podejście .
Inne, ostatnio opublikowane analizy danych toksykologicznych leków
Dwa badania podobne do naszych własnych zostały opublikowane w ubiegłym roku. Biorąc pod uwagę nasze zainteresowanie tym, a także biorąc pod uwagę etyczne i naukowe znaczenie tej kwestii, chcemy dodać do dyskusji i debaty, podkreślając obszary, z którymi się zgadzamy i które przyjmujemy z zadowoleniem, ale także niektóre problemy, które mamy z tymi papierami i ich wnioskami.
Monticello et al.
Badanie nie ograniczone do, ale polegające na, PVs zostało bardzo niedawno opublikowane przez Monticello et al. w listopadzie 2017 . Chociaż z zadowoleniem przyjmujemy i doceniamy próby autorów, aby wyjaśnić tę kontrowersyjną i nieprzejrzystą kwestię, uważamy, że ich wniosek, że „Wyniki te wspierają obecny paradygmat regulacyjny badań na zwierzętach we wspieraniu bezpiecznego wejścia do badań klinicznych i zapewniają kontekst dla pojawiających się modeli alternatywnych”, musi być skierowany.
W naszej opinii istnieje kilka ważnych zastrzeżeń. Być może najbardziej znaczące jest to, że chociaż autorzy zgłaszają zarówno PV, jak i LR, skupiają się prawie wyłącznie na ujemnej wartości predykcyjnej (NPV), aby poprzeć swoje wnioski. Jest to zastanawiające, biorąc pod uwagę naturę tych metryk statystycznych oraz ich powiązane cechy i niedociągnięcia, a zwłaszcza, że autorzy szczegółowo omawiają niektóre z nich, zanim ostatecznie je pominą. Na przykład, nawet jeśli przyznają, że LR „nie są pod wpływem klinicznej przewagi pozytywnej” (dlatego, jak twierdzą niektórzy, mogą być lepsze), nie przeszkadza to autorom skoncentrować się na PV, na które wpływa przewaga toksyczności.
W naszych analizach argumentowaliśmy, w sposób dość szczegółowy, dlaczego LR powinny być używane zamiast PV, jak wspomniano powyżej. W literaturze można znaleźć wiele dowodów na poparcie tej tezy. W skrócie, eksperci twierdzą, że LR są „optymalnym wyborem”, są „bardziej informacyjne niż PV” i są „pojedynczym najpotężniejszym wskaźnikiem użyteczności diagnostycznej”, ponieważ zawierają czułość i swoistość oraz są niezależne od chorobowości, która musi być brana pod uwagę w celu oszacowania wartości testu (patrz ).
Monticello et al.Nacisk na wysoką NPV jest akceptowany jako „…w dużej mierze oparty na niskiej klinicznej częstości występowania pozytywnych wyników obserwowanej w naszej bazie danych i w literaturze, co można przypisać faktowi, że związki wchodzące do rozwoju klinicznego zazwyczaj pokonały wiele przeszkód związanych z bezpieczeństwem poprzez szeroko zakrojone badania przesiewowe in silico, in vitro i in vivo w celu optymalizacji wiodących działań.” Jednak wydaje się, że autorzy pomijają wkład tych działań przesiewowych, kiedy stwierdzają, że to nie one, ale brak toksyczności w badaniach na zwierzętach, przewiduje brak toksyczności klinicznej, do tego stopnia, że wspierają obecny paradygmat skoncentrowany na badaniach na zwierzętach. Co również podważa ich wniosek – nawet przyjmując stanowisko autorów i pomijając LR, aby skoncentrować się na PV – to fakt, że obliczone przez nich dodatnie wartości PV (PPV) były stosunkowo niskie (średnia zaledwie 36%, nawet po wykluczeniu nisko punktowanej kategorii „innych” organów); autorzy zdecydowali się zgłosić, że były dwie imponujące wartości z 36 zgłoszonych, dla naczelnych (NHP), w kategoriach układu nerwowego i przewodu pokarmowego. Musimy zadać sobie pytanie, jak to może „wspierać obecny paradygmat regulacyjny badań na zwierzętach”. Testy na zwierzętach nie są tylko rzekomo istniejące, aby „wspierać bezpieczne wejście do badań klinicznych” poprzez przewidywanie, które leki mogą nie być toksyczne dla ludzi – są one również rzekomo służyć jako skuteczny środek wykrywania, które leki mogą być szkodliwe.
Gdy bada się LR w analizie Monticello et al. zamiast PV (patrz nasz argument powyżej), wyłania się jaśniejszy obraz. Zgłoszone odwrotne ujemne LR (iNLR) są rzeczywiście bardzo niskie – czasami mniejsze niż 1,0, a często ledwo większe niż jedność – co sugeruje, że testy na zwierzętach nie dają żadnej wagi dowodowej do prawdopodobieństwa, że lek nie wykaże toksyczności u ludzi. Jest to dokładnie ten istotny wniosek, który przedstawiliśmy w naszych pracach i który stanowi podstawę naszego argumentu, że testy na zwierzętach nie są odpowiednie do celu. Średnia iNLR wynosi zaledwie 1,5-1,6, a średnia pozytywna LR (PLR) 2,9. Są to niskie wartości LR, które wskazują, że testy na zwierzętach mają bardzo małe znaczenie dowodowe dla prawdopodobieństwa toksyczności/braku toksyczności u ludzi. Podają one również podobnie niskie iNLR dla gryzoni, psów i małp, co stwierdziliśmy. W skrócie, na wiele sposobów, w rzeczywistości powtarzają i wzmacniają nasze ustalenia, zgodnie z ich stwierdzeniem w sekcji 2.7 ich Metod, że „Jako ogólna zasada, test jest uważany za 'diagnostyczny’ w przewidywaniu pozytywnego wyniku, gdy LR+ jest > 10 lub w przewidywaniu negatywnego wyniku, gdy iLR- jest > 10.” Z ich 36 możliwych wyników, tylko dwa PLRs/LR+ spełniły uznaną przez autorów „diagnostyczną” definicję wartości > = 10, a żaden z iNLRs/iLR- tego nie zrobił. W rzeczywistości, 30 z wartości iLR- było < =2, z większością z nich w lub wokół jedności; tj. nie dostarczyły one żadnej wagi dowodowej w ogóle. Innymi słowy, według definicji i kryteriów, które przytaczają, testy na zwierzętach, oparte na ich danych i ich analizie, nie mogą być uważane za diagnostyczne/preddykcyjne.
Doceniamy, że autorzy uznają niektóre ważne punkty dotyczące tego obszaru nauki ogólnie, jak również niektóre ograniczenia ich badań. Jak zrobiliśmy w naszej własnej pracy, zgłaszają „ograniczone” wysiłki w celu przeanalizowania wartości testów na zwierzętach w przeszłości, i akceptują, że są one oparte na „historycznym precedensie” i założeniu wartości. W odniesieniu do ich analizy, akceptują, że ich dane dotyczyły tylko 182 leków (w porównaniu do naszych > 3200, na przykład); patrzyli tylko na zgodność testów na zwierzętach / fazy I i nie obejmowały one badań klinicznych w późniejszej fazie, w których więcej leków zawiedzie. Ich badanie wykorzystało również kilka szerokich kategorii niepożądanych reakcji na leki (ADR), co sprzyja ich hipotezie w porównaniu z większą liczbą i bardziej rygorystycznymi klasyfikacjami, a także połączyli myszy i szczury jako „jeden skuteczny gatunek”, mimo że myszy i szczury często wykazują znaczne różnice w toksyczności. Wreszcie, nie zgłosili żadnego konfliktu interesów, ale podziękowali prawie 20 firmom biofarmaceutycznym w podziękowaniach i mają powiązania z dziewięcioma firmami. Chociaż nie sugerujemy żadnej niestosowności, niektórzy mogą twierdzić, że mogą mieć interes w uzasadnianiu historycznego i obecnego wykorzystania zwierząt w testowaniu leków przez ich branżę i firmy.
Clark i Steger-Hartmann
To była analiza ponad 3000 leków, oparta na danych w kompleksowej bazie danych PharmaPendium firmy Elsevier. Autorzy przyjęli podejście podobne do naszego, wykorzystując LR do określenia mocy diagnostycznej testów na zwierzętach w celu informowania o toksyczności u ludzi, jak również stwierdzili, że ich badanie potwierdziło nasze własne istotne ustalenie: „…stwierdzono, że brak tych zdarzeń w badaniach nieklinicznych nie jest dobrym predyktorem bezpieczeństwa u ludzi, co częściowo potwierdza ustalenia Bailey i wsp. (2014). „.
Potwierdzenie naszego istotnego odkrycia jest niezwykle ważne z dwóch powodów. Po pierwsze, chociaż nie szukaliśmy walidacji naszego własnego podejścia i publikacji, ale zawsze mieliśmy do nich najwyższe zaufanie, niektórzy interesariusze o przeciwstawnych opiniach na temat wartości badań leków na zwierzętach zamierzali oczernić naszą pracę. Po drugie, bez względu na to, jak dobrze testy na zwierzętach mogą przewidywać toksyczność u ludzi (hipotetycznie), to właśnie brak toksyczności u zwierząt jest czynnikiem krytycznym dla postępu nowego leku w badaniach klinicznych (na ludziach). Jak nadal twierdzimy, jeśli testy na zwierzętach zawiodą w tym kluczowym aspekcie – a wydaje się, że tak właśnie jest – oznacza to nie tylko, że testy te nie nadają się do swojego ogólnego celu (identyfikacji bezpiecznych i skutecznych leków dla ludzi), ale musi to mieć reperkusje dla przemysłu farmaceutycznego i jego organów regulacyjnych oraz sposobu, w jaki ogólnie podchodzą one do testowania leków.
Praca ta potwierdziła również nasz inny główny wniosek, który sugerował, że reakcje niepożądane w testach na zwierzętach są w rzeczywistości również prawdopodobne do wystąpienia u ludzi (choć, co ważne, często nie w podobny sposób). Co jednak istotne, inaczej zinterpretowaliśmy konsekwencje tego aspektu. Zarówno autorzy tej pracy, jak i my sami, stwierdziliśmy, że aspekt ten jest bardzo zmienny, bez wyraźnego wzorca, jeśli chodzi o rodzaje efektów toksycznych czy rodzaje leków. Stwierdziliśmy zatem, że nie można tego uznać za szczególnie istotne lub wiarygodne. Clark i Steger-Hartmann podali jednak kilka przykładów, w których zwierzęta przewidywały toksyczność u ludzi, ale nie wykazali, ani nie zestawili ich z obszarami, w których ten aspekt predykcyjny był niższy, nie istniał lub był negatywny. W rzeczywistości niektóre z podanych przez nich przykładów tylko nieznacznie przekraczały ustalony przez nich samych próg statystyczny. W związku z tym uważamy, że chociaż zarówno ich dane, jak i nasze własne dane potwierdzają ich wniosek, że „Potwierdzono, że wiele kluczowych obserwacji przekłada się na człowieka”, to nie potwierdzają one ich wniosku, że ich badanie „…potwierdziło ogólną przewidywalność obserwacji bezpieczeństwa zwierząt dla ludzi”. Jest to potęgowane przez bardzo słabo przewidywalne obserwacje, które można uznać jedynie za poważne, takie jak śmierć, drgawki, zaburzenia ruchowe i zaburzenia wątroby.
.