Beware of q2!
Validering er et afgørende aspekt af enhver kvantitativ struktur-aktivitetsrelation (QSAR) modellering. I denne artikel undersøges et af de mest populære valideringskriterier, leave-one-out cross-validated R2 (LOO q2). Ofte anses en høj værdi af denne statistiske egenskab (q2>0,5) for at være et bevis på modellens høje forudsigelsesevne. I denne artikel viser vi, at denne antagelse generelt er forkert. I forbindelse med 3D QSAR er det tidligere blevet fastslået, at der ikke er nogen korrelation mellem den høje LOO q2 og en QSAR-models høje forudsigelsesevne . I dette papir anvender vi todimensionale (2D) molekylære deskriptorer og k nærmeste naboer (kNN) QSAR-metoden til analyse af flere datasæt. Der blev ikke fundet nogen korrelation mellem værdierne af q2 for træningssættet og den prædiktive evne for testsættene for nogen af datasættene. Den høje værdi af LOO q2 synes således at være en nødvendig, men ikke en tilstrækkelig betingelse for, at modellen har en høj forudsigelseskraft. Vi hævder, at dette er den generelle egenskab ved QSAR-modeller, der er udviklet ved hjælp af LOO-krydsvalidering. Vi understreger, at ekstern validering er den eneste måde at etablere en pålidelig QSAR-model på. Vi formulerer et sæt kriterier for evaluering af QSAR-modellers prædiktive evne.