Beware of q2!
Validointi on olennainen osa mitä tahansa kvantitatiivista rakenne-aktiivisuussuhdemallinnusta (QSAR). Tässä artikkelissa tarkastellaan yhtä suosituimmista validointikriteereistä, leave-one-out cross-validated R2 (LOO q2). Usein tämän tilastollisen ominaisuuden korkeaa arvoa (q2>0,5) pidetään todisteena mallin korkeasta ennustuskyvystä. Tässä artikkelissa osoitamme, että tämä oletus on yleensä virheellinen. 3D-QSAR:n tapauksessa on jo aiemmin todettu, että korkean LOO q2 -arvon ja QSAR-mallin korkean ennustuskyvyn välillä ei ole korrelaatiota . Tässä asiakirjassa käytämme kaksiulotteisia (2D) molekyylikuvaajia ja k lähimpien naapureiden (kNN) QSAR-menetelmää useiden tietokokonaisuuksien analysointiin. Koulutusjoukon q2-arvojen ja testijoukon ennustuskyvyn välillä ei havaittu korrelaatiota minkään tietokokonaisuuden osalta. Näin ollen LOO q2:n korkea arvo näyttää olevan välttämätön mutta ei riittävä edellytys sille, että mallilla on korkea ennustuskyky. Väitämme, että tämä on LOO-ristiinvalidoinnin avulla kehitettyjen QSAR-mallien yleinen ominaisuus. Korostamme, että ulkoinen validointi on ainoa tapa luoda luotettava QSAR-malli. Muodostamme joukon kriteerejä QSAR-mallien ennustuskyvyn arvioimiseksi.