Beware of q2!
Validace je klíčovým aspektem každého kvantitativního modelování vztahu struktury a aktivity (QSAR). Tento článek se zabývá jedním z nejoblíbenějších validačních kritérií, křížově validovaným R2 (LOO q2). Často se vysoká hodnota této statistické charakteristiky (q2>0,5) považuje za důkaz vysoké prediktivní schopnosti modelu. V tomto článku ukážeme, že tento předpoklad je obecně nesprávný. V případě 3D QSAR byla neexistence korelace mezi vysokou hodnotou LOO q2 a vysokou prediktivní schopností modelu QSAR zjištěna již dříve . V tomto článku používáme dvourozměrné (2D) molekulární deskriptory a metodu k nejbližších sousedů (kNN) QSAR pro analýzu několika souborů dat. U žádného ze souborů dat nebyla zjištěna korelace mezi hodnotami q2 pro trénovací soubor a prediktivní schopností pro testovací soubor. Zdá se tedy, že vysoká hodnota LOO q2 je nutnou, ale nikoli postačující podmínkou pro to, aby měl model vysokou prediktivní schopnost. Tvrdíme, že se jedná o obecnou vlastnost modelů QSAR vyvinutých pomocí křížové validace LOO. Zdůrazňujeme, že externí validace je jediným způsobem, jak vytvořit spolehlivý model QSAR. Formulujeme soubor kritérií pro hodnocení prediktivní schopnosti modelů QSAR
.