Beware of q2!
La validazione è un aspetto cruciale di qualsiasi modellazione quantitativa della relazione struttura-attività (QSAR). Questo articolo esamina uno dei criteri di convalida più popolari, leave-one-out cross-validated R2 (LOO q2). Spesso, un alto valore di questa caratteristica statistica (q2>0.5) è considerato come una prova dell’alta capacità predittiva del modello. In questo articolo, mostriamo che questa assunzione è generalmente errata. Nel caso del 3D QSAR, la mancanza di correlazione tra l’alto LOO q2 e l’alta capacità predittiva di un modello QSAR è stata stabilita in precedenza. In questo articolo, usiamo descrittori molecolari bidimensionali (2D) e il metodo QSAR k nearest neighbors (kNN) per l’analisi di diversi set di dati. Nessuna correlazione tra i valori di q2 per il set di allenamento e la capacità predittiva per il set di test è stata trovata per nessuno dei set di dati. Quindi, l’alto valore di LOO q2 sembra essere la condizione necessaria ma non sufficiente perché il modello abbia un alto potere predittivo. Noi sosteniamo che questa è la proprietà generale dei modelli QSAR sviluppati utilizzando la convalida incrociata LOO. Sottolineiamo che la validazione esterna è l’unico modo per stabilire un modello QSAR affidabile. Formuliamo una serie di criteri per la valutazione della capacità predittiva dei modelli QSAR.