Beware of q2!
La validation est un aspect crucial de toute modélisation quantitative de la relation structure-activité (QSAR). Cet article examine l’un des critères de validation les plus populaires, le R2 validé croisé leave-one-out (LOO q2). Souvent, une valeur élevée de cette caractéristique statistique (q2>0,5) est considérée comme une preuve de la grande capacité de prédiction du modèle. Dans cet article, nous montrons que cette hypothèse est généralement incorrecte. Dans le cas du QSAR 3D, l’absence de corrélation entre la LOO q2 élevée et la capacité prédictive élevée d’un modèle QSAR a été établie précédemment. Dans cet article, nous utilisons des descripteurs moléculaires bidimensionnels (2D) et la méthode QSAR k nearest neighbors (kNN) pour l’analyse de plusieurs ensembles de données. Aucune corrélation entre les valeurs de q2 pour l’ensemble d’apprentissage et la capacité de prédiction pour l’ensemble de test n’a été trouvée pour aucun des ensembles de données. Ainsi, la valeur élevée de LOO q2 semble être la condition nécessaire mais non suffisante pour que le modèle ait un pouvoir prédictif élevé. Nous soutenons qu’il s’agit de la propriété générale des modèles QSAR développés à l’aide de la validation croisée LOO. Nous soulignons que la validation externe est la seule façon d’établir un modèle QSAR fiable. Nous formulons un ensemble de critères pour l’évaluation de la capacité prédictive des modèles QSAR.