Pfam
Pfam a été fondé en 1995 par Erik Sonhammer, Sean Eddy et Richard Durbin comme une collection de domaines protéiques d’occurrence commune qui pourraient être utilisés pour annoter les gènes codant pour les protéines des animaux multicellulaires. L’un de ses principaux objectifs au départ était de contribuer à l’annotation du génome de C. elegans. Le projet était en partie motivé par l’affirmation de Cyrus Chothia, dans « One thousand families for the molecular biologist », selon laquelle il existait environ 1500 familles de protéines différentes et que la majorité des protéines appartenaient à seulement 1000 d’entre elles. Contrairement à cette affirmation, la base de données Pfam contient actuellement 16 306 entrées correspondant à des domaines et des familles de protéines uniques. Cependant, beaucoup de ces familles présentent des similitudes structurelles et fonctionnelles indiquant une origine évolutive partagée (voir Clans).
Un point de différence majeur entre Pfam et d’autres bases de données au moment de sa création était l’utilisation de deux types d’alignement pour les entrées : un alignement d’amorçage plus petit, vérifié manuellement, ainsi qu’un alignement complet construit en alignant les séquences sur un modèle de Markov caché de profil construit à partir de l’alignement d’amorçage. Cet alignement initial plus petit était plus facile à mettre à jour au fur et à mesure que de nouvelles versions de bases de données de séquences étaient publiées, et représentait donc une solution prometteuse au dilemme de la mise à jour de la base de données au fur et à mesure que le séquençage du génome devenait plus efficace et que davantage de données devaient être traitées. Une nouvelle amélioration de la vitesse à laquelle la base de données pouvait être mise à jour est apparue dans la version 24.0, avec l’introduction de HMMER3, qui est ~100 fois plus rapide que HMMER2 et plus sensible.
Parce que les entrées de Pfam-A ne couvrent pas toutes les protéines connues, un supplément généré automatiquement a été fourni, appelé Pfam-B. Pfam-B contenait un grand nombre de petites familles dérivées de clusters produits par un algorithme appelé ADDA. Bien que de qualité inférieure, les familles Pfam-B pouvaient être utiles lorsqu’aucune famille Pfam-A n’était trouvée. Pfam-B a été abandonné à partir de la version 28.0, puis réintroduit dans la version 33.1 en utilisant un nouvel algorithme de clustering, MMSeqs2.
Pfam était à l’origine hébergé sur trois sites miroirs à travers le monde pour préserver la redondance. Cependant, entre 2012 et 2014, la ressource Pfam a été déplacée vers l’EMBL-EBI, ce qui a permis d’héberger le site web à partir d’un seul domaine (xfam.org), en utilisant des centres de données indépendants en double. Cela a permis une meilleure centralisation des mises à jour, et le regroupement avec d’autres projets Xfam tels que Rfam, TreeFam, iPfam et autres, tout en conservant la résilience critique fournie par l’hébergement à partir de plusieurs centres.
Pfam a subi une réorganisation substantielle au cours des deux dernières années afin de réduire davantage l’effort manuel impliqué dans la curation et de permettre des mises à jour plus fréquentes.
Curation communautaireEdit
La curation d’une base de données aussi importante présentait des problèmes en termes de suivi du volume de nouvelles familles et d’informations mises à jour qui devaient être ajoutées. Pour accélérer les versions de la base de données, les développeurs ont lancé un certain nombre d’initiatives pour permettre une plus grande implication de la communauté dans la gestion de la base de données.
Une étape critique dans l’amélioration du rythme de mise à jour et d’amélioration des entrées a été d’ouvrir l’annotation fonctionnelle des domaines Pfam à la communauté Wikipedia dans la version 26.0. Pour les entrées qui avaient déjà une entrée Wikipédia, celle-ci a été liée à la page Pfam, et pour celles qui n’en avaient pas, la communauté a été invitée à en créer une et à en informer les conservateurs, afin qu’elle soit liée. On s’attend à ce que l’implication de la communauté améliore considérablement le niveau d’annotation de ces familles, mais que certaines restent insuffisamment remarquables pour être incluses dans Wikipédia, auquel cas elles conserveront leur description Pfam originale. Certains articles de Wikipédia couvrent plusieurs familles, comme l’article sur les doigts de zinc. Une procédure automatisée de génération d’articles basés sur les données InterPro et Pfam a également été mise en place. Elle permet de remplir une page avec des informations et des liens vers des bases de données ainsi que des images disponibles, puis une fois qu’un article a été examiné par un conservateur, il est déplacé du bac à sable vers Wikipédia proprement dite. Afin de se prémunir contre le vandalisme des articles, chaque révision de Wikipédia est examinée par des conservateurs avant d’être affichée sur le site Web de Pfam. Cependant, presque tous les cas de vandalisme ont été corrigés par la communauté avant de parvenir aux curateurs.
Pfam est géré par un consortium international de trois groupes. Dans les versions précédentes de Pfam, les entrées des familles ne pouvaient être modifiées que sur le site de Cambridge, au Royaume-Uni, ce qui limitait la capacité des membres du consortium à contribuer à la curation du site. Dans la version 26.0, les développeurs ont adopté un nouveau système qui permet aux utilisateurs enregistrés partout dans le monde d’ajouter ou de modifier des familles Pfam.