Pfam
Pfam fue fundada en 1995 por Erik Sonhammer, Sean Eddy y Richard Durbin como una colección de dominios proteicos comunes que pudieran utilizarse para anotar los genes codificadores de proteínas de los animales multicelulares. Uno de sus principales objetivos al principio era ayudar a la anotación del genoma de C. elegans. El proyecto fue impulsado en parte por la afirmación de Cyrus Chothia, en su libro «Mil familias para el biólogo molecular», de que existían unas 1.500 familias de proteínas diferentes y que la mayoría de las proteínas se clasificaban en sólo 1.000 de ellas. En contra de esta afirmación, la base de datos Pfam contiene actualmente 16.306 entradas correspondientes a dominios y familias de proteínas únicas. Sin embargo, muchas de estas familias contienen similitudes estructurales y funcionales que indican un origen evolutivo compartido (véase Clanes).
Un punto importante de diferencia entre Pfam y otras bases de datos en el momento de su creación fue el uso de dos tipos de alineación para las entradas: una alineación semilla más pequeña, comprobada manualmente, así como una alineación completa construida mediante la alineación de secuencias a un modelo de Markov oculto de perfil construido a partir de la alineación semilla. Este alineamiento semilla más pequeño era más fácil de actualizar a medida que salían nuevas versiones de las bases de datos de secuencias y, por lo tanto, representaba una solución prometedora al dilema de cómo mantener la base de datos actualizada a medida que la secuenciación del genoma se volvía más eficiente y se necesitaba procesar más datos con el tiempo. En la versión 24.0 se produjo una nueva mejora en la velocidad de actualización de la base de datos, con la introducción de HMMER3, que es ~100 veces más rápido que HMMER2 y más sensible.
Debido a que las entradas de Pfam-A no cubren todas las proteínas conocidas, se proporcionó un suplemento generado automáticamente llamado Pfam-B. Pfam-B contenía un gran número de pequeñas familias derivadas de agrupaciones producidas por un algoritmo llamado ADDA. Aunque de menor calidad, las familias Pfam-B podían ser útiles cuando no se encontraban familias Pfam-A. Pfam-B se interrumpió a partir de la versión 28.0, y luego se reintrodujo en la versión 33.1 utilizando un nuevo algoritmo de agrupación, MMSeqs2.
Pfam se alojó originalmente en tres sitios espejo en todo el mundo para preservar la redundancia. Sin embargo, entre 2012 y 2014, el recurso Pfam se trasladó al EMBL-EBI, lo que permitió alojar el sitio web desde un solo dominio (xfam.org), utilizando centros de datos independientes duplicados. Esto permitió una mejor centralización de las actualizaciones, y la agrupación con otros proyectos Xfam como Rfam, TreeFam, iPfam y otros, a la vez que se mantenía la resistencia crítica proporcionada por el alojamiento desde múltiples centros.
Pfam ha sido objeto de una reorganización sustancial en los últimos dos años para reducir aún más el esfuerzo manual que implica la curación y permitir actualizaciones más frecuentes.
Curación de la comunidadEditar
La curación de una base de datos tan grande presentaba problemas en términos de mantenerse al día con el volumen de nuevas familias y la información actualizada que era necesario añadir. Para acelerar las publicaciones de la base de datos, los desarrolladores pusieron en marcha una serie de iniciativas para permitir una mayor participación de la comunidad en la gestión de la base de datos.
Un paso fundamental para mejorar el ritmo de actualización y mejora de las entradas fue abrir la anotación funcional de los dominios de Pfam a la comunidad de Wikipedia en la versión 26.0. En el caso de las entradas que ya contaban con una entrada en Wikipedia, ésta se vinculó a la página de Pfam, y en el caso de las que no la tenían, se invitó a la comunidad a crear una e informar a los conservadores, para que fuera vinculada. Se prevé que, si bien la participación de la comunidad mejorará en gran medida el nivel de anotación de estas familias, algunas seguirán siendo insuficientemente notables para su inclusión en Wikipedia, en cuyo caso conservarán su descripción original de Pfam. Algunos artículos de Wikipedia abarcan varias familias, como el artículo sobre los dedos de zinc. También se ha implementado un procedimiento automatizado para generar artículos basados en los datos de InterPro y Pfam, que rellena una página con información y enlaces a las bases de datos, así como con las imágenes disponibles, y luego, una vez que el artículo ha sido revisado por un conservador, se traslada del Sandbox a la Wikipedia propiamente dicha. Para evitar el vandalismo de los artículos, cada revisión de la Wikipedia es revisada por los conservadores antes de que se muestre en el sitio web de Pfam. Sin embargo, casi todos los casos de vandalismo han sido corregidos por la comunidad antes de que lleguen a los conservadores.
Pfam está dirigido por un consorcio internacional de tres grupos. En las primeras versiones de Pfam, las entradas de las familias sólo podían modificarse en el sitio de Cambridge, Reino Unido, lo que limitaba la capacidad de los miembros del consorcio para contribuir a la curación del sitio. En la versión 26.0, los desarrolladores pasaron a un nuevo sistema que permitía a los usuarios registrados de cualquier parte del mundo añadir o modificar familias de Pfam.