Pfam
Pfam wurde 1995 von Erik Sonhammer, Sean Eddy und Richard Durbin als eine Sammlung von häufig vorkommenden Proteindomänen gegründet, die zur Annotation der proteinkodierenden Gene mehrzelliger Tiere verwendet werden können. Eines der Hauptziele bei der Gründung war die Unterstützung bei der Annotation des Genoms von C. elegans. Das Projekt wurde zum Teil durch die Behauptung von Cyrus Chothia in „One thousand families for the molecular biologist“ (Tausend Familien für den Molekularbiologen) vorangetrieben, dass es etwa 1500 verschiedene Proteinfamilien gibt und dass die meisten Proteine in nur 1000 davon fallen. Im Gegensatz zu dieser Behauptung enthält die Pfam-Datenbank derzeit 16.306 Einträge, die einzigartigen Proteindomänen und -familien entsprechen. Viele dieser Familien weisen jedoch strukturelle und funktionelle Ähnlichkeiten auf, die auf einen gemeinsamen evolutionären Ursprung hindeuten (siehe Clans).
Ein wesentlicher Unterschied zwischen Pfam und anderen Datenbanken zur Zeit ihrer Gründung war die Verwendung von zwei Alignment-Typen für Einträge: ein kleineres, manuell geprüftes Seed-Alignment sowie ein vollständiges Alignment, das durch die Ausrichtung von Sequenzen an einem aus dem Seed-Alignment erstellten Hidden-Markov-Modell erstellt wurde. Dieses kleinere Seed-Alignment war leichter zu aktualisieren, wenn neue Versionen von Sequenzdatenbanken herauskamen, und stellte somit eine vielversprechende Lösung für das Dilemma dar, die Datenbank auf dem neuesten Stand zu halten, da die Genomsequenzierung immer effizienter wurde und im Laufe der Zeit mehr Daten verarbeitet werden mussten. Eine weitere Verbesserung der Geschwindigkeit, mit der die Datenbank aktualisiert werden konnte, erfolgte in Version 24.0 mit der Einführung von HMMER3, das ~100 Mal schneller als HMMER2 und empfindlicher ist.
Da die Einträge in Pfam-A nicht alle bekannten Proteine abdecken, wurde eine automatisch generierte Ergänzung namens Pfam-B bereitgestellt. Pfam-B enthielt eine große Anzahl kleiner Familien, die aus Clustern abgeleitet wurden, die von einem Algorithmus namens ADDA erzeugt wurden. Obwohl von geringerer Qualität, konnten Pfam-B Familien nützlich sein, wenn keine Pfam-A Familien gefunden wurden. Pfam-B wurde mit der Version 28.0 eingestellt und mit der Version 33.1 unter Verwendung eines neuen Clustering-Algorithmus, MMSeqs2, wieder eingeführt.
Pfam wurde ursprünglich auf drei Spiegelseiten weltweit gehostet, um Redundanz zu gewährleisten. Zwischen 2012 und 2014 wurde die Pfam-Ressource jedoch zum EMBL-EBI verlagert, was das Hosting der Website unter einer einzigen Domain (xfam.org) ermöglichte, wobei zwei unabhängige Datenzentren verwendet wurden. Dies ermöglichte eine bessere Zentralisierung von Aktualisierungen und eine Gruppierung mit anderen Xfam-Projekten wie Rfam, TreeFam, iPfam und anderen, während die kritische Ausfallsicherheit durch das Hosting in mehreren Zentren erhalten blieb.
Pfam wurde in den letzten zwei Jahren grundlegend umstrukturiert, um den manuellen Aufwand für die Kuration weiter zu reduzieren und häufigere Aktualisierungen zu ermöglichen.
Community curationEdit
Die Kuration einer so großen Datenbank warf Probleme auf, wenn es darum ging, mit der Menge an neuen Familien und aktualisierten Informationen, die hinzugefügt werden mussten, Schritt zu halten. Um die Veröffentlichung der Datenbank zu beschleunigen, starteten die Entwickler eine Reihe von Initiativen, um eine stärkere Beteiligung der Gemeinschaft an der Verwaltung der Datenbank zu ermöglichen.
Ein entscheidender Schritt zur Beschleunigung der Aktualisierung und Verbesserung der Einträge war die Öffnung der funktionalen Annotation von Pfam-Domänen für die Wikipedia-Gemeinschaft in Version 26.0. Bei Einträgen, die bereits einen Wikipedia-Eintrag hatten, wurde dieser mit der Pfam-Seite verlinkt, und bei Einträgen, die noch keinen Eintrag hatten, wurde die Gemeinschaft aufgefordert, einen solchen zu erstellen und die Kuratoren zu informieren, damit er verlinkt werden kann. Es ist davon auszugehen, dass sich durch die Beteiligung der Gemeinschaft das Niveau der Beschriftung dieser Familien erheblich verbessern wird, dass aber auch einige Familien nicht genügend Beachtung finden werden, um in Wikipedia aufgenommen zu werden, so dass sie ihre ursprüngliche Pfam-Beschreibung beibehalten werden. Einige Wikipedia-Artikel decken mehrere Familien ab, wie z. B. der Zinkfinger-Artikel. Ein automatisiertes Verfahren zur Erstellung von Artikeln auf der Grundlage von InterPro- und Pfam-Daten wurde ebenfalls implementiert. Dabei wird eine Seite mit Informationen und Links zu Datenbanken sowie verfügbaren Bildern gefüllt, und sobald ein Artikel von einem Kurator geprüft wurde, wird er aus der Sandbox in die Wikipedia verschoben. Um Vandalismus an Artikeln vorzubeugen, wird jede Wikipedia-Überarbeitung von Kuratoren überprüft, bevor sie auf der Pfam-Website veröffentlicht wird. Fast alle Fälle von Vandalismus wurden jedoch von der Gemeinschaft korrigiert, bevor sie die Kuratoren erreichen.
Pfam wird von einem internationalen Konsortium aus drei Gruppen betrieben. In den früheren Versionen von Pfam konnten Familieneinträge nur am Standort Cambridge, Großbritannien, geändert werden, was die Möglichkeiten der Mitglieder des Konsortiums einschränkte, zur Pflege der Website beizutragen. In Version 26.0 gingen die Entwickler zu einem neuen System über, das es registrierten Benutzern überall auf der Welt ermöglicht, Pfam-Familien hinzuzufügen oder zu ändern.