Pfam

nov 3, 2021
admin

Pfam werd in 1995 opgericht door Erik Sonhammer, Sean Eddy en Richard Durbin als een verzameling van algemeen voorkomende eiwitdomeinen die konden worden gebruikt om de eiwitcoderende genen van meercellige dieren te annoteren. Een van de belangrijkste doelstellingen bij de aanvang was te helpen bij de annotatie van het genoom van C. elegans. Het project werd gedeeltelijk ingegeven door de bewering van Cyrus Chothia in “Duizend families voor de moleculaire bioloog” dat er ongeveer 1500 verschillende families van proteïnen waren en dat de meeste proteïnen in slechts 1000 van deze families vielen. In tegenstelling tot deze bewering bevat de Pfam-database momenteel 16.306 gegevens die overeenkomen met unieke eiwitdomeinen en -families. Echter, veel van deze families bevatten structurele en functionele overeenkomsten die wijzen op een gedeelde evolutionaire oorsprong (zie Clans).

Een belangrijk punt van verschil tussen Pfam en andere databases ten tijde van het begin was het gebruik van twee soorten uitlijningen voor ingangen: een kleinere, handmatig gecontroleerde zaaduitlijning, en een volledige uitlijning die is opgebouwd door sequenties uit te lijnen op een profiel verborgen Markov model dat is opgebouwd uit de zaaduitlijning. Deze kleinere seed alignment was gemakkelijker bij te werken naarmate nieuwe releases van sequentiedatabanken uitkwamen, en vormde dus een veelbelovende oplossing voor het dilemma hoe de databank up-to-date te houden naarmate genoomsequencing efficiënter werd en meer gegevens in de loop van de tijd moesten worden verwerkt. Een verdere verbetering van de snelheid waarmee de database kon worden bijgewerkt kwam in versie 24.0, met de introductie van HMMER3, die ~100 keer sneller is dan HMMER2 en gevoeliger.

Omdat de ingangen in Pfam-A niet alle bekende eiwitten omvatten, werd een automatisch gegenereerd supplement geleverd, genaamd Pfam-B. Pfam-B bevatte een groot aantal kleine families die waren afgeleid van clusters die waren geproduceerd door een algoritme met de naam ADDA. Hoewel van mindere kwaliteit, konden Pfam-B families nuttig zijn als er geen Pfam-A families gevonden werden. Pfam-B werd gestopt vanaf versie 28.0, en vervolgens opnieuw geïntroduceerd in versie 33.1 met behulp van een nieuw clusteringalgoritme, MMSeqs2.

Pfam werd oorspronkelijk gehost op drie mirrorsites over de hele wereld om redundantie te behouden. Tussen 2012 en 2014 werd de Pfam-bron echter verplaatst naar EMBL-EBI, waardoor de website vanuit één domein (xfam.org) kon worden gehost, met gebruikmaking van twee onafhankelijke datacentra. Dit maakte een betere centralisatie van updates mogelijk, en groepering met andere Xfam-projecten zoals Rfam, TreeFam, iPfam en andere, met behoud van de kritische veerkracht die wordt geboden door hosting vanuit meerdere centra.

Pfam is de afgelopen twee jaar ingrijpend gereorganiseerd om de handmatige werkzaamheden bij het samenstellen verder te verminderen en frequentere updates mogelijk te maken.

Community curationEdit

Het samenstellen van zo’n grote databank leverde problemen op met betrekking tot het bijhouden van de hoeveelheid nieuwe families en bijgewerkte informatie die moest worden toegevoegd. Om releases van de database te versnellen, startten de ontwikkelaars een aantal initiatieven om een grotere betrokkenheid van de gemeenschap bij het beheer van de database mogelijk te maken.

Een cruciale stap in het verbeteren van het tempo van het bijwerken en verbeteren van vermeldingen was het openstellen van de functionele annotatie van Pfam-domeinen voor de Wikipedia-gemeenschap in release 26.0. Voor vermeldingen die al een Wikipedia-item hadden, werd dit gekoppeld aan de Pfam-pagina, en voor degenen die dat niet hadden, werd de gemeenschap uitgenodigd om er een te maken en de curatoren op de hoogte te stellen, zodat het gekoppeld kon worden. Er wordt verwacht dat, terwijl de betrokkenheid van de gemeenschap het niveau van annotatie van deze families sterk zal verbeteren, sommige onvoldoende opmerkelijk zullen blijven voor opname in Wikipedia, in welk geval zij hun oorspronkelijke Pfam-beschrijving zullen behouden. Sommige Wikipedia-artikelen hebben betrekking op meerdere families, zoals het Zinkvinger artikel. Een geautomatiseerde procedure voor het genereren van artikelen op basis van InterPro en Pfam-gegevens is ook geïmplementeerd, die een pagina vult met informatie en links naar databases en beschikbare afbeeldingen, dan zodra een artikel is beoordeeld door een curator wordt het verplaatst van de Sandbox naar Wikipedia zelf. Om te waken tegen vandalisme van artikelen, wordt elke Wikipedia-revisie beoordeeld door curatoren voordat het wordt weergegeven op de Pfam-website. Bijna alle gevallen van vandalisme zijn echter al gecorrigeerd door de gemeenschap voordat ze curatoren bereiken.

Pfam wordt beheerd door een internationaal consortium van drie groepen. In de eerdere versies van Pfam konden familiegegevens alleen worden gewijzigd op de site in Cambridge, Groot-Brittannië, waardoor de mogelijkheid van leden van het consortium om bij te dragen aan de curatie van de site werd beperkt. In versie 26.0 zijn de ontwikkelaars overgestapt op een nieuw systeem waarmee geregistreerde gebruikers overal ter wereld Pfam-families kunnen toevoegen of wijzigen.

Geef een antwoord

Het e-mailadres wordt niet gepubliceerd.