Pfam

nov 3, 2021
admin

Pfam blev grundlagt i 1995 af Erik Sonhammer, Sean Eddy og Richard Durbin som en samling af almindeligt forekommende proteindomæner, der kunne bruges til at annotere de proteinkodende gener i flercellede dyr. Et af de vigtigste mål ved oprettelsen var at bidrage til annotering af C. elegans-genomet. Projektet blev delvist drevet af Cyrus Chothias påstand i “One thousand families for the molecular biologist” om, at der fandtes ca. 1500 forskellige proteinfamilier, og at størstedelen af proteinerne hørte til blot 1000 af disse. I modsætning til denne påstand indeholder Pfam-databasen i øjeblikket 16 306 poster, der svarer til unikke proteindomæner og -familier. Mange af disse familier indeholder imidlertid strukturelle og funktionelle ligheder, der indikerer en fælles evolutionær oprindelse (se klaner).

En væsentlig forskel mellem Pfam og andre databaser på det tidspunkt, hvor den blev oprettet, var brugen af to alignment-typer for posterne: en mindre, manuelt kontrolleret seed alignment samt en fuld alignment, der er opbygget ved at tilpasse sekvenser til en profil skjult Markov-model, der er opbygget ud fra seed alignment. Denne mindre seed alignment var lettere at opdatere, efterhånden som nye udgivelser af sekvensdatabaser udkom, og udgjorde således en lovende løsning på dilemmaet med at holde databasen ajour, efterhånden som genomsekventering blev mere effektiv, og flere data skulle behandles med tiden. En yderligere forbedring af den hastighed, hvormed databasen kunne opdateres, kom i version 24.0 med indførelsen af HMMER3, som er ~100 gange hurtigere end HMMER2 og mere følsom.

Da posterne i Pfam-A ikke dækker alle kendte proteiner, blev der leveret et automatisk genereret supplement kaldet Pfam-B. Pfam-B indeholdt et stort antal små familier, der var afledt af klynger, der var produceret af en algoritme kaldet ADDA. Selv om de er af lavere kvalitet, kunne Pfam-B-familier være nyttige, når der ikke blev fundet nogen Pfam-A-familier. Pfam-B blev afbrudt fra og med version 28.0 og blev derefter genindført i version 33.1 ved hjælp af en ny clustering-algoritme, MMSeqs2.

Pfam blev oprindeligt hostet på tre spejlsteder rundt om i verden for at bevare redundans. Mellem 2012 og 2014 blev Pfam-ressourcen imidlertid flyttet til EMBL-EBI, hvilket gav mulighed for hosting af webstedet fra ét domæne (xfam.org) ved hjælp af to uafhængige datacentre. Dette gav mulighed for bedre centralisering af opdateringer og gruppering med andre Xfam-projekter såsom Rfam, TreeFam, iPfam og andre, samtidig med at den kritiske robusthed, som hosting fra flere centre giver, blev bevaret.

Pfam har gennemgået en betydelig omorganisering i løbet af de sidste to år for yderligere at reducere den manuelle indsats i forbindelse med kuratering og give mulighed for hyppigere opdateringer.

FællesskabskurateringRediger

Kuratering af en så stor database gav problemer med hensyn til at holde trit med mængden af nye familier og opdaterede oplysninger, der skulle tilføjes. For at fremskynde udgivelserne af databasen startede udviklerne en række initiativer for at give mulighed for større inddragelse af fællesskabet i forvaltningen af databasen.

Et afgørende skridt til at forbedre tempoet i opdateringen og forbedringen af posterne var at åbne den funktionelle annotation af Pfam-domæner for Wikipedia-fællesskabet i version 26.0. For de poster, der allerede havde en Wikipedia-post, blev denne linket til Pfam-siden, og for de poster, der ikke havde en sådan, blev fællesskabet opfordret til at oprette en sådan og informere kuratorerne, så den kunne blive linket ind. Det forventes, at selv om Fællesskabets deltagelse i høj grad vil forbedre annotationsniveauet for disse familier, vil nogle af dem ikke være tilstrækkeligt bemærkelsesværdige til at blive optaget i Wikipedia, og i så fald vil de beholde deres oprindelige Pfam-beskrivelse. Nogle Wikipedia-artikler dækker flere familier, f.eks. artiklen om Zinkfinger. Der er også blevet indført en automatiseret procedure til generering af artikler baseret på InterPro- og Pfam-data, som udfylder en side med oplysninger og links til databaser samt tilgængelige billeder, og når en artikel er blevet gennemgået af en kurator, flyttes den fra sandkassen til den egentlige Wikipedia. For at beskytte mod hærværk mod artikler gennemgås hver Wikipedia-revision af kuratorer, før den vises på Pfam-webstedet. Næsten alle tilfælde af vandalisme er dog blevet rettet af fællesskabet, inden de når kuratorerne.

Pfam drives af et internationalt konsortium bestående af tre grupper. I de tidligere udgaver af Pfam kunne familieposter kun ændres på webstedet i Cambridge i Det Forenede Kongerige, hvilket begrænsede konsortiemedlemmernes mulighed for at bidrage til kuratering af webstedet. I version 26.0 gik udviklerne over til et nyt system, der gjorde det muligt for registrerede brugere overalt i verden at tilføje eller ændre Pfam-familier.

Skriv et svar

Din e-mailadresse vil ikke blive publiceret.