Pfam

Nov 3, 2021
admin

Pfam foi fundada em 1995 por Erik Sonhammer, Sean Eddy e Richard Durbin como uma coleção de domínios proteicos comuns que poderiam ser usados para anotar os genes codificadores de proteínas de animais multicelulares. Um de seus principais objetivos iniciais era auxiliar na anotação do genoma C. elegans. O projeto foi parcialmente impulsionado pela afirmação em “Mil famílias para o biólogo molecular” por Cyrus Chothia de que havia cerca de 1500 famílias diferentes de proteínas e que a maioria das proteínas caíram em apenas 1000 delas. Contra esta afirmação, a base de dados da Pfam contém actualmente 16.306 entradas correspondentes a domínios e famílias proteicas únicas. No entanto, muitas destas famílias contêm semelhanças estruturais e funcionais indicando uma origem evolutiva compartilhada (ver Clãs).

Um dos principais pontos de diferença entre a Pfam e outras bases de dados no momento de seu início foi o uso de dois tipos de alinhamento para entradas: um alinhamento de sementes menor, verificado manualmente, bem como um alinhamento completo construído pelo alinhamento de seqüências a um modelo Markov escondido de perfil construído a partir do alinhamento de sementes. Este menor alinhamento de sementes foi mais fácil de atualizar à medida que novos lançamentos de bases de dados de seqüências saíam, representando assim uma solução promissora para o dilema de como manter a base de dados atualizada à medida que o sequenciamento do genoma se tornava mais eficiente e mais dados precisavam ser processados ao longo do tempo. Uma outra melhoria na velocidade em que o banco de dados poderia ser atualizado veio na versão 24.0, com a introdução do HMMER3, que é ~100 vezes mais rápido que o HMMER2 e mais sensível.

Porque as entradas na Pfam-A não cobrem todas as proteínas conhecidas, um suplemento gerado automaticamente foi fornecido chamado Pfam-B. A Pfam-B continha um grande número de pequenas famílias derivadas de clusters produzidos por um algoritmo chamado ADDA. Embora de qualidade inferior, as famílias Pfam-B poderiam ser úteis quando nenhuma família Pfam-A fosse encontrada. Pfam-B foi descontinuado a partir da versão 28.0, então reintroduzido na versão 33.1 usando um novo algoritmo de clustering, MMSeqs2.

Pfam foi originalmente hospedado em três sites espelho ao redor do mundo para preservar a redundância. Entretanto, entre 2012 e 2014, o recurso Pfam foi movido para EMBL-EBI, que permitiu a hospedagem do site a partir de um domínio (xfam.org), usando centros de dados independentes duplicados. Isto permitiu uma melhor centralização das atualizações, e o agrupamento com outros projetos da Xfam, como Rfam, TreeFam, iPfam e outros, mantendo a resiliência crítica fornecida pelo alojamento a partir de múltiplos centros.

Pfam sofreu uma reorganização substancial nos últimos dois anos para reduzir ainda mais o esforço manual envolvido na cura e permitir actualizações mais frequentes.

Community curationEdit

Curação de uma base de dados tão grande apresentou problemas em termos de acompanhar o volume de novas famílias e informações actualizadas que precisavam de ser adicionadas. Para acelerar o lançamento do banco de dados, os desenvolvedores iniciaram uma série de iniciativas para permitir um maior envolvimento da comunidade na gestão do banco de dados.

Um passo crítico para melhorar o ritmo de atualização e de melhoria das entradas foi abrir a anotação funcional dos domínios Pfam para a comunidade Wikipedia na versão 26.0. Para as entradas que já tinham uma entrada da Wikipedia, esta foi ligada à página da Pfam, e para aquelas que não tinham, a comunidade foi convidada a criar uma e informar os curadores, para que ela pudesse ser ligada. Espera-se que, embora o envolvimento da comunidade melhore muito o nível de anotação dessas famílias, algumas não serão suficientemente notáveis para inclusão na Wikipédia, caso em que manterão sua descrição original da Pfam. Alguns artigos da Wikipédia cobrem múltiplas famílias, como o artigo do dedo de zinco. Um procedimento automatizado para gerar artigos baseados nos dados da InterPro e da Pfam também foi implementado, que preenche uma página com informações e links para bancos de dados, bem como imagens disponíveis, então, uma vez que um artigo tenha sido revisto por um curador, ele é movido da Sandbox para a Wikipedia propriamente dita. A fim de proteger contra o vandalismo dos artigos, cada revisão da Wikipédia é revista pelos curadores antes de ser exibida no site da Pfam. Quase todos os casos de vandalismo foram corrigidos pela comunidade antes de chegarem aos curadores, entretanto.

Pfam é dirigida por um consórcio internacional de três grupos. Nas versões anteriores da Pfam, as entradas familiares só podiam ser modificadas no site de Cambridge, Reino Unido, limitando a capacidade dos membros do consórcio de contribuir para a curadoria do site. No lançamento 26.0, os desenvolvedores mudaram para um novo sistema que permitia aos usuários registrados em qualquer parte do mundo adicionar ou modificar as famílias Pfam.

Deixe uma resposta

O seu endereço de email não será publicado.