Objectivo
- Para introduzir o Entrez como um sistema de recuperação de dados biológicos
- Para aprender a usar o motor de busca Entrez para recuperar dados da sequência nucleotídica/proteína.
Entrez é um motor de busca integrado que permite aos utilizadores procurar e recuperar diferentes dados do Centro Nacional de Informação Biotecnológica (NCBI). Pode ser acedido a partir do site www.ncbi.nlm.nih.gov/Entrez/. Entrez é o principal sistema de pesquisa e recuperação de textos do NCBI que integra a base de dados PubMed e 39 outras literaturas científicas, bases de dados de nucleotídeos e proteínas, dados do domínio das proteínas, conjuntos de dados de estudos populacionais, dados de expressões, caminhos e sistemas de moléculas em interação, detalhes completos do genoma e informações taxonômicas em um sistema estreitamente interligado. Estas bases de dados de componentes podem ser acessadas usando uma única consulta.
As principais funções do NCBI são:
- Criar bases de dados públicas para armazenar, recuperar e analisar conhecimentos sobre biologia molecular, bioquímica e genética.
- Produção de pesquisa em biologia computacional, para analisar a estrutura e função das moléculas biológicas.
- Desenvolver ferramentas de software para análise de dados genómicos.
- Disseminar informação biomédica.
- Reagrupar informação biotecnológica a nível mundial.
Entrez actuando assim como motor de busca para bases de dados NCBI.A pesquisa pode ser feita de forma mais precisa usando operadores booleanos como AND, OR ou NOT com a declaração de pesquisa. Os limites permitem ao utilizador filtrar a sua pesquisa de acordo com a sua escolha. Uma interface de busca avançada permite realizar consultas mais detalhadas.
As diferentes consultas podem ser pesquisadas na seguinte base. A sintaxe das consultas de pesquisa como mostrado abaixo.
Termos de pesquisa operadores booleanos Termos de pesquisa .
Tabela1: Entrez Boolean Search Statements
Usuário pode realizar uma pesquisa global selecionando a opção padrão “All Databases”, que exibe o resultado das diferentes bases de dados e o número de registros disponíveis para cada base de dados também será mostrado. As bases de dados estão organizadas em três secções principais, das quais a secção superior contém informação sobre bases de dados de literatura, a secção intermédia inclui bases de dados moleculares e a secção inferior inclui bases de dados de literatura acessória, Catálogo NLM e MeSH.
As bases de dados associadas incluídas no Entrez são as seguintes.
- Livros: A livraria oferece acesso livre para pesquisar, recuperar e ler livros e revistas da área das ciências da vida. Pode ser acedido a partir do site http://www.ncbi.nlm.nih.gov/books
- CDD: Conserved Domain Database é uma colecção de anotações de unidades funcionais em proteínas. Contém modelos de domínios anotados manualmente, que utilizam informações de estrutura 3D para definir as relações seqüência/estrutura/função. Pode ser acessada a partir do site www.ncbi.nlm.nih.gov/sites/entrez
- Gene: A base de dados Gene é composta de informações sobre várias espécies, incluindo sua nomenclatura, caminhos associados, RefSeq’s, fenótipos, links para o genoma. Pode ser acessado do site http://www.ncbi.nlm.nih.gov/gene/
- CoreNucleotide: É uma fonte de sequências de diferentes bases de dados incluindo GenBank, RefSeq, TPA, e PDB que será útil para fins de pesquisa. Pode ser acessado do site http://www.ncbi.nlm.nih.gov/sites/entrez?db=nuccore
- EST: A base de dados Expression Sequence Tag é uma colecção de dados do GenBank. Estes são sites com tags de seqüência derivados do cDNA, que atuam como um recurso para avaliar a expressão gênica, encontrar variações potenciais, genes anotados. Pode ser acessado a partir do site http://www.ncbi.nlm.nih.gov/nucest
- Genoma: A base de dados de genomas é uma colecção de informação de genomas que inclui as suas sequências, mapas, cromossomas e anotações. Pode ser acessado a partir do site http://www.ncbi.nlm.nih.gov/genome
- dbGaP: A base de dados de Genótipos e Fenótipos é uma biblioteca de resultados, a partir dos estudos de interação de genótipos e fenótipos. Pode ser acessada a partir do site http://www.ncbi.nlm.nih.gov/gap
- Datasets GEO: O Gene Expression Omnibus (GEO) oferece informações sobre conjuntos de dados de expressão gênica, suas séries originais e registros de plataforma. Ele também fornece informações adicionais, como detalhes experimentais, ferramentas de cluster e consultas de expressões diferenciais. Pode ser acessado no site www.ncbi.nlm.nih.gov/gds
- Perfis GEO: Oferece para procurar por perfis que são importantes na anotação de genes ou características de perfis pré-calculados. Pode ser acessado a partir do site http://www.ncbi.nlm.nih.gov/geoprofiles
- GSS: O banco de dados de nucleotídeos GSS fornece informações dos registros do GenBank of Genome Survey Sequence. Pode ser acessado a partir do site www.ncbi.nlm.nih.gov/nucgss
- HomoloGene: É uma coleção de homólogos dos genes anotados de organismos eucarióticos completamente sequenciados. Pode ser acessado no site www.ncbi.nlm.nih.gov/homologene
- MeSH: MeSH (Medical Subject Headings) é o vocabulário controlado da NLM (Nations Library of Medicine) usado para navegar nos artigos, atuando também como um thesaurus em ciências biomédicas para Pubmed e MEDLINE. Pode ser acessado no site www.ncbi.nlm.nih.gov/mesh
- NCBI Web Site: Navega no site do NCBI. Pode ser acedido a partir do site http://www.ncbi.nlm.nih.gov/
- Catálogo NLM: NLM (United States National Library of Medicine) é a maior biblioteca médica que oferece acesso a livros, revistas, informações técnicas, audiovisuais, softwares e outros recursos. Pode ser acessada a partir do site http://www.ncbi.nlm.nih.gov/nlmcatalog
- OMIM: É uma abrangente base de dados de recursos para genes humanos e doenças genéticas. Contém informação sobre genes humanos e fenótipos genéticos, que é actualizada diariamente. Pode ser acessado no site www.ncbi.nlm.nih.gov/omim
- OMIA: Online Mendelian Inheritance in Animals está atuando como um recurso para genes, desordens hereditárias e traços em mais de 135 espécies animais, de autoria do Professor Frank Nicholas. Ela fornece acesso a espécies animais, excluindo aquelas em humanos e ratos, para as quais são oferecidos dados específicos de espécies. Pode ser acessado pelo site http://www.ncbi.nlm.nih.gov/omia
- PopSet: O conjunto de dados do estudo populacional é um conjunto de seqüências de DNA, coletadas para estudar a relação evolutiva de uma população. Pode ser acessado a partir do site http://www.ncbi.nlm.nih.gov/popset
- Sonda: É um conjunto de reagentes de ácidos nucléicos. Também contém informação sobre distribuidores de reagentes, eficácia da sonda e semelhanças de sequência computorizada. Pode ser acedido a partir do site http://www.ncbi.nlm.nih.gov/ sonda
- Base de dados de seqüências de proteínas: É uma colecção de sequências do GenBank, RefSeq, TAP, SwissProt, PIR, PRF, PDB. Pode ser acedido a partir do site www.ncbi.nlm.nih.gov/protein
- Pubchem BioAssay: Contém informação de telas de bioactividade de substâncias químicas da PubChem. Pode ser acessado a partir do site www.ncbi.nlm.nih.gov/pcassay
- Composto PubChem: Contém compostos com as suas estruturas únicas e informação biológica das substâncias de PubChem. Pode ser acessado no site www.ncbi.nlm.nih.gov/pccompound
- Substância PubChem: É uma coleção de registros de substâncias dos depositantes para o sistema, descrições de amostras e links para resultados de triagem biológica que estão disponíveis no PubChem BioAssay. Pode ser acessado no site www.ncbi.nlm.nih.gov/pcsubstance
- PubMed: PubMed é um sistema de busca de informações de saúde de livre acesso, desenvolvido e mantido pelo Centro Nacional de Informações em Biotecnologia (NCBI) na Biblioteca Nacional de Medicina (NLM). Contém artigos do MEDLINE e outros artigos biomédicos. Pode ser acessado no site www.ncbi.nlm.nih.gov/pubmed
- Pubmed Central: PubMed central é um recurso digital de acesso livre de artigos de texto completo para revistas biomédicas de ciências da vida, que está ligado à base de dados PubMed. Pode ser acedido a partir do site www.ncbi.nlm.nih.gov/pmc/
- SNP: A base de dados SNP contém informação de polimorfismos de nucleótidos únicos, polimorfismos de inserção e eliminação curtos. Pode ser acessado a partir do site www.ncbi.nlm.nih.gov/snp
- Estrutura: A base de dados da estrutura contém informação de estruturas tridimensionais de proteínas e outros polinucleótidos. Pode ser acessada a partir do site www.ncbi.nlm.nih.gov/structure
- Taxonomia: A taxonomia contém informação de todos os organismos que estão incluídos na base de dados genética com o seu nucleótido ou sequência de proteínas. Pode ser acessado a partir do site www.ncbi.nlm.nih.gov/Taxonomy/taxonomyhome.html/
- UniGene: identifica transcrições do mesmo locus, analisa expressão por tecido, idade, estado de saúde e reporta proteínas relacionadas (protesto) e recursos de clones. Pode ser acessado no site www.ncbi.nlm.nih.gov/unigene
- UniSTS: Contém informações sobre os Sequenced Tagged Sites (STS) que são dos pares de PCR primer com suas posições genômicas, genes e informações de seqüência de mapas baseados em STS e outros experimentos. Pode ser acessado do site www.ncbi.nlm.nih.gov/unists
- BioSample: É uma coleção de informações de diferentes materiais de origem biológica usados em ensaios experimentais. Pode ser acessada no site www.ncbi.nlm.nih.gov/biosample
Os resultados da pesquisa de consulta são representados em diferentes formatos de dados como GenBank, FASTA.
GenBank : GenBank é uma coleção de seqüências de DNA anotadas, que é a base de dados de seqüências genéticas do NIH. Os diferentes componentes de parâmetros incluídos são explicados abaixo.
- O nome do locus ajuda nas entradas de grupo com sequências semelhantes. Os primeiros 3 caracteres indicam o organismo, o quarto e quinto caracteres dão outras designações de grupo, como produto gênico e o último caractere é uma série de inteiros sequenciais.
- Sequence Length contém número de pares de bases de nucleotídeos (ou resíduos de aminoácidos) no registro de sequências.
- Molecule Type mostra o tipo de molécula sequenciada .
- Genbank Division mostra a divisão GenBank à qual pertence um registro e é indicada por uma abreviatura de três letras.
1. PRI – seqüências de primatas
2. ROD – seqüências de roedores
3. MAM – outras seqüências de mamíferos
4. VRT – outras seqüências de vertebrados
5. INV – sequências de invertebrados
6. PLN – sequências de plantas, fungos e algas
7. BCT – sequências bacterianas
8. VRL – sequências virais
9. PHG – seqüências bacteriófagas
10. SYN – seqüências sintéticas
11. UNA – seqüências não anotadas
12. EST – seqüências EST (seqüências expressas em tags)
13. PAT – seqüências de patentes
14. STS – seqüências STS (seqüências de sites etiquetados)
15. GSS – seqüências GSS (seqüências de levantamento do genoma)
16. HTG – Sequências HTG (seq. genómica de alta produtividade)
17. HTC – sequência cDNA de alta produção inacabada
18. ENV – seqüências de amostragem ambiental
- Data de modificação mostra a última data de modificação.
- Definição é uma breve descrição da seqüência que inclui informações como organismo fonte, nome do gene/nome da proteína, ou alguma descrição da função da seqüência.
- Número de adesão indica o identificador único para um registro de seqüência.
- Records from the RefSeq
NT_123456 contigs genómicos construídos
NM_123456 mRNAs
NP_123456 proteins
NC_123456 chromosomas
- Versão mostra um número de identificação de sequência nucleotídica que representa um único, sequência específica na base de dados do GenBank.
- GI “GenInfo Identifier” é um número de identificação da sequência de nucleótidos.
- Palavras-chave descreve a palavra ou frase da sequência.
- Fonte indica informação em formato livre incluindo uma forma abreviada do nome do organismo, por vezes seguida de um tipo de molécula.
- Organismo descreve o nome científico formal do organismo fonte e sua linhagem.
- Referência inclui publicações dos autores da seqüência que discutem os dados relatados no registro.
- Autores contém Lista de autores na ordem em que aparecem no artigo citado.
Campo de Busca Entrez: Autor
- Título representa o título do trabalho publicado ou título provisório de uma palavra não publicada.
Campo de Busca Entrez: Palavra de texto
- Periódico: Abreviatura MEDLINE do nome do periódico.
Campo de Busca Entrez: Nome do periódico
- Pubmed: PubMed Identifier (PMID)
- Features shows information about genes and gene products, as well as regions of biological significance reported in the sequence.
- Source is a mandatory feature in each record that summarizes the length of the sequence, scientific name of the source organism, and Taxon ID number. Pode também incluir outras informações como localização do mapa, estirpe, clone, tipo de tecido, etc.., se fornecido por submitter.
- Taxon é um número de identificação único e estável para o taxon do organismo de origem.
- CDS (Coding sequence) representa a região dos nucleotídeos que corresponde à seqüência de aminoácidos em uma proteína.
Figure 1 : Arquivo GenBank obtido do banco de dados NCBI para a entrada Homo sapiens Neurexin1
FASTA: É um formato de arquivo usado para representar seqüências de nucleotídeos ou proteínas como uma string com alguma tag ou identificador básico no qual nucleotídeos ou aminoácidos são representados como códigos de letra única. Uma sequência FASTA começa com um (>) maior do que o símbolo, o que implica o início de uma nova sequência de registos chamada como linha de definição (“def line”). Um número de adesão ou número de versão é seguido pela descrição dessa entrada. A seqüência de DNA em letras maiúsculas ou minúsculas começa a partir da linha seguinte. As sequências contêm 60 caracteres por linha.
Figure 2: formato de ficheiro FASTA obtido da base de dados NCBI para a entrada Homo sapiens Neurexin1
Estas sequências que estão armazenadas na base de dados foram obtidas a partir de diferentes métodos experimentais. Os métodos mais utilizados para sequenciamento de ADN são o Método Sanger e o Método Maxam-Gilbert. Da mesma forma, o método de degradação Edman e a técnica de espectrometria de massa são usados para seqüenciamento de proteínas.
Sanger Method (dideoxy chain termination method): Aqui 4 tubos de ensaio são tomados rotulados com A, T, G e C. Em cada um dos tubos de ensaio o DNA tem que ser adicionado na forma desnaturada (fios simples). Em seguida, deve ser adicionado um primer que repõe um dos cordões no modelo. A extremidade de 3′ do primer acomoda os nucleotídeos dideóxidos (específicos para cada tubo), bem como os nucleotídeos desoxídicos de forma aleatória. Quando os ddNTP’s se ligam à cadeia de crescimento, a cadeia termina com a falta de 3’OH, que forma a ligação do diéster fosfato com o próximo nucleotídeo. Assim, pequenos filamentos de DNA são formados. A electroforese é feita e a ordem da sequência pode ser obtida analisando as bandas no gel com base no peso molecular. O primer ou um dos nucleotídeos também pode ser rotulado radioativamente ou fluorescentemente, para que o produto final possa ser detectado facilmente do gel e a seqüência possa ser inferida.
Maxam-Gilbert (método de degradação química): Este método requer fragmento de ADN desnaturado cuja extremidade 5′ é radioactivamente rotulada. Este fragmento é então sujeito a purificação antes de proceder ao tratamento químico, o que resulta numa série de fragmentos rotulados. A técnica de electroforese ajuda a organizar os fragmentos com base no seu peso molecular. Para visualizar os fragmentos, o gel é exposto a uma película de raios X para autoradiografia. Uma série de bandas escuras aparecerá, cada uma correspondendo a um fragmento de DNA rotulado por rádio, a partir do qual a sequência pode ser inferida.
Edman Reação de degradação: A reacção encontra a ordem dos aminoácidos numa proteína do terminal N, clivando cada aminoácido do terminal N sem perturbar as ligações na proteína. Após cada clivagem, é feita uma cromatografia ou eletroforese para identificar o aminoácido