Ziel

Nov 26, 2021
admin

  • Einführung in Entrez als biologisches Datenabfragesystem
  • Erlernen der Verwendung der Entrez-Suchmaschine zum Abrufen von Nukleotid-/Protein-Sequenzdaten.

Entrez ist eine integrierte Suchmaschine, die es den Benutzern ermöglicht, verschiedene Daten des National Center for Biotechnology Information (NCBI) zu suchen und abzurufen. Sie kann über die Website www.ncbi.nlm.nih.gov/Entrez/ aufgerufen werden. Entrez ist das wichtigste Textsuch- und -abfragesystem des NCBI, das die PubMed-Datenbank und 39 weitere wissenschaftliche Literatur, Nukleotid- und Proteindatenbanken, Proteindomänendaten, Datensätze von Bevölkerungsstudien, Expressionsdaten, Signalwege und Systeme interagierender Moleküle, vollständige Genomangaben und taxonomische Informationen in ein eng miteinander verknüpftes System integriert. Auf diese Komponentendatenbanken kann mit einer einzigen Abfrage zugegriffen werden.

Die Hauptfunktionen des NCBI sind:

  1. Erstellung öffentlicher Datenbanken zum Speichern, Abrufen und Analysieren von Wissen über Molekularbiologie, Biochemie und Genetik.
  2. Forschung im Bereich der Computerbiologie zur Analyse der Struktur und Funktion biologischer Moleküle.
  3. Entwickeln von Software-Tools zur Analyse genomischer Daten.
  4. Verbreiten biomedizinischer Informationen.
  5. Sammeln biotechnologischer Informationen weltweit.

Entrez fungiert dabei als Suchmaschine für NCBI-Datenbanken.

Die Suche kann durch die Verwendung von Booleschen Operatoren wie AND, OR oder NOT mit der Suchanweisung präzisiert werden. Limits erlauben es dem Benutzer, seine Suche nach seinen Wünschen zu filtern. Eine erweiterte Suchschnittstelle ermöglicht die Durchführung detaillierterer Abfragen.

Die verschiedenen Abfragen können auf der folgenden Grundlage durchgeführt werden. Die Syntax für die Suchabfragen wird im Folgenden dargestellt.

Suchbegriff Boolesche Operatoren Suchbegriff .

Tabelle1: Entrez Boolesche Suchanweisungen

Der Benutzer kann eine globale Suche durchführen, indem er die Standardoption „Alle Datenbanken“ auswählt, die die Ergebnisse aus den verschiedenen Datenbanken anzeigt, und die Anzahl der für jede Datenbank verfügbaren Datensätze wird ebenfalls angezeigt. Die Datenbanken sind in drei Hauptabschnitte unterteilt, von denen der obere Abschnitt Informationen über Literaturdatenbanken enthält, der mittlere Abschnitt enthält molekulare Datenbanken und der untere Abschnitt enthält zusätzliche Literaturdatenbanken, Zeitschriften, den NLM-Katalog und MeSH.

Die zugehörigen Datenbanken, die in Entrez enthalten sind, sind wie folgt.

  • Bücher: Bookshelf bietet kostenlosen Zugang zum Suchen, Abrufen und Lesen von Büchern und Zeitschriften aus dem Bereich der Lebenswissenschaften. Der Zugriff erfolgt über die Website http://www.ncbi.nlm.nih.gov/books

  • CDD: Conserved Domain Database ist eine Sammlung von Annotationen funktioneller Einheiten in Proteinen. Sie enthält manuell annotierte Domänenmodelle, die 3D-Strukturinformationen verwenden, um Sequenz/Struktur/Funktionsbeziehungen zu definieren. Der Zugriff erfolgt über die Website www.ncbi.nlm.nih.gov/sites/entrez
  • Gene: Die Gendatenbank enthält Informationen über verschiedene Spezies, einschließlich ihrer Nomenklatur, assoziierter Pfade, RefSeqs, Phänotypen und Links zum Genom. Der Zugriff erfolgt über die Website http://www.ncbi.nlm.nih.gov/gene/
  • CoreNucleotide: Sie ist eine Quelle für Sequenzen aus verschiedenen Datenbanken wie GenBank, RefSeq, TPA und PDB, die für Forschungszwecke hilfreich sind. Der Zugriff erfolgt über die Website http://www.ncbi.nlm.nih.gov/sites/entrez?db=nuccore

  • EST: Expression Sequence Tag database ist eine Sammlung von Daten aus GenBank. Dabei handelt es sich um von cDNA abgeleitete Sequenzmarkierungen, die als Ressource für die Bewertung der Genexpression, die Suche nach potenziellen Variationen und die Annotation von Genen dienen. Der Zugriff erfolgt über die Website http://www.ncbi.nlm.nih.gov/nucest

  • Genom: Die Genomdatenbank ist eine Sammlung von Genominformationen, die Sequenzen, Karten, Chromosomen und Anmerkungen enthalten. Sie kann über die Website http://www.ncbi.nlm.nih.gov/genome

  • dbGaP: Die Datenbank der Genotypen und Phänotypen ist eine Bibliothek der Ergebnisse von Studien über die Interaktion von Genotypen und Phänotypen. Sie kann über die Website http://www.ncbi.nlm.nih.gov/gap

  • GEO Datasets aufgerufen werden: Der Gene Expression Omnibus (GEO) bietet Informationen über Genexpressionsdatensätze, ihre ursprünglichen Serien und Plattformeinträge. Außerdem bietet er zusätzliche Informationen wie experimentelle Details, Cluster-Tools und Abfragen zur differentiellen Expression. Der Zugriff erfolgt über die Website www.ncbi.nlm.nih.gov/gds

  • GEO-Profile: Es bietet die Möglichkeit, nach Profilen zu suchen, die für die Genannotation oder für vorberechnete Profilmerkmale wichtig sind. Der Zugriff erfolgt über die Website http://www.ncbi.nlm.nih.gov/geoprofiles

  • GSS: Die GSS-Nukleotiddatenbank bietet Informationen aus GenBank von Genome Survey Sequence Records. Der Zugriff erfolgt über die Website www.ncbi.nlm.nih.gov/nucgss

  • HomoloGene: Es handelt sich um eine Sammlung von Homologen aus den annotierten Genen vollständig sequenzierter eukaryontischer Organismen. Der Zugriff erfolgt über die Website www.ncbi.nlm.nih.gov/homologene

  • MeSH: MeSH (Medical Subject Headings) ist das kontrollierte Vokabular der NLM (Nations Library of Medicine), das zum Durchsuchen von Artikeln verwendet wird und auch als Thesaurus in den biomedizinischen Wissenschaften für Pubmed und MEDLINE dient. Es kann über die Website www.ncbi.nlm.nih.gov/mesh

  • NCBI Web Site aufgerufen werden: Er durchsucht die NCBI-Website. Der Zugriff erfolgt über die Website http://www.ncbi.nlm.nih.gov/

  • NLM Catalog: NLM (United States National Library of Medicine) ist die größte medizinische Bibliothek, die Zugang zu Büchern, Zeitschriften, technischen Informationen, audiovisuellen Medien, Software und anderen Ressourcen bietet. Der Zugriff erfolgt über die Website http://www.ncbi.nlm.nih.gov/nlmcatalog

  • OMIM: Es handelt sich um eine umfassende Datenbank für menschliche Gene und genetische Störungen. Sie enthält Informationen über menschliche Gene und genetische Phänotypen, die täglich aktualisiert werden. Der Zugriff erfolgt über die Website www.ncbi.nlm.nih.gov/omim

  • OMIA: Online Mendelian Inheritance in Animals dient als Ressource für Gene, Erbkrankheiten und Merkmale bei mehr als 135 Tierarten und wird von Professor Frank Nicholas erstellt. Sie bietet Zugang zu Tierarten mit Ausnahme von Mensch und Maus, für die artspezifische Daten angeboten werden. Es kann über die Website http://www.ncbi.nlm.nih.gov/omia

  • PopSet aufgerufen werden: Population Study Dataset ist eine Sammlung von DNA-Sequenzen, die zur Untersuchung der evolutionären Verwandtschaft einer Population gesammelt wurden. Es kann über die Website http://www.ncbi.nlm.nih.gov/popset

  • Probe abgerufen werden: Es handelt sich um eine Sammlung von Nukleinsäure-Reagenzien. Sie enthält auch Informationen über Reagenzienverteiler, Sondenwirksamkeit und berechnete Sequenzähnlichkeiten. Sie kann über die Website http://www.ncbi.nlm.nih.gov/probe

  • Protein Sequence Database aufgerufen werden: Es handelt sich um eine Sammlung von Sequenzen aus GenBank, RefSeq, TAP, SwissProt, PIR, PRF, PDB. Sie kann über die Website www.ncbi.nlm.nih.gov/protein

  • Pubchem BioAssay aufgerufen werden: Sie enthält Informationen über Bioaktivitäts-Screens von chemischen Substanzen aus PubChem. Sie kann über die Website www.ncbi.nlm.nih.gov/pcassay

  • PubChem Compound aufgerufen werden: Sie enthält Verbindungen mit ihren einzigartigen Strukturen und biologischen Informationen aus PubChem-Substanzen. Sie kann über die Website www.ncbi.nlm.nih.gov/pccompound

  • PubChem Substance aufgerufen werden: Es handelt sich um eine Sammlung von Einträgen von Stoffen, die von den Hinterlegern in das System eingegeben wurden, Beschreibungen von Proben und Links zu biologischen Screening-Ergebnissen, die in PubChem BioAssay verfügbar sind. Der Zugriff erfolgt über die Website www.ncbi.nlm.nih.gov/pcsubstance

  • PubMed: PubMed ist ein frei zugängliches Datenbanksuchsystem für Gesundheitsinformationen, das vom National Center for Biotechnology Information (NCBI) an der National Library of Medicine (NLM) entwickelt und gepflegt wird. Es enthält Artikel aus MEDLINE und andere biomedizinische Artikel. Sie kann über die Website www.ncbi.nlm.nih.gov/pubmed

  • Pubmed Central aufgerufen werden: PubMed Central ist eine frei zugängliche digitale Ressource von Volltextartikeln für biomedizinische biowissenschaftliche Zeitschriften, die mit der Datenbank PubMed verknüpft ist. Der Zugriff erfolgt über die Website www.ncbi.nlm.nih.gov/pmc/

  • SNP: Die SNP-Datenbank enthält Informationen über Einzelnukleotidpolymorphismen, kurze Insertions- und Deletionspolymorphismen. Sie kann über die Website www.ncbi.nlm.nih.gov/snp

  • Struktur aufgerufen werden: Die Strukturdatenbank enthält Informationen über dreidimensionale Strukturen von Proteinen und anderen Polynukleotiden. Sie kann über die Website www.ncbi.nlm.nih.gov/structure

  • Taxonomie aufgerufen werden: Die Taxonomie enthält Informationen über alle Organismen, die in der genetischen Datenbank mit ihrer Nukleotid- oder Proteinsequenz enthalten sind. Sie kann über die Website www.ncbi.nlm.nih.gov/Taxonomy/taxonomyhome.html/

  • UniGene aufgerufen werden: Sie identifiziert Transkripte desselben Locus, analysiert die Expression nach Gewebe, Alter und Gesundheitszustand und meldet verwandte Proteine (Protest) und Klonressourcen. Es kann über die Website www.ncbi.nlm.nih.gov/unigene

  • UniSTS aufgerufen werden: Es enthält Informationen über Sequenced Tagged Sites (STS), die aus den PCR-Primerpaaren mit ihren genomischen Positionen, Genen und Sequenzinformationen aus STS-basierten Karten und anderen Experimenten stammen. Der Zugriff erfolgt über die Website www.ncbi.nlm.nih.gov/unists

  • BioSample: Es handelt sich um eine Sammlung von Informationen über verschiedene biologische Ausgangsmaterialien, die in experimentellen Versuchen verwendet werden. Der Zugriff erfolgt über die Website www.ncbi.nlm.nih.gov/biosample

Die Ergebnisse der Abfragesuche werden in verschiedenen Datenformaten wie GenBank und FASTA dargestellt.

GenBank: GenBank ist eine Sammlung annotierter DNA-Sequenzen, die genetische Sequenzdatenbank des NIH. Die verschiedenen enthaltenen Parameterkomponenten werden im Folgenden erläutert.

  • Der Locus-Name hilft bei der Gruppierung von Einträgen mit ähnlichen Sequenzen. Die ersten drei Zeichen bezeichnen den Organismus, das vierte und fünfte Zeichen geben andere Gruppenbezeichnungen an, wie z. B. Genprodukt, und das letzte Zeichen ist eine Reihe von aufeinanderfolgenden ganzen Zahlen.
  • Sequenzlänge enthält die Anzahl der Nukleotidbasenpaare (oder Aminosäurereste) im Sequenzeintrag.
  • Molekültyp zeigt den Typ des sequenzierten Moleküls an.
  • Genbank-Abteilung zeigt die GenBank-Abteilung an, zu der ein Datensatz gehört, und wird durch eine Abkürzung mit drei Buchstaben angegeben.

1. PRI – Primaten-Sequenzen
2. ROD – Nager-Sequenzen
3. MAM – andere Säugetier-Sequenzen
4. VRT – andere Wirbeltier-Sequenzen
5. INV – Wirbellose Sequenzen
6. PLN – Pflanzen-, Pilz- und Algensequenzen
7. BCT – bakterielle Sequenzen
8. VRL – virale Sequenzen
9. PHG – Bakteriophagen-Sequenzen
10. SYN – synthetische Sequenzen
11. UNA – unannotierte Sequenzen
12. EST – EST-Sequenzen (expressed sequence tags)
13. PAT – Patentsequenzen
14. STS – STS-Sequenzen (sequence tagged sites)
15. GSS – GSS-Sequenzen (genome survey sequences)
16. HTG – HTG-Sequenzen (genomische Hochdurchsatz-Sequenzen)
17. HTC – unvollendete Hochdurchsatz-cDNA-Sequenzierung
18. ENV – Umweltproben-Sequenzen

  • Das Änderungsdatum zeigt das letzte Änderungsdatum an.
  • Die Definition ist eine kurze Beschreibung der Sequenz, die Informationen wie den Ausgangsorganismus, den Gennamen/Proteinnamen oder eine Beschreibung der Funktion der Sequenz enthält.
  • Die Zugangsnummer ist die eindeutige Kennung für einen Sequenzdatensatz.
  • Datensätze aus der RefSeq

NT_123456 konstruierte genomische Contigs
NM_123456 mRNAs
NP_123456 Proteine
NC_123456 Chromosomen

  • Version zeigt eine Nukleotidsequenz-Identifikationsnummer, die eine einzelne, spezifische Sequenz in der GenBank-Datenbank darstellt.
  • GI „GenInfo Identifier“ ist eine Sequenz-Identifikationsnummer für die Nukleotidsequenz.
  • Schlüsselwörter beschreibt ein Wort oder eine Phrase der Sequenz.
  • Quelle zeigt Informationen im freien Format an, einschließlich einer abgekürzten Form des Organismusnamens, manchmal gefolgt von einem Molekültyp.
  • Organismus beschreibt den formalen wissenschaftlichen Namen des Ausgangsorganismus und seiner Abstammung.

  • Referenz enthält Veröffentlichungen der Autoren der Sequenz, die die im Datensatz gemeldeten Daten erörtern.
  • Autoren enthält Liste der Autoren in der Reihenfolge, in der sie im zitierten Artikel erscheinen.

Entrez-Suchfeld: Autor

  • Titel steht für den Titel der veröffentlichten Arbeit oder den vorläufigen Titel eines unveröffentlichten Wortes.

Entrez Search Field: Text Word

  • Journal: MEDLINE-Abkürzung des Zeitschriftennamens.

Entrez Search Field: Journal Name

  • Pubmed: PubMed Identifier (PMID)
  • Features zeigt Informationen über Gene und Genprodukte sowie Regionen von biologischer Bedeutung, die in der Sequenz gemeldet werden.
  • Source ist ein obligatorisches Merkmal in jedem Datensatz, das die Länge der Sequenz, den wissenschaftlichen Namen des Ausgangsorganismus und die Taxon-ID-Nummer zusammenfasst. Kann auch andere Informationen wie Kartenstandort, Stamm, Klon, Gewebetyp usw. enthalten,
  • Taxon ist eine stabile, eindeutige Identifikationsnummer für das Taxon des Ausgangsorganismus.
  • CDS (Coding Sequence) ist eine Region von Nukleotiden, die der Sequenz von Aminosäuren in einem Protein entspricht.

Abbildung 1: GenBank-Datei aus der NCBI-Datenbank für den Eintrag Homo sapiens Neurexin1

FASTA: Es handelt sich um ein Dateiformat zur Darstellung von Nukleotid- oder Proteinsequenzen als Zeichenkette mit einem grundlegenden Tag oder Bezeichner, in dem Nukleotide oder Aminosäuren als Einbuchstabencodes dargestellt werden. Eine FASTA-Sequenz beginnt mit einem (>) Größer-als-Symbol, das den Beginn eines neuen Sequenzdatensatzes bedeutet, der als Definitionszeile („def line“) bezeichnet wird. Auf eine Hinterlegungsnummer oder Versionsnummer folgt eine Beschreibung dieses Eintrags. Die DNA-Sequenz in Groß- oder Kleinbuchstaben beginnt in der nächsten Zeile. Die Sequenzen enthalten 60 Zeichen pro Zeile.

Abbildung 2: FASTA-Dateiformat aus der NCBI-Datenbank für den Eintrag Homo sapiens Neurexin1

Diese in der Datenbank gespeicherten Sequenzen wurden mit verschiedenen experimentellen Methoden gewonnen. Die am häufigsten verwendeten Methoden zur DNA-Sequenzierung sind die Sanger-Methode und die Maxam-Gilbert-Methode. In ähnlicher Weise werden die Edman-Abbau-Methode und die Massenspektrometrie für die Proteinsequenzierung verwendet.

Sanger-Methode (Dideoxy-Kettenabbruch-Methode): Hier werden 4 Reagenzgläser genommen, die mit A, T, G und C beschriftet sind. In jedes der Reagenzgläser muss DNA in denaturierter Form (Einzelstränge) gegeben werden. Dann wird ein Primer hinzugefügt, der sich an einen der Stränge in der Vorlage anlagert. Das 3′-Ende des Primers nimmt sowohl die Didesoxy-Nukleotide (spezifisch für jedes Reagenzglas) als auch die Desoxy-Nukleotide zufällig auf. Wenn die ddNTPs an die wachsende Kette angehängt werden, endet die Kette aufgrund des Fehlens von 3’OH, das die Phospho-Diester-Bindung mit dem nächsten Nukleotid bildet. Auf diese Weise werden kleine DNA-Stränge gebildet. Die Elektrophorese wird durchgeführt und die Reihenfolge der Sequenz kann durch Analyse der Banden im Gel anhand des Molekulargewichts ermittelt werden. Der Primer oder eines der Nukleotide kann auch radioaktiv oder fluoreszierend markiert werden, so dass das Endprodukt im Gel leicht nachgewiesen und die Sequenz abgeleitet werden kann.

Maxam-Gilbert (chemische Abbaumethode): Diese Methode erfordert ein denaturiertes DNA-Fragment, dessen 5′-Ende radioaktiv markiert ist. Dieses Fragment wird dann einer Reinigung unterzogen, bevor es einer chemischen Behandlung unterzogen wird, die zu einer Reihe markierter Fragmente führt. Die Elektrophorese-Technik hilft bei der Anordnung der Fragmente auf der Grundlage ihres Molekulargewichts. Um die Fragmente zu betrachten, wird das Gel für die Autoradiographie einem Röntgenfilm ausgesetzt. Es erscheint eine Reihe von dunklen Banden, die jeweils einem radioaktiv markierten DNA-Fragment entsprechen, aus dem die Sequenz abgeleitet werden kann.

Edman-Abbaureaktion: Diese Reaktion ermittelt die Reihenfolge der Aminosäuren in einem Protein vom N-Terminus aus, indem jede Aminosäure vom N-Terminus abgespalten wird, ohne die Bindungen im Protein zu unterbrechen. Nach jeder Abspaltung wird eine Chromatographie oder Elektrophorese durchgeführt, um die Aminosäure zu identifizieren

.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht.