![]() Hoff, Katharina Jasmin: Gene prediction in metagenomic sequencing readsGenvorhersage in metagenomischen Sequenzier-Reads Dissertation (PDF (.pdf),
300 KB) | Dieses Werk steht unter einer Creative Commons-Lizenz
Schlüsselwörter
Sachgruppe der DNB Dissertation zur Erlangung des Doktortitels, angenommen von: Georg-August-Universität Göttingen, Mathematisch-naturwissenschaftliche Fakultäten, 2009-10-08 Abstract (ENG) Gene prediction is an essential step in the annotation of metagenomic sequencing reads. Since most metagenomic reads cannot be assembled into long contigs, specialized gene prediction tools are required for the analysis of short and anonymous DNA fragments. This work describes the metagenomic gene prediction method ’Orphelia’. It consists of a two-stage machine learning approach. In the first stage, linear discriminants for monocodon usage, dicodon usage and translation initiation sites are used to extract features from dna sequences. In the second stage, an artificial neural network combines these features with open reading frame length and fragment GC-content to compute the probability that this open reading frame encodes a protein. This probability is used for the classification and scoring of gene candidates. Orphelia is available to the scientific community as an intuitive web server application, and as a command line tool. Furthermore, a detailed evaluation of gene prediction accuracy of Orphelia and other tools with respect to sequencing errors an read length is presented. It is demonstrated that ESTScan, a tool for sequencing error compensation in eukaryotic expressed sequence tags, outperforms some metagenomic gene prediction tools on reads with high error rates although it was not designed for the task at hand. The integration of error-compensating methods into metagenomic gene prediction tools would be beneficial to improve metagenome annotation quality. Abstract (GER) Die Genvorhersage ist ein essentieller Schritt in der Annotation metagenomischer Sequenzier-Reads. Da die meisten metagenomischen Reads nicht in lange Contigs assembliert werden können, sind spezialisierte Genvorhersage-Werkzeuge für die Analyse von kurzen, anonymen DNA-Fragmenten notwendig. Diese Arbeit beschreibt die metagenomische Genvorhersagemethode "Orphelia". Sie besteht aus einem zweistufigen Ansatz des maschinellen Lernens. In der ersten Stufe werden lineare Diskriminanten für Monocodonnutzung, Dicodonnutzung und Translationsinitiationsstellen benutzt, um Merkmale aus den DNA Sequenzen zu extrahieren. Im zweiten Schritt kombiniert ein künstliches neuronales Netz diese Merkmale mit der Leserahmenlänge und dem GC-Gehalt des Fragments um eine Art Wahrscheinlichkeit zu berechnen, mit der ein Leserahmen ein Protein kodiert. Diese Wahrscheinlichkeit wird für die Klassifikation und das Scoren der Genkandidaten verwendet. Orphelia wird der wissenschaftlichen Gemeinschaft als intuitiv nutzbare Webserver-Anwendung sowie als Kommandozeilenwerkzeug zur Verfügung gestellt. Des weiteren wird eine detaillierte Evaluation der Genvorhersagegenauigkeit von Orphelia und anderen Werkzeugen hinsichtlich von Sequenzierfehlern vorgestellt. Es wird gezeigt, dass ESTScan, ein Werkzeug für Sequenzierfehlerkompensation in eukaryotischen exprimierten Sequenzier-Tags, auf Reads mit bestimmten, höheren Fehlerraten, Gene genauer vorhersagen kann, als einige metagenomische Genvorhersagewerkzeuge, obwohl ESTScan nicht für diese Anwendung entwickelt wurde. Die Integration von Fehler kompensierenden Methoden in metagenomische Genvorhersagewerkzeuge könnte die Annotationsqualität von Metagenomen verbessern.
Niedersächsische Staats- und Universitätsbibliothek Göttingen Letztmalige Aktualisierung: 2009-11-13 © 2000 Niedersächsische Staats- und Universitätsbibliothek Göttingen Allgemeiner Haftungsausschluss |