NGS Data Postprocessing

Hintergrund

Als Next Generation Sequencing (NGS) oder auch High Througput Sequencing (HTS) bezeichnet man Sequenzierverfahren, die in vergleichsweise kurzer Zeit sehr viel genomische und/oder RNA Stuecke auslesen koennen. Beispiele fuer solche Hersteller und Techniken sind Illumina (Genome Analyzer, HiSeq), Roche (454), ABI (Solid), PacBio, Life (IonTorrent).

Das Resultat eines NGS Experiments ist in der Regel die Ausgabe der Sequenzen im (komprimierten) FASTQ Format. Diese Rohdaten können in der Regel nicht unmittelbar für die anwendungsabhängige Datenauswertung genutzt werden, sondern müssen zunächst nachbearbeitet werden. Zum einen sind NGS Verfahren immer fehlerbehaftet, was eine Korrektur bzw. Vorauswahl von Sequenzen nach Qualitätskriterien erforderlich macht. Ein weiterer, beim Pooling von Proben notwendiger Nachverarbeitungsschritt ist das sogenannte Barcode-Demultiplexing, d.h. das Aufteilen der Proben anhand von kurzen Sequenzabschnitten.

Aufgabe 1 - Behandlung von Sequenzierfehlern

Wie auch im Projekt NGS Quality Control soll es hier um die Behandlung von Sequenzierfehlern gehen. Das Programm soll die Sequenzen wie folgt untersuchen und ggf. modifizieren:

  • 3'-Adapter Entfernung
    Für die meisten NGS-Methoden ist es erforderlich, dass die zu sequenzierenden Fragmente von sogenannten Adaptern terminiert werden, d.h. sowohl am 3'- als auch am 5'-Ende des Fragments befindet sich je eine vordefinierte Adaptersequenz. Diese wird vor der Sequenzierung entweder durch Ligation oder eine PCR-Reaktion mit entsprechend modifizierten Primern eingebracht. Sequenziermethoden, welche auf der Synthese von DNA durch DNA-Polymerasen basieren, sequenzieren immer vom 5'-Ende zum 3'-Ende eines DNA-Fragments. Der Adapter am 5'-Ende, an dem die Sequenzier-Reaktion beginnt, wird nicht mit gelesen. Je nach Länge des Fragments und verwendeter Sequenziermethode kann es jedoch vorkommen, dass das gegenüberliegende, 3'-Ende erreicht und der dort vorhandene Adapter mit abgelesen wird. Um dieses Artefakt zu beseitigen müssen die 3'-Enden von Sequenzierdaten auf bekannte Adaptersequenzen untersucht und diese ggf. entfernt werden.

  • Low-quality tail removal
    Bei vielen Sequenziermethoden nimmt die Qualität zum Ende der Sequenz hin ab. Daher ist ein häufig angewandter Nachverarbeitungsschritt das Abschneiden von Sequenz-Suffixen wenn die Qualität einen bestimmten Schwellenwert unterschreitet. Da Ausreisser das Ergebnis beeinträchtigen könnten wird der Median der Quality Scores von benachbarten Basen (Fenster einer vordefinierten Breite) bestimmt.

Aufgabe 2 - Barcode Demultiplexing

Um Ressourcen zu sparen ist es üblich, mehrere Proben (z.B. von unterschiedlichen Individuen) gemeinsam in einem Pool zu sequenzieren. Um die Sequenzen anschließend wieder den Proben zuordnen zu können werden alle DNA Moleküle einer Probe an einem Ende zusätzlich zum Adapter mit einer Barcode-Sequenz versehen bevor sie gemischt werden. Im Anschluss an die Sequenzierung muss die Sequenzdatei dann in unterschiedliche Sequenzdateien aufgeteilt werden, basierend auf der Barcode Sequenz. Die Barcode Sequenz kommt in den Ausgabe-Dateien nicht mehr vor. Hierbei sind unterschiedliche Ansätze möglich:

  • In-line Barcoding
    Die Barcodes werden nicht gesondert behandelt und sind Teil der normalen Ausgabesequenz. In diesem Fall muss die Sequenz beim Demultiplexen abgeschnitten werden
  • Multiplex Barcoding
    Der Sequencer liest die Barcodes getrennt von der eigentlichen Sequenz. In diesem Fall werden 2 Dateien erzeugt, eine mit den eigentlichen Sequenzen und eine weitere mit den Barcodes.

Standard Illumina Barcodes haben eine Länge von 6 bp. Üblicherweise werden sie exakt oder mit max. 1 Substitution gematched.

Nützliche Teile von SeqAn:

Referenzen

  • Trimmomatic erlaubt das automatische Abschneiden von nicht vertrauenswuerdigen Basen und das Filtern von Reads
  • Reaper erlaubt neben dem Abschneiden von reads noch das demultiplexing von Reads mit sogenanntem Barcode.
  • FLEXBAR
  • Lindgreen, S. (2012). AdapterRemoval: Easy Cleaning of Next Generation Sequencing Reads. BMC research notes, 5(1), 337. Retrieved from http://www.ncbi.nlm.nih.gov/pubmed/22748135
This site is powered by FoswikiCopyright © by the contributing authors. All material on this collaboration platform is the property of the contributing authors.
Ideas, requests, problems regarding Foswiki? Send feedback