Page PSMB_Seqan_2013_NGS_Quality_Control

Hintegrund: NGS Quality Control

Als Next Generation Sequencing (NGS) oder auch High Througput Sequencing (HTS) bezeichnet man Sequenzierverfahren, die in vergleichsweise kurzer Zeit sehr viel genomische und/oder RNA Stuecke auslesen koennen. Beispiele fuer solche Hersteller und Techniken sind Illumina (Genome Analyzer, HiSeq), Roche (454), ABI (Solid), PacBio, Life (IonTorrent).

NGS Verfahren sind immer fehlerbehaftet. Moegliche Fehlerquellen sind zum Beispiel Schritte im Labor (etwa Kontamination durch Fremd-DNA oder Biases durch PCR) oder auch in der Sequenziermaschine (ungenauer chemischer Prozess oder Probleme mit der Sensorhardware oder der Base Calling Software).

Daher ist ein wichtiger erster Schritt in jeder Pipeline, die NGS Daten verarbeitet, die Analyse der Daten hin auf ihre Qualitaet. Dafuer existieren viele Werkzeuge mit teilweise aehnlichen aber auch unterschiedlichen Auswertungsmethoden. Beispiele sind:

  • FastQC erlaubt die grafische Aufarbeitung einfacher statistischer Merkmale.
  • Im FASTX Toolkit gibt es ein Tool fuer Statistiken der Qualities und der Nukleotid-Verteilung.
  • PRINSEQ erlaubt die Qualitaetskontrolle von 454 Daten.

Aufgabe

Hier soll ein Programm fuer den Qualitaetskontrollschritt in einer NGS Pipeline implementiert werden. Die Auswahl der zu implementierenden Schritte geschieht in Absprache mit dem Betreuer. Die fertigen Programme sollen in die Workflow Software KNIME integriert werden, was durch Benutzen der Argument Parser Klasse in SeqAn einfach moeglich ist.

Moegliche Teilaufgaben sind:

  • das Berechnen von Kennzahlen (Durchschnitt, Minimum/Maximum, Median, Quantile, sonstige Werte fuer Boxplots) der Qualitaet Q[i] an Position i,
  • das Berechnen der Nukleotidverteilung Z[i, n] fuer den Buchstaben n an Position i,
  • das Berechnen von sehr haeufig vorkommenden q-grammen und das Suchen dieser in einer Kontaminationsdatenbank (Adaptoren),
  • das Berechnen der Laengenverteilung mit Diagramm,
  • das Suchen von Duplikaten,
  • das Berechnen von Sequenzkomplexitaet.

Sinnvolle Ergaenzungen waeren:

  • "Erraten" des Typs der Qualitywerte (Solexa vs. Phred) sowie Konversion zwischen ihnen.

Nuetzliche Teile von SeqAn:

Referenzen

Our Implementation

This site is powered by FoswikiCopyright © by the contributing authors. All material on this collaboration platform is the property of the contributing authors.
Ideas, requests, problems regarding Foswiki? Send feedback