PSMB_Seqan_2014_overview

Im PSMB SeqAn 2014 geht es darum, eine einfach Pipeline zur Variantenanalyse aufzubauen.

Hintergrund

Insbesondere für das menschliche Genom spielt die Resequenzierung eine große Rolle: Von einem Organismus mit einem bekannten Genom (also z.B. Mensch oder Fruchtfliege) werden weitere Individuen mit der Hilfe von High-Throughput-Sequencing sequenziert. Die sich so ergebenen Daten (HTS reads) werden mit Hilfe des bekannten Genoms analysiert um festzustellen, wo und wie das Genom des Individuums sich von der Referenz unterscheidet oder übereinstimmt.

Dabei gibt es verschiedene Klassen von Unterschieden/Varianten, u.a.:

  • SNPs - Single Nucleotide Polymorphisms bei denen einzelne Basen abweichen.
  • small indels - Kurze Einfügungen oder Löschungen aus dem genom, z.B. von 2-10 bp (Basenpaaren)
  • large insertions - Große Einfügungen von neuer Sequenz.

Solch Analysen werden meist in mehreren Schritten gelöst, die oft im Pipelineverfahren hintereinandergeschaltet werden. Eine mögliche Pipeline zur Detektion der o.g. Varianten ist:

PMSB 2014 Pipeline

  1. Read Mapping - Suchen von ähnlichen Stellen in der Referenz, möglichst dem Ursprungslokus.
    • Eingabe: Referenz, NGS Reads
    • Ausgabe: Position auf Referenz und paarweise Alignments der Reads gegen die Referenz ("mapped reads")
  2. SNP Calling - Benutzen der Read Alignments um SNPs zu finden.
    • Eingabe: Referenz, mapped reads.
    • Ausgabe: Liste von Positionen mit möglichen SNPs sowie einem score, der die Fehlerwahrscheinlichkeit angibt.
  3. Split Mapping und Small Indel Calling - Suche nach Ankern vom Anfang und Ende der Reads, die im Read Mapping Schritt nicht gemappt werden konnten und versuche ihn mit einer größeren Insertion oder Deletion zu alinieren. Nach dem Alignment wird versucht, small indels mit mehreren Alignments zu finden.
    • Eingabe: Referenz, mapped und unmapped reads aus 1.
    • Ausgabe: Erweiterte Liste der mapped reads, ab hier auch mit indels, festgestellte small Indels.
  4. Large Insertion Assembly - Mit den Reads für die auch im 3. Schritt keine Position gefunden werden konnte, soll nun ein Assembly gemacht werden.
    • Eingabe: Referenz, unmapped reads aus 3.
    • Ausgabe: Assemblierte Sequenz sowie möglichst die Position der Insertion.

Am Ende sollen alle gefundenen Varianten in einer Datei zusammengefasst werden.

Aufgaben

Die Schritte 1-4 sollen mit Hilfe von SeqAn umgesetzt werden.

References

This site is powered by FoswikiCopyright © by the contributing authors. All material on this collaboration platform is the property of the contributing authors.
Ideas, requests, problems regarding Foswiki? Send feedback