PSMB_Seqan_2014_SNP_caller

Hintergrund

Die häufigste und kleinste mögliche genomische Variation ist der Single Nucleotide Polymorphism. Nach dem Mapping von Reads kann dies durch einfache statistische Methoden geschehen.

Wichtig ist dabei bei diploiden Organismen, sowohl homozygote als auch heteroyzgote SNPs erkennen zu können.

Aufgaben

Eingabe ist die Referenzsequenz sowie Reads und deren bestes Alignment aus dem Read Mapping Modul.

Die Matches sollen in einen FragmentStore geschrieben werden. Da der Read Mapper nur paarweise Alignments ausgibt, sollen diese zunächst durch Realignment in dem globalen Alignment verfeinert werden. Nach dem Bestimmen des Sequenz Profils aus dem multiplen Read Alignment soll für die Spalten mit Abweichungen bestimmt werden, ob an diesen Spalten ein SNP vorliegt. Dafür soll die MAP (maximum a posteriori) Methode (siehe Genomics Vorlesungsskript) basierend auf dem Bayes-Theorem verwendet werden. Die Qualität der SNP Calls soll dabei durch Einbeziehung von Base Qualities verbessert werden. Gleichzeitig soll ein Score berechnet werden, der die Zuverlässigkeit des Calls angibt.

Die Eingabe soll zum einen aus Dateien (FASTA, SAM) gelesen werden können. Das Modul soll auch in das globale Pipelineprogramm integriert werden, so dass die Alignments direkt aus dem Read Mapper Modul kommen. Die Ausgabe der SNPs soll in einem geeigneten Format, z.B. im VCF Format, erfolgen. Alle Programmteile sollen durch Kommentare (z.B. mit Doxygen) dokumentiert werden. Außerdem sind möglichst alle Programmteile mit Unit Tests zu testen.

Anschließend sollen die Ergebnisse und die Laufzeit mit bestehenden Werkzeugen wie samtools pileup verglichen werden.

References

  • Anson, Eric L., and Eugene W. Myers. "ReAligner: a program for refining DNA sequence multi-alignments." Journal of Computational Biology 4.3 (1997): 369-383.
  • http://www.mi.fu-berlin.de/wiki/pub/ABI/Genomics12/varcall.pdf
  • McKenna, A.H. et al. "The Genome Analysis Toolkit: A MapReduce framework for analyzing next-generation DNA sequencing data." Genome Res. 20, 1297–1303 (2010).

Mindestanforderungen:

  • Einlesen der Referenz, der Reads und der Mapping Informationen in den FragmentStore
  • Realignment
  • SNP Calling für Spalten mit Basen Abweichungen
  • Berechnung eines Scores
  • Ausgabe aller bestimmten SNPs mit einem Score über einem gegebenen Grenzwert
  • Testen
  • Dokumentieren
  • Messung der Laufzeit

Zusatz:

  • Vergleich mit bestehenden Tools (Statistik)
  • Calling von small Indels

Expose (von Gruppe)

Fortschrittsbericht (von Gruppe)

This site is powered by FoswikiCopyright © by the contributing authors. All material on this collaboration platform is the property of the contributing authors.
Ideas, requests, problems regarding Foswiki? Send feedback