Page PSMB_Seqan_2013_Lagan

Hintergrund: Alignieren Genomischer Sequenzen

Durch das vergleichen zweier Genome unterschiedlicher Organismen können neue Erkenntnisse bezüglich der Konservierung funktionaler Einheiten gewonnen werden. Diese Erkenntnisse helfen uns Ursachen genetischer Krankheiten besser zu analysieren und zu verstehen. Um zwei biologische Sequenzen zu vergleichen wird ein globales Alignment berechnet. Dabei wird ermittelt welche Transformationen benötigt werden um eine Sequenz in die Andere zu überführen.

Jedoch ist das standard Global-Alignment-Verfahren [1] nicht geeignet um genomische Sequenzen zu alignieren, da sich seine Laufzeit proportional zum Produkt der beiden Sequenzlängen verhält. Alternativ können lokale Alignments [2, 3] berechnet werden um homologe Regionen zu identifizieren. Es lassen sich so jedoch kaum Zusammenhänge zwischen der gemeinsamen Ordnung der funktionalen Einheiten ableiten. Um effizient genomische Sequenzen global zu alignieren, werden Heuristiken benutzt, die zu erst gute lokale Segmente zwischen den beiden Sequenzen filtern und anschließend diese Informationen nutzen um daraus ein globales Alignment zu berechnen. Einer der bekanntesten Vertreter dieser Heuristiken is der LAGAN-Algorithmus [4]. Dieser besteht im wesentlichen aus 3 Schirtten: 1) Generieren von lokalen Alignments zwischen den beiden Genomen. 2) Konstruieren einer globalen Map durch Chaining der identifizierten Segmente aus 1). 3) Berechnen des optimalen Alignments innerhalb der Region definiert durch die globale Map aus 2).

Aufgaben

Ziel dieser Aufgabe ist es, den LAGAN-Algorithmus nach zu implementieren. Eingabe des Programms sind zwei FASTA-Dateien mit den beiden Genomen. Als Ausgabe soll das Programm das Alignment in einer Datei herausschreiben. Die entwickelten Methoden sollen sinnvoll getestet werden. Das Programm soll anhand eines Testdatensatzes auf Richtigkeit geprüft werden. Dafür werden zwei komplett distinkte Sequenzen generiert und anschließend zufällig erzeugte Seeds mit variabler Länge generiert. Jeder Seed wird zufällig in beide Sequenzen eingefügt und das Seed-Sequenz-Paar abgespeichert. Hinterher wird überprüft, ob korrekte Seed-Sequenz-Paare gefunden wurden. Im Anschluss soll der Algorithmus auf Realdaten angewendet werden. Je nach Fortschritt des Algorithmus sollen Sequenzen von verschiedenen Organismen aligniert werden:

Die Aufgabe kann von 2 - 3 Teilnehmern absolviert werden.

Für die Bearbeitung der Aufgabe sollen Sie SeqAn benutzen.

Die folgenden Teile von SeqAn sind relevant:

References

Projektplanung und Umsetzung

Projekthomepage

Comments