PSMB_Seqan_2014_large_insertd

Hintergrund

Lange Sequenzstücke, die im Donor aber nicht in der Referenz enthalten sind, lassen sich nur schwer mit einzelnen Reads bestimmen. Hier ist das Assembly der Reads nötig.

Die Assemlies können dann mit einem Split Read Mapper oder lokalen Alignments in der Referenzsequenz verankert werden.

Aufgaben

Eingabe des Programs ist die Referenz sowie bisher nicht alinierte Reads. Ausgabe des Programms sollen die assemblierten Sequenzen sowie deren Verankerung im Genom sein.

Für das Assembly wäre folgendes Vorgehen sinnvoll:

  • Berechne overlaps, Kandidaten können über einen k-mer Filter bestimmt werden.
  • Baue Overlap Graph und bestimme Layouts der Zusammenhangskomponenten.
  • (Erstelle Consensus Sequenz über MSA.)
  • Fülle einen FragmentStore mit dem MSA aus dem Consensus Schritt oder aus dem Layout.
  • Berechne Realignment des FragmentStore und lese daraus die fertige Consensus-Sequenz ab.
  • Suche Alignments des Präfixes und Suffixes der assemblierten Contigs in der Referenz um die Position der neuen Sequenz in der Referenz zu bestimmen.

Teilaufgaben

Folgende Teile müssen gelöst werden:

  • Lese Reads aus Datei bzw. erhalte sie über Programmaufruf.
  • Erzeuge ein Overlap-Layout-Consensus basiertes Assembly der Reads.
  • Versuche die assemblierten Contigs in der Referenz zu verankern (wenn möglich an beiden Seiten, sonst nur an einer).

Alle Programmteile sollen durch Kommentare (z.B. mit Doxygen) dokumentiert werden. Außerdem sind möglichst alle Programmteile mit Unit Tests zu testen.

Die Aufgabe kann weiter noch erweitert werden durch:

  • Suche von lokalen Matches der Contigs in dem Genom, um schon existierende Sequenz auszuschließen.

References

Expose (von Gruppe)

Ziel dieses Projekts ist es aus den ungemappten Reads eine Consensus Sequenz zu erzeugen. Dabei besteht das Programm aus drei Phasen: die Overlap Phase, die Layout Phase und die Consensus Phase.

Overlap Phase:
  • q-Gram Index über ungemappten Reads aufbauen
  • Reads untereinander vergleichen
  • erzeugen des Overlap-Graphen

Layout Phase:
  • Zusammenhangskomponenten berechnen
  • aus jeder Zusammenhangskomponente ein Unitig erzeugen

Consensus Phase:
  • paarweise Overlaps berechnen
  • Alignment-Graph erzeugen
  • Consensus-Sequenz realignieren
  • assemblierte Contigs in der Referenz verankern

Zeitplan:
  • Woche 1: Overlap Phase
  • Woche 2: Layout Phase
  • Woche 3: Consensus Phase
  • Woche 4: Verankerung und verbinden der Pipeline

Fortschrittsbericht (von Gruppe)

  • Input Funktion: Einlesen der Fast und Sam Datei
  • q-Gram Index aufbauen
  • Vergleichen der Reads untereinander
  • Overlap-Graphen erzeugen
  • Zusammenhangskomponenten aufgebaut
This site is powered by FoswikiCopyright © by the contributing authors. All material on this collaboration platform is the property of the contributing authors.
Ideas, requests, problems regarding Foswiki? Send feedback