PISB SeqAn - RNA-Seq Read Simulator

Hintergrund: RNA-Seq Simulation

Simulierte Daten leisten wichtige Dienste bei der Entwicklung, Fehlersuche und Bewertung von Software. Sie koennen reale Daten fuer Benchmarks sinnvoll komplementieren.

Will man RNA-Seq Daten simulieren, so muss man zuerst an Transkripte und Expressionsstufen kommen. Dann kann man Reads und Readpaare aus diesen Transkripten simulieren.

Beim Simulieren der Transkribtion kann man unter anderem auf alternatives Splicing, Varianten von Genen und Fehler beim Splicing eingehen. Bei der Simulation vom Sequenzierprozess ist die Simulation von Sequenzierfehlern wichtig. Hier sollen nur alternatives Splicing und Sequenzierfehler betrachtet werden.

Fuer die Simulation helfen folgende SeqAn Funktionen:

  • I/O von Sequenzen
  • Infixe von Sequenzen
  • Erzeugen von Zufallszahlen, gleichverteilt oder mit Normalverteilung

Aufgaben

Es gibt zwei moegliche Teilaufgaben. Wird Aufgabe A bearbeitet, so kann Aufgabe B in eingeschraenkter Form bearbeitet werden. Wird nur Aufgabe B bearbeitet, so muss dies in vollem Umfang geschehen. Wird Aufgabe A nicht bearbeitet, so koennen wir Transkriptdateien und Expressionszahlen bereit stellen.

Aufgabe A: Simulation von Transkripten

  1. Lese Genom FASTA und Annotation GFF Datei ein (Fragment Store und Annotation Store)
  2. Simuliere Splicing von Genen zu Transkripten.
  3. Schreibe die Transkripte als FASTA Datei aus.

Aufgabe B: Read Simulation

  1. Transkriptom / Genom einlesen.
    • Optional: Lese Metrik zur Expression ein, etwa: Zahl der Reads/Pairs von Transkript.
  2. Simuliere Reads.
  3. Schreibe simulierte Reads/Pairs als FASTA/FASTQ Datei aus.

Teilaufgabe B2 soll auf verschiedene Arten implementiert werden.

  • Simuliere einfache Reads mit einfachem uniformen Fehlermodell (Wahrscheinlichkeit p fuer Substitution, W. q fuer Indel).
  • Simuliere Read Paare (Fragment Groesse normalverteilt mit gegebenem mu und sigma) mit einfachem uniformen Fehlermodell (Wahrscheinlichkeit p fuer Substitution, W. q fuer Indel).
  • Lese Datei mit echten Reads/Paaren von Illumina reads ein.
  • Wenn A nicht bearbeitet: Benutze Phred Fehlerwahrscheinlichkeiten fuer positionsabhaengige Substitutionswahrscheinlichkeit pi.

Die Simulation von Illumina Daten bietet sich an, da einfache Fehlermodelle die Wirklichkeit gut genug beschreiben.

Referenzen

This site is powered by FoswikiCopyright © by the contributing authors. All material on this collaboration platform is the property of the contributing authors.
Ideas, requests, problems regarding Foswiki? Send feedback