You are here: Foswiki>ABI Web>LectureWiki>PMSB_Seqan_2013>PSMB_Seqan_2013_PEMer (07 May 2013, zer)Edit Attach

Page PSMB_Seqan_2013_PEMer

PEMer overview, Figure 1 from (Korbel et al., 2009).

Hintergrund: Paired-End Signaturen und Strukturvarianten

Als Strukturvarianten bezeichnet man üblicherweise Variante im Genom mit einer Größe von 1 Kilobasen bis 3 Megabasen [1]. Dabei betrachtet man unter anderem Insertionen, Deletionen, Translocation und Inversionen.

Um solche Strukturvarianten zu finden kann man sich der Information von gepaarten Reads bedienen, z.B. [2]. Dabei werden die Readpaare gegen die Referenzsequenz gemappt. Dabei entstehen bei Strukturvarianten charakteristische Signaturen. So wird z.B. der Außenabstand von Readpaaren, die um Insertionen herum gefunden werden, größer sein als derer, die an Stellen gemappt werden, die keiner Strukturvariante unterliegen.

Aufgaben

Ziel dieser Aufgabe ist es, einen Teil von PEMer nachzuimplementieren (ab Schritt 4, outlier detection). Eingabe des Programms ist eine SAM/BAM Datei mit dem Ergebnis des Read Mappings.

Das fertige Programm soll dann auf simulierten Daten getestet werden. Zunächst werden Strukturvarianten in eine Referenzsequenz hineinsimuliert. Von der veränderten Referenz werden Reads simuliert und dann gegen die usprüngliche Sequenz gemappt. Das Ergebnis des Mappings wird dann in das Tool hinein gegeben. Am Ende soll die Sensitivität und die Spezifizität des Tools analog zu [2] bestimmt werden. Für die Simulation kann das Programm Mason benutzt werden, zur Simulation von Varianten gibt es in SeqAn das Programm sv_simulator benutzt werden. Zum Mapping soll BWA benutzt werden.

Nützliche Teile von SeqAn:

Die BamStream Klasse, siehe Basic SAM and BAM I/O Tutorial.

Die Aufgabe soll in einer kleinen Gruppe bearbeitet werden.

References

[1] Wikipedia on Structural variation
[2] PEMer: a computational framework with simulation-based error models for inferring genomic structural variants from massive paired-end sequencing data. Korbel, J.O., Abyzov, A., Mu, X.J., Carriero, N., Cayting, P., Zhang, Z., Snyder, M. & Gerstein, M.B. Genome Biol. 2009 Feb 23;10(2):R23
[3] The SAM Format Specication (v1.4-r985)

Aufgaben Details (aus Sicht der Gruppe)

Die Folgenden Schritte gehören zur Kern-Implementierung:

1. spezifische Fragmentsuche nach kurzen und langen Fragmenten für Deletions und Insertions (input: SAM Dateiformat).
2. CLustering der gefunden Fragmente.
3. Bestimmung eines Thresholds zur Filterung der Clusterergebinsse.
4. Ergebnisse in TSV Dateiformat ausgeben.

Zusätzliche optionale Implementierungen:

O.1. Bestimmung von (μ,σ) aus dem Inputfile.
O.2. Automatische Coverage berechen und als Threshold setzen.

Bei den oben genannten Punkten 2 und 3 ist ein statistischer Ansatz sinnvoll und sollte bei zeitlicher Kapazität umgesetzt werden:

S.1. Sensitivität und Spezifität (False/True Positiv/Negative) der Suche und des Clustering angeben anhand von Simulierten Daten bei denen der Erwartungswert bekannt ist.
S.2. Vergleich der Schwankungen der Ergebnisse bei variation des Thresholds.

Stand nach dem 24.04.2013:

Kern-Implementierung:

1. SAM-DAtei einlesen und Fragmentsuche. (Lars Zerbe)
- 1.1. Argumentparser
2.1. Clustering der gefunden Fragmente. (Stephan Peter)
- 2.1.1 local Cluster
- 2.1.2 hierachical Cluster
2.2. Grenzwert festlegen zur Filterung. (Stephan Peter)
3. Ausgabe: TSV-Datei (Lars Zerbe)

optionale-Implementierungen:

O.1. Bestimmung von (μ,σ) aus dem Inputfile.
O.2. Automatische Coverage berechen und als Threshold setzen.

Auswertung:

S.1. Sensitivität und Spezifität(False/True Positiv/Negative) (Lars Zerbe)
S.2. Variieren des Grenzwerts. (Stephan Peter)

Zeitplan:

24.4 27/28.4

Entwicklung der Eingabe und der Vorverarbeitung des Input Files (Sam Datei)
Vorbereitung des Clustering / Rücksprache

28.4 5.5

Fertigstellung des Clustering mit fiktivem Grenzwert
Vorbereitung der TSV Ausgabe

5.5 12.5

Einarbeitung der optionalen Aufgaben
Statistik-Auswertung

12.5 17.5

Fehlerkorrektur und Feinschliff

17.5 24.5

Ausarbeitung der Abgabe (Dokumentation etc.)

Attachments 1

I	Attachment	Action	Size	Date	Who	Comment
jpg	PemerFigure1.jpg	manage	87 K	31 Jan 2013 - 10:42	UnknownUser	Pemer Overview, from http://genomebiology.com/content/10/2/R23

Topic revision: r7 - 07 May 2013, zer - This page was cached on 04 Mar 2025 - 22:24.

ABI

Copyright © by the contributing authors. All material on this collaboration platform is the property of the contributing authors.
Ideas, requests, problems regarding Foswiki? Send feedback