Page ThesisCNVs

Detektion von Copy Number Variationen in Sequenzierdaten

Student
Kerstin Neubert
Betreuer
Anne-Katrin Emde, Prof. Dr. Knut Reinert

Zusammenfassung

In der Masterarbeit soll eine Methode zur Detektion von Copy number variations (CNVs) in Second Generation Sequencing Daten implementiert werden. Der entwickelte Algorithmus wird anschließend auf simulierte und reale Sequenzierdaten von einem Tumorgenom und Daten aus dem 1000 Genomes Projekt angewendet.

Beschreibung

Second-generation sequencing Technologien ermöglichen es, die Positionen von single nucleotide polymorphisms (SNPs) und strukturellen Variationen wie z.B. copy number variations (CNVs) im Genom mit einer größeren Genauigkeit im Vergleich zu arraybasierten Methoden wie z.B. SNP-Microarrays und der whole-genome array comparative genome hybridization (aCGH) zu bestimmen. Jedoch erfordert die Analyse der dabei anfallenden großen Datenmengen neue effiziente Algorithmen. In dieser Arbeit soll ein Algorithmus für die Analyse von CNVs in second-generation sequencing Daten entwickelt und in C++ implementiert werden. Dabei werden folgende Teilaufgaben bearbeitet:
  1. Entwicklung und Implementierung eines Algorithmus zur Detektion von CNVs in 2nd-generation sequencing Daten. Fragestellungen tun sich auf bezüglich der Wahl der Fensterbreite (dynamisch/statisch) und hinsichtlich der unterschiedlich guten "Sequenzierbarkeit" sowie "Mappbarkeit" von bestimmten Sequenzen.
  2. Bestimmung der Spezifität und Sensitivität des entwickelten Algorithmus anhand simulierter Daten, bei denen die Position von CNVs bekannt ist
  3. Anwendung des Algorithmus zur Detektion von CNVs in verschiedenen 2nd-generation sequencing Daten (ein Tumorgenom und Daten aus dem 1000 Genomes Projekt)
  4. Bewertung des Algorithmus (Laufzeit, Vergleich mit anderen Algorithmen)

Literatur

[1] Paul Medvedev, Monica Stanciu, and Michael Brudno: Computational methods for discovering structural variation with next-generation sequencing. Nature Methods 2009

[2] Seungtai Yoon, Zhenyu Xuan, Vladimir Makarov, Kenny Ye, and Jonathan Sebat: Sensitive and accurate detection of copy number variants using read depth of coverage. Genome Research 2009

[3] Korbel et. al.: Paired-end Mapping Reveals Extensive Structural Variation in the Human Genome. Science 2007

Arbeitsplan

10.12.-18.12. Organisatorisches, Literaturrecherche

19.12.-21.02. Entwicklung des Algorithmus und Implementierung in C++, Testläufe mit simulierten Daten

22.02.-14.03. Anwendung auf reale Daten (z.B. 1000Genomes Projekt), Optimierung bzgl. Laufzeit

15.03.-30.04. Bewertung der Ergebnisse (Sensitivität, Spezifität, Laufzeit, Vergleich mit anderen Ansätzen, Datenbankeinträgen für CNVs)

1.05.-23.05. Masterarbeit schreiben

24.05.-9.06. Korrekturen

10.06. Abgabe

Wöchentliche Berichte

[4.01.-10.01.]

[11.01.-17.01]

[18.01.-24.01.] / [25.01- 31.01.]

Vergleich verschiedener Ansaetze zur CNV-Detektion basierend auf read depth:

[1.-7.02.]

[8.-14.02.]

Algorithmus [CNV-Detektion in zwei NGS-Datensaetzen]

Input: mapped reads, parameter (log2_threshold, p_threshold)

Output: CNVs (Start-Ende, copy number)

1. Zaehle reads in Fenstern entlang des Genoms in beiden Proben (Startpositionen): n_x, n_y

2. Berechne das Verhaeltnis der Anzahl an reads in den Fenstern der beiden Datensaetze: r=log2(n_x/n_y)

3. Auflistung von Festern mit r >= |log2_treshold| und p <= p_threshold

4. iterative Zusammenfassung benachbarter Fenster zu CNV-Regionen, falls |r| gleich ist

Algorithmus [CNV-Detektion in einem NGS-Datensatz]

wie bei 2 Datensaetzen, ein Datensatz wird dabei simuliert

Simulation von single-end Daten:

[15.02.-21.02.]

[22.02.-28.02.]

[1.03.-7.03.]

[8.03.-14.03.]

[15.03.-21.03.]

[22.03.-28.03.]

[29.03.-04.04.]

[05.04.-11.04.]

[12.04.-18.04.]

[19.04.-25.04.]

[26.04.-2.05.]

[3.05.-09.05.]

[10.05.-16.05.]

[17.05-23.05.]

[24.05.-30.05.]

[31.05.-06.06.]

[07.06.-13.06.]

[14.06.-20.06.]

[21.06.-27.06.]

[28.06.-04.07.]

[05.07.-11.07.]

[12.07.-18.07.]

[19.07.-25.07.]

1. cnv-seq (Fenster-basierter Ansatz basierend auf log-Ratios der read counts von Test- und Kontrolldatensatz)

2. DNAcopy (Circular binary segmentation; da ursprünglich auf Microarrays angewendet, müssen die logRatio-Inputdaten erst aus SAM-Alignment-Dateien berechnet werden)

[26.07.-01.08.]

3. SOLiD-CNV-TOOL (implementiert ein HMM, funktioniert nur auf hg18, weil binäre mappability-Dateien nur für hg18 im Programmpaket enthalten)