You are here: ABI » LectureWiki » PMSB_Seqan_2012 » RepeatMasking

Repeat Masking

Repeats in DNA Sequenzen sind ein häufig beobachtetes Phänomen. Insbesondere in den ersten Schritten der Genome Analyse verursachen sie Probleme, denn Reads aus Next Generation Sequencing (NGS) Daten können während des Read Mappings nicht eindeutig zugeordnet werden. Aus diesem Grund werden Repeats in Genomen häufig maskiert, zum Beispiel werden die Sequenzabschnitte durch 'N's ersetzt (http://www.repeatmasker.org/), oder die entsprechenden Stellen werden markiert.

Konzept

In diesem Projekt geht es um die Identifizierung und Markierung von Repeats. Dazu sollen die entsprechenden Sequenzabschnitte in der Referenzsequenz als auch in den Reads identifiziert und Markiert werden. Für diese Aufgabe soll ein Q-Gram Index benutzt werden, der durch einfaches zählen überrepräsentierter Sequenzabschnitte Identifiziert.

Aufgaben

  1. Einlesen der Reads und des Referenzgenoms.
  2. Reads mit Hilfe des SeqAn Q-Gram Indexes indizieren.
  3. Identifizieren überrepräsentierter Q-Grams.
  4. Identifizieren der korrespondierenden Reads und Sequenzabschnitte im Genom.
  5. Markieren der Reads mit Startpunkt des Repeats und Markieren der Sequenzabschnitte im Genom.
This site is powered by FoswikiCopyright © by the contributing authors. All material on this collaboration platform is the property of the contributing authors.
Ideas, requests, problems regarding Foswiki? Send feedback