You are here: ABI » LectureWiki » PMSB_Seqan_2012 » ChipSeq

ChIP-Seq Motivanalyse

Konzept

Bei der ChIP-Seq-Analyse werden die genomweiten Bindungsstellen von Transkriptionsfaktoren dadurch identifiziert, dass man die Transkriptionsfaktoren an die DNA mittels Formaldehyd verlinkt, die DNA dann fragmentiert, den Transkriptionsfaktor und die an ihn gebundenen Sequenzen mit einem Antikörper isoliert und schließlich die Fragmente mittels Nextgeneration-Methoden sequenziert. Die so sequenzierten Reads werden gegen das Genom aliniert und Peaks (d.h., überlappenden Sequenzreads) bestimmt. Die nächste Frage ist, welche Bindungssequenzen den Peaks gemeinsam sind (diese Sequenzen sind dann Kandidaten für die Bindungssequenzen des Transkriptionsfaktors, welche nicht immer im voraus bekannt sind). In diesem Praktikum soll eine einfache Methode zur Identifikation der Bindungssequenzen implementiert werden. Hierbei werden zunächst alle k-Mere in den Eingangssequenzen identifiziert. Die Verteilung der k-Mere zwischen ChIP-Seq und Kontrolldaten wird verglichen und überrepräsentierte k-Mere mittels einem einfachen statischen Test (Fischer Exact test) identifiziert. In nachfolgenden Schritten werden die k-Mere erweitert (d.h., 2 oder mehr Basen werden an spezifischen Positionen zugelassen), so lange die statistische Signifikanz der Bindung zunimmt. Diese Methode wurde als „DREME“ vor kurzem publiziert (Bailey, 2011). In Absprache können sich Studenten auf bestimmte Bereiche des Algorithmus konzentrieren (z.B. Vergleich von Geschwindigkeit/Speicherverbrauch bei unterschiedlichen Methoden nach k-Meren zu suchen: Suffixbaum, Suffixarray, q-gram-Index). Es besteht die Möglichkeit, ChIP-Seq Datensätze aus unserem Labor zu analysieren.

Aufgaben

Die Programmierarbeit soll im Rahmen des SeqAn-Frameworks erfolgen.
  1. Einlesen von DNA-Sequenzen von einem ChIP-Seq-Versuch (FASTA oder FASTQ-Format).
  2. Erstellen einer Indexstruktur um nach k-Meren in den Sequenzen zu suchen
  3. Statischer Vergleich zw. K-Meren in ChIP-Seq und Kontrollsequenzen (Fisher exact test, wird von uns genau erläutert)
  4. Erweitern der k-Mere durch Anfügen von verwandten K-Meren (z.B. Differenz von einem Nukleotid)
  5. Ausschreiben der vorhegesagten Bindungssequenz

Referenzen

  • [1] Bailey TL. DREME: motif discovery in transcription factor ChIP-seq data. Bioinformatics. 2011 Jun 15;27(12):1653-9.
  • [2] Liu ET, Pott S, Huss M. Q&A: ChIP-seq technologies and the study of gene regulation. BMC Biol. 2010 May 14;8:56. (Gute Einführung in die ChIP-Seq-Methodik)
This site is powered by FoswikiCopyright © by the contributing authors. All material on this collaboration platform is the property of the contributing authors.
Ideas, requests, problems regarding Foswiki? Send feedback