Auswertugn von Binning directories mit Hilfe von Interleaved Bloom filters

Hintergrund: Filtern von NGS reads in bins

In dem projekt soll (zufällig generierte) genomische Sequenz in b Teile (Bins) aufgeteilt werden. Danach werden wir von den Teilen Illumina reads simulieren und mit Hilfe von Binning directories auf die Bins verteilen. Dafür zählen wir für jeden Read, ob welche seiner k-mere den Bin vorkommen. Wenn genügend viele k-mere vorkommen, liegt ein hit vor. Dies ist bereits in SeqAn implementiert.

Für große k (k>15) kann man keine k-mer Tabelle verwenden, sondern stattdessen eine neu Datenstruktur, den Interleaved Bloom Filter. Diese kann mit großem k umgehen, kann allerdings falsch positive Antworten geben.

Details in [1].

Aufgaben

Ziel dieser Aufgabe ist es, für verschiedene Werte von k und verschiedene Größen des IBF zu untersuchen, wie sich Anzahl der Hits in den Bins ändert.

References

]
Topic revision: r2 - 02 Feb 2018, KnutReinert
 
  • Printable version of this topic (p) Printable version of this topic (p)