Springe direkt zu Inhalt

Bioinformatics Software Engineering

Thema: Bioinformatics Software Engineering

DozentIn(en): Dr. Manuel Holtgrewe

Maximale Teilnehmerzahl: 6

Zeitraum/Vorbesprechungstermin: als Diskussionsbasis

- Vorbesprechung                           (2h)                      Mitte Februar?
- Seminar Software Engineering   (3x5h+45h)          23.3. bis 27.3. (Nachbereitung KW13)
- Eigenständige Bearbeitung          (6x1h+234h)        30.3. bis 14.5.
- Präsentation, Abgabe Bericht      (2h+28h)              15.5.

Der genaue Zeitplan wird mit den Teilnehmer*innen abgestimmt. Während der Bearbeitungszeit finden jede Woche Statustreffen statt.

Ort: Charité Mitte, CUBI, Virchowweg 20, 2.OG/Ebener 3, Raum 03/004

Kurze inhaltliche Beschreibung:

Bei der Translation von bioinformatischer Forschung in die Praxis ist ein wichtiger Schritt die bioinformatischen Lösungen produktionsreif zu machen (stabil, reproduzierbar, Anforderungsgerecht, von der Zielgruppe gut benutzbar).

In diesem Praktikum entwickeln die Teilnehmer*innen (Teil-)systeme zur automatischen und interaktiven Datenverarbeitung, die in ähnlicher Form auch bei der praktischen Arbeit der Core Unit Bioinformatik in der Charité eingesetzt werden. Dabei erarbeiten Sie sich Kenntnisse in Anforderungsanalyse, Projektorganisation und moderne Architekturkomponenten wie REST APIs, Docker Container, sowie SQL Datenbanken. Sie lernen moderne Entwicklungswerkzeuge wie automatisierte Tests, Versionskontrolle mit Git/GitHub, und statische Codeanalyse kennen und setzen agile Entwicklungsprozesse sowie ein verbreitetes Dokumentationssystem ein.

Konkrete Themenvorschläge:

1. Vernetzung genetischer Datenbanken mittels GA4GH Beacons.
Bei der Diagnostik seltener genetischer Krankheiten sind in den letzten Jahren große Datenmengen von genetischer Variantendaten angefallen und stecken meist isoliert in "Datensilos". Das GA4GH (global alliance for genomes and health) Beacon Projekt zielt darauf diese Silos kontrolliert aufzubrechen und es Organisationen, genetische Daten zu teilen.
Der Nutzen vom Teilen der Daten ist, dass Varianten mit unklarer klinischer Signifikanz ("VUS3") im Kontext großer Datenmengen besser bewerten zu können. Tritt die gleiche Variante an anderen Standorten öfters oder mit einem ganz anderen Krankheitsbild auf, sinkt die Wahrscheinlichkeit dass sie krankheitsverursachend ist. Tritt sie im Gegensatz dazu an einem anderen Standort mit dem gleichen Phänotyp auf, so steigt die Wahrscheinlichkeit dafür, dass sie Grund für eine genetische Erkrankung ist.
Ziel dieses Praktikumsprojektes ist die Planung und Umsetzung eines einfachen verteilten Datenbanksystems und die Vernetzung mit Hilfe des Beacon Protokolls. Dabei muss besonderer Wert auf die Umsetzung von Datenschutmaßnamen gelegt werden.

2. Docker Container Scheduling.
Für das Ausliefern von Daten werden immer öfter "Data Science Web Dashboards" mit Hilfe von Docker containern verwendet. Bei CUBI ist eine Plattform ("Kiosc") als Prototyp entstanden, die es einfach erlaubt solche Web Applikationen in Docker containern zu starten und diese auch mit Zugriffsmanagement versieht.
In diesem Praktikumsprojekt geht es darum den bestehenden Prototyp durch Funktionen für besseres Resourcemanagement zu erweitern und zu stabilisieren. Die Herausforderung dabei ist die Einarbeitung in ein bestehendes Softwaresystem und dessen Erweiterung und Verbesserung, was auch der Normallfall im Berufsalltag darstellt.

Quantitative Aufteilung: (in %)

Praktische Programmierarbeit: 50-70 %
Soft Skills: 30-50%

Verwendete Programmiersprache(n): Python

Schwierigkeitsgrad (Acht Sterne verteilt auf drei Bereiche):

A Programmieren ****
B Biologie/Chemie *
C Projektmanagement ***

Erforderliche Vorkenntnisse:

Pythonkenntnisse, Objektorientierte Programmierung, gute Kenntnisse in mindestens einer Programmiersprache (Python oder andere)

Kontaktadresse, Webseite/Link:

manuel.holtgrewe@bihealth.de

Homepage von CUBI – Core Unit Bioinformatik: https://www.cubi.bihealth.org


eVV WiSe 20/21