Softwarepraktikum Bioinformatik: Projekte

OpenMS

Titel: Faster Bioinformatics with C++

DozentIn(en): Ch. Bielow

Maximale Teilnehmerzahl: 8

Zeitraum/Vorbesprechungstermin: tba

Vorstellung des Projekts: Donnerstag, 09.01.2025, um 10:00 Uhr (Webexmeeting), zusammen mit "Advanced bioinformatics pipelines"

Link: https://fu-berlin.webex.com/fu-berlin-en/j.php?MTID=m4f668d9eba54866b9b98ca4f5624942b

Ort: Institut für Informatik

Kurze inhaltliche Beschreibung:

In diesem Praktikum werden wir am Beispiel unserer open-source Bibliothek OpenMS (www.openms.de) realitaetsnah ein C++ Programmierprojekt bearbeiten und dabei Algorithmen, Datenstrukturen und evtl. grafische Benutzerinterfaces reimplementieren oder neu entwicklen.

Dabei werden wir Tools zur Entwicklung, Debugging, Performance-Profiling, Source-Code Management im Team und Continuous-Integration kennen lernen.

OpenMS ist eine der meistverwendeten Softwarebibliotheken zur Analyse von Massenspektrometriedaten und besitzt eine sehr umfaengliche Sammlung an schnellen und effizienten Algorithmen. OpenMS wird staendig weiterentwicklet und auch kommerziell genutzt.

Quantitative Aufteilung (in %):

Praktische Programmierarbeit: 60%
Soft Skills: 40%

Verwendete Programmiersprache(n): C++

Schwierigkeitsgrad (Acht Sterne verteilt auf drei Bereiche):

A Programmieren: 4*
B Biologie/Chemie: 1*
C Projektmanagement: 3*

Erforderliche Vorkenntnisse: gute Kenntnisse in C++

Kontaktadresse, Webseite/Link:

https://www.bsc.fu-berlin.de/TeachingAndWorkshops/SoSe25/Software_Praktikum_OpenMS/index.html

Chris Bielow

SeqAn

Titel: Algorithmen zur Analyse von von genomischen Sequenz-Daten (SeqAn)

Dozent(en): R.Rahn

Maximale Teilnehmerzahl: 6

Zeitraum und Ablauf:

Block 1: C++ Kurs (Feb/März). Nicht Teil des Praktikums, aber DRINGEND empfohlen

Block 2: SeqAn 3 Tutorial (x.x. – x.x.)

Software Installation
Cmake und github
SeqAn Tutorials
Zuordnung der Teilprojekte

Block 3: Recherche und Präsentation des Projektplans (bis x.x.)

Vortrag vorbereiten
Welche Datentypen/Schnittstellen von mir benötigen ggf. andere?
Welche Datentypen/Schnittstellen benötige ich?
Welche Algorithmen werden benötigt?
Welche davon gibt es schon in SeqAn, welche muss ich implementieren?

Block 4: Implementierung, Erstellung eines Abschlussberichts (bis x.x.)

Vorstellung der Ergebnisse (x.x.)

Ort: Institut für Informatik

Kurze inhaltliche Beschreibung:

Implementierung von Algorithmen für die Sequenzanalyse genomischer (Massen)daten & Erstellen kleinerer Analysepipelines mit Hilfe einer bestehenden C++-Bibliothek. Dabei sollen neben dem Programmieren auch Elemente des Software-Engineering eingeübt werden (Erstellen eines Zeitplanes, Benutzung von Programmierwerkzeugen, Erstellen von Tests, Arbeiten im Team, etc.)

Quantitative Aufteilung:

Praktische Programmierarbeit: 60%
Soft Skills: 40%

Verwendete Programmiersprache(n): C++

Schwierigkeitsgrad (Acht Sterne verteilt auf drei Bereiche):

A Programmieren: *****
B Biologie/Chemie: *
C Projektmanagement: **

Unbedingt erforderliche Vorkenntnisse: C++

Kontaktadresse, Webseite:

René Rahn

Advanced bioinformatics pipelines

DozentIn(en): Sandro Andreotti

Maximale Teilnehmerzahl: 8

Zeitraum/Vorbesprechungstermin: Nach Absprache

Vorstellung des Projekts (Nachholtermin): Donnerstag, 16.01.2025, um 10:00 Uhr (Webexmeeting),

Link: https://fu-berlin.webex.com/fu-berlin-en/j.php?MTID=m5d7344eacd82831d551c93c8eeecc62c

Ort: tba

Kurze inhaltliche Beschreibung:

In diesem Praktikum werden Workflows für die Analyse von Next Generation Sequencing (NGS) Daten konzeptioniert und implementiert. Die Teilnehmer werden komplexe professionelle Datenanalysepipelines für aktuelle Forschungsprojekte in unserer Gruppe entwickeln. Dabei werden sie verschiedene Workflowsysteme (z.B. KNIME, Snakemake) kennenlernen und verwenden. Die Teilnehmer werden anhand aktueller Literatur ihre Workflows eigenständig erarbeiten, testen und verfeinern. Neben der Workflow-Programmierung erlangen die Teilnehmer ein umfangreiches Wissen über existierende Bioinformatik-Software im Bereich NGS.

Quantitative Aufteilung: (in %)

Praktische Programmierarbeit: 50%
Soft Skills: 50%

Verwendete Programmiersprache(n):

R, Python oder andere Skriptsprache

Schwierigkeitsgrad (Acht Sterne verteilt auf drei Bereiche):

A Programmieren ****
B Biologie/Chemie *
C Projektmanagement ***

Erforderliche Vorkenntnisse: R, Python

Kontaktadresse, Webseite/Link:
https://www.bsc.fu-berlin.de/TeachingAndWorkshops/SoSe25/Software_Praktikum_Advanced_Pipelines/index.html

Sandro Andreotti

AI for Health

Thema: Developing Generalist Foundation Models from a Multimodal Dataset for 3D Computed Tomography

DozentIn(en): Prof. Roland Eils, Benjamin Wild, Sören Lukassen, Georg von Arnim, Tillmann Rheude

Maximale Teilnehmerzahl: 10

Zeitraum/Vorbesprechungstermin: nach Absprache; Das Projekt ist zeitlich flexibel und kann an die individuellen Bedürfnisse der Teilnehmer:innen angepasst werden.

Ort: Digital (A), BIH, Kapelle-Ufer 2 (B)

Kurze inhaltliche Beschreibung:

In diesem Softwareprojekt widmen wir uns der Entwicklung von Foundation Models für die Analyse von 3D-Computertomographie (CT)-Daten, basierend auf dem öffentlich zugänglichen CT-RATE-Datensatz. Ziel ist es, KI-Modelle zu entwickeln, die die Grundlagen für die Früherkennung von COPD (Chronic Obstructive Pulmonary Disease) legen und für eine geplante Studie genutzt werden können.
Der CT-RATE-Datensatz umfasst mehr als 50.000 rekonstruierte CT-Volumina von über 21.000 Patient:innen, gekoppelt mit Radiologieberichten, multi-abnormality labels und weiteren Metadaten. Aufbauend auf diesem Datensatz werden wir die Methoden von CT-CLIP, einem selbstüberwachten Framework für multimodales Pre-Training, und CT-CHAT, einem vision-language Modell für 3D-CT-Daten, erkunden und weiterentwickeln. (Weitere Informationen zu den Daten: https://huggingface.co/datasets/ibrahimhamamci/CT-RATE)

Inhalte und Lernziele:

Einführung in multimodale Datenanalyse mit Bild- und Textdaten in der Medizin
Entwicklung, Training und Evaluierung von Foundation Models für 3D-CT-Daten
Vertiefung in selbstüberwachtes Pre-Training und Vision-Language-Modellierung
Anwendung moderner ML-Frameworks wie PyTorch für die Modellentwicklung
Integration und Optimierung der entwickelten Modelle für klinische Anwendungen

Zusätzlich besteht die Möglichkeit, sich mit spezifischen Interessen oder Ideen einzubringen, die in einem initialen Meeting besprochen und in das Projekt integriert werden können.

Quantitative Aufteilung: (in %)

Praktische Programmierarbeit: 80%
Soft Skills: 20%

Verwendete Programmiersprache(n): Python (>90%), ggf. Javascript für Web-Apps

Schwierigkeitsgrad (Acht Sterne verteilt auf drei Bereiche):

A Programmieren ****
B Biologie/Chemie **
C Projektmanagement **

Erforderliche Vorkenntnisse:

Wichtiger Hinweis: Vorkenntnisse in den folgenden Bereichen sind zwingend erforderlich. Teilnehmer:innen ohne diese Qualifikationen können nicht berücksichtigt werden. Bewerber:innen mit praktischer Erfahrung werden bei der Auswahl bevorzugt.

Erfahrung mit Python-Programmierung
Grundverständnis von maschinellem Lernen
Idealerweise Erfahrung mit PyTorch oder anderen DL-Bibliotheken
Kenntnisse über neuronale Netze und praktische Erfahrung mit Deep Learning

Kontaktadresse, Webseite/Link:

Bei Fragen können Sie uns gerne per E-Mail erreichen:

Benjamin Wild

Sören Lukassen

https://www.hidih.org/research/ailslab

Bioinformatische Aufklärung monogener Krankheiten

Titel: Bioinformatische Aufklärung monogener Krankheiten

Themen:

Integrierte Analyse von Transkriptomdaten (RNAseq) und Erweiterung von Splice-Analyse-Tools (3 Plätze)
Entwicklung einer Electron-App zur Suche nach Transkriptionsfaktor-Bindestellen (2 Plätze)

DozentIn(en): Dominik Seelow, Robin Steinhaus, Oliver Küchler

Maximale Teilnehmerzahl: 5

Informationstermin (online): Freitag, 17.01.2025, 16:00 Uhr. Anmeldung unter: https://www.genecascade.org/lehre/SWP_2025.html

Ort: Charité/BIH - Bioinformatics & Translational Genetics, Invalidenstr. 97

Weitere Infos:

https://www.genecascade.org/lehre/SWP_2025.html

Kontakt:

Oliver Küchler

ML techniques for biomedical data

Titel: Advanced Drug Encodings for DrEvalPy: A Pipeline for Drug Response Prediction in Cancer Cell Lines

DozentIn(en): Baum, Iversen, Hiort

Maximale Teilnehmerzahl: 6

Infotermin:

Projektvorstellung und Klären von Fragen: 15.01.2025 um 17:30 Uhr, remote unter diesem Webex-Link:

https://fu-berlin.webex.com/fu-berlin/j.php?MTID=me434a85bb36ef79f2e4bc7ac57f4d737

Kurze inhaltliche Beschreibung:

Das Softwareprojekt befasst sich mit der Entwicklung einer Python-basierten Pipeline zur Evaluierung von Machine Learning Modellen die die Wirkung von Krebsmedikamenten auf Zelllinien vorhersagen, genannt DrEval. Im Rahmen dieses Projekts wird eine Reihe unterschiedlicher Medikamenten Encodings implementiert, um die Vorhersagegenauigkeit und die Interpretierbarkeit der Modelle zu verbessern. Diese Encodings umfassen Literatur-abgeleitete Informationen, GNN-basierte Repräsentationen (Graph Neural Networks) und SMILES-basierte Encodings wie MACCS, die jeweils verschiedene Aspekte der chemischen und biologischen Eigenschaften von Medikamenten widerspiegeln.

Die Pipeline ist darauf ausgelegt, verschiedene Modellansätze zu testen und zu vergleichen, wobei der Fokus auf der Verbesserung der Vorhersage von Medikamentenwirkungen auf verschiedene Zelllinien und Krankheiten liegt. Durch die Integration und Analyse dieser Encodings sollen tiefere Einblicke in die Wirkmechanismen von Medikamenten und deren potenziellen klinischen Anwendungen gewonnen werden.

Quantitative Aufteilung: (in %)

Praktische Programmierarbeit: 50%
Soft Skills: 50%

Verwendete Programmiersprache(n): Python

Schwierigkeitsgrad (Acht Sterne verteilt auf drei Bereiche):

A Programmieren ****
B Biologie/Chemie **
C Projektmanagement **

Erforderliche Vorkenntnisse: Python

Kontaktadresse, Webseite/Link:

Prof. Dr. Katharina Baum

Rust-Programmierung lernen

Titel: Rust-Programmierung lernen

DozentIn(en): Peter Robinson, Daniel Danis, Kristin Köhler

Maximale Teilnehmerzahl: 5

Vorbesprechungstermin: Donnerstag, 18.01.2024, 17:00 Uhr unter: (Zoomlink wird auf Nachfrage mitgeteilt)

Zeitraum: nach Absprache

Themen:

1. Rust-Pakete erstellen, Software-Engineering, Grundlagen der Rustprogrammierung
2. Erstellen einer Applikation in Rust (z.B., ANN oder anderes Thema nach Rücksprache)

Ort: Charité/BIH – AG Robinson, Rachel Hirsch Gebäude

Kurze inhaltliche Beschreibung:

ggf. ergänzen

Quantitative Aufteilung: (in %) ggf. ergänzen

Praktische Programmierarbeit: x%
Soft Skills: y%

Verwendete Programmiersprache(n): Rust;
Einführung in Rust für Bioinformatiker

Schwierigkeitsgrad (Acht Sterne verteilt auf drei Bereiche): ggf. anpassen

A Programmieren ****
B Biologie/Chemie *
C Projektmanagement ***

Erforderliche Vorkenntnisse:

ggf. ergänzen

Kontaktadresse: Prof. Peter Robinson

Themen und weitere Infos:

https://robinsongroup.github.io/:

Allgemeine Infos zum Softwarepraktikum (Projektmanagement im Softwarebereich)

Fachbereich Mathematik und Informatik

Studium Bioinformatik

Softwarepraktikum Bioinformatik: Projekte

OpenMS

SeqAn

Advanced bioinformatics pipelines

AI for Health

Bioinformatische Aufklärung monogener Krankheiten

ML techniques for biomedical data

Rust-Programmierung lernen