Softwarepraktikum Bioinformatik: Projekte

OpenMS

DozentIn(en): Chris Bielow

Maximale Teilnehmerzahl: 8

Zeitraum/Vorbesprechungstermin: tba

Vorstellung des Projekts: 16.01.2026, um 9:30 Uhr (s.t.!) (Webexmeeting), zusammen mit "Advanced bioinformatics pipelines"
Link: https://fu-berlin.webex.com/fu-berlin-en/j.php?MTID=m9b2134ce7b5f7045e0c581aa33ceb901

Ort: Institut für Informatik

Kurze inhaltliche Beschreibung:

In diesem Praktikum werden wir am Beispiel unserer open-source Bibliothek OpenMS (www.openms.de) realitaetsnah ein C++ Programmierprojekt bearbeiten und dabei Algorithmen, Datenstrukturen und evtl. grafische Benutzerinterfaces reimplementieren oder neu entwicklen.

Dabei werden wir Tools zur Entwicklung, Debugging, Performance-Profiling, Source-Code Management im Team und Continuous-Integration kennen lernen.

OpenMS ist eine der meistverwendeten Softwarebibliotheken zur Analyse von Massenspektrometriedaten und besitzt eine sehr umfaengliche Sammlung an schnellen und effizienten Algorithmen. OpenMS wird staendig weiterentwicklet und auch kommerziell genutzt.

Quantitative Aufteilung (in %):

Praktische Programmierarbeit: 60%
Soft Skills: 40%

Verwendete Programmiersprache(n): C++

Schwierigkeitsgrad (Acht Sterne verteilt auf drei Bereiche):

A Programmieren: 4*
B Biologie/Chemie: 1*
C Projektmanagement: 3*

Erforderliche Vorkenntnisse: gute Kenntnisse in C++

Kontaktadresse, Webseite/Link:

https://www.bsc.fu-berlin.de/TeachingAndWorkshops/SoSe26/Software_Praktikum_OpenMS/index.html

Chris Bielow

Advanced bioinformatics pipelines

DozentIn(en): Sandro Andreotti

Maximale Teilnehmerzahl: 8

Zeitraum/Vorbesprechungstermin: Nach Absprache

Vorstellung des Projekts: 16.01.2026, um 9:30 Uhr (s.t.!) (Webexmeeting), zusammen mit "OpenMS"
Link: https://fu-berlin.webex.com/fu-berlin-en/j.php?MTID=m9b2134ce7b5f7045e0c581aa33ceb901

Ort: tba

Kurze inhaltliche Beschreibung:

In diesem Praktikum werden Workflows für die Analyse von Next Generation Sequencing (NGS) Daten konzeptioniert und implementiert. Die Teilnehmer werden komplexe professionelle Datenanalysepipelines für aktuelle Forschungsprojekte in unserer Gruppe entwickeln. Dabei werden sie verschiedene Workflowsysteme (z.B. KNIME, Snakemake) kennenlernen und verwenden. Die Teilnehmer werden anhand aktueller Literatur ihre Workflows eigenständig erarbeiten, testen und verfeinern. Neben der Workflow-Programmierung erlangen die Teilnehmer ein umfangreiches Wissen über existierende Bioinformatik-Software im Bereich NGS.

Quantitative Aufteilung: (in %)

Praktische Programmierarbeit: 50%
Soft Skills: 50%

Verwendete Programmiersprache(n):

R, Python oder andere Skriptsprache

Schwierigkeitsgrad (Acht Sterne verteilt auf drei Bereiche):

A Programmieren ****
B Biologie/Chemie *
C Projektmanagement ***

Erforderliche Vorkenntnisse: R, Python

Kontaktadresse, Webseite/Link:
https://www.bsc.fu-berlin.de/TeachingAndWorkshops/SoSe26/Software_Praktikum_Advanced_Pipelines/index.html

Sandro Andreotti

Generative and Agentic AI in Health Applications

Lecturer: Maryam Ghareghani

Maximum number of participants: 10 (projects in groups of 2–3 students)

Period/preliminary appointment: tba

Location: Max Planck Institute for Molecular Genetics, Ihnestr. 63-73, PC-Pool

Information session: There will be an information session (online) on xxx.
Link:

Course description:

This software internship focuses on generative AI and agentic AI, with applications in the health domain. Students will gain hands-on experience with foundational models, prompt engineering, and generative AI agents, applying them to practical health-related problems. They will design, implement, and evaluate AI-driven solutions while developing essential project management, teamwork, and presentation skills. The course provides exposure to current AI tools, frameworks, and best practices for building real-world applications, with students working in small groups on prototype projects.

Learning Goals:

Practical experience with generative AI and agentic AI tools and frameworks
Application of AI methods to health-related problems
Development of teamwork, project management, and presentation skills

Quantitative allocation (in %):

Practical programming work: 60 %

Soft skills: 40%

Programming language(s) used: Python

Difficulty level (Eight stars distributed over three areas):

A Programming:****

B Biology/Chemistry:*

C Projekt management:***

Required previous knowledge:

Python programming
Familiarity with basic AI concepts (e.g., LLMs, prompt engineering)
Interest in AI, health, or bioinformatics

Contact address: ghareghani at molgen.mpg.de

Website:

Language: English

AI for Health

Thema: Developing an Agentic AI System for Lung Nodule Detection and Malignancy Prediction in Chest CT

DozentIn(en): Georg von Arnim, Roland Eils, Benjamin Wild, Sören Lukassen

Maximale Teilnehmerzahl: 10

Zeitraum/Vorbesprechungstermin: nach Absprache; Das Projekt ist zeitlich flexibel und kann an die individuellen Bedürfnisse der Teilnehmer:innen angepasst werden.

Ort: Digital (A), BIH, Kapelle-Ufer 2 (B)

Kurze inhaltliche Beschreibung:

In diesem Softwareprojekt entwickeln wir ein agentenbasiertes KI-System für die Analyse von 3D-Computertomographie (CT)-Daten der Lunge. Der Schwerpunkt liegt auf der Erkennung von Lung Nodules und der Vorhersage von Malignität. Im Zentrum steht ein LLM-basierter Orchestrator-Agent, der verschiedene spezialisierte Module und Tools koordiniert – beispielsweise für Segmentierung, Nodule Detection oder die Abfrage einer medizinischen Wissensdatenbank. Die Implementierung kann auf verschiedenen Frameworks basieren, darunter MCP (Model Context Protocol), klassische Tool Calls oder Claude Skills. Für die Computer-Vision-Komponenten nutzen wir MONAI, ein spezialisiertes Framework für medizinische Bildanalyse.

Als Datengrundlage stehen zwei etablierte Datensätze zur Verfügung:

LIDC-IDRI (Lung Image Database Consortium): Ein Referenzdatensatz für Lung Nodules mit 1.018 Fällen, annotiert von vier erfahrenen Thorax-Radiologen. Der Datensatz enthält detaillierte Markierungen von Nodules verschiedener Größen und bildet die Grundlage für die LUNA Challenge. (https://www.cancerimagingarchive.net/collection/lidc-idri/)
CT-RATE: Über 50.000 rekonstruierte CT-Volumina von mehr als 21.000 Patient:innen mit Radiologieberichten und Multi-Abnormality Labels. (https://huggingface.co/datasets/ibrahimhamamci/CT-RATE)

Inhalte und Lernziele:

Einführung in agentenbasierte KI-Systeme mit LLM-Orchestrierung
Entwicklung modularer Tools für medizinische Bildanalyse (Segmentierung, Nodule Detection, Malignancy Prediction)
Praktische Anwendung von MONAI für 3D-CT-Analyse
Integration von Wissensdatenbanken und Retrieval-Systemen in den Agenten-Workflow
Implementierung von Tool Calls, MCP oder Claude Skills für die Agenten-Kommunikation
Vertiefung in moderne ML-Frameworks wie PyTorch und MONAI

Zusätzlich besteht die Möglichkeit, sich mit spezifischen Interessen oder Ideen einzubringen, die in einem initialen Meeting besprochen und in das Projekt integriert werden können.

Quantitative Aufteilung: (in %)

Praktische Programmierarbeit: 80%
Soft Skills: 20%

Verwendete Programmiersprache(n): Python (>90%), ggf. Javascript für Web-Apps

Schwierigkeitsgrad (Acht Sterne verteilt auf drei Bereiche):

A Programmieren ****
B Biologie/Chemie **
C Projektmanagement **

Erforderliche Vorkenntnisse:

Wichtiger Hinweis: Vorkenntnisse in den folgenden Bereichen sind zwingend erforderlich. Teilnehmer:innen ohne diese Qualifikationen können nicht berücksichtigt werden. Bewerber:innen mit praktischer Erfahrung werden bei der Auswahl bevorzugt.

Erfahrung mit Python-Programmierung
Grundverständnis von maschinellem Lernen
Idealerweise Erfahrung mit PyTorch oder anderen DL-Bibliotheken
Kenntnisse über neuronale Netze und praktische Erfahrung mit Deep Learning

Kontaktadresse, Webseite/Link:

Bei Fragen können Sie uns gerne per E-Mail erreichen:

Benjamin Wild

Sören Lukassen

https://www.hidih.org/research/ailslab

Bioinformatische Aufklärung monogener Krankheiten

Titel: Bioinformatische Aufklärung monogener Krankheiten

Themen:

Integrierte Analyse von Transkriptomdaten (RNAseq) und Erweiterung von Splice-Analyse-Tools (3 Plätze)
Entwicklung einer Electron-App zur Suche nach Transkriptionsfaktor-Bindestellen

DozentIn(en): Dominik Seelow, Robin Steinhaus, Oliver Küchler

Maximale Teilnehmerzahl: 7

Informationstermin (online): Freitag, xx.01.2026, xx:00 Uhr. Anmeldung unter: https://www.genecascade.org/lehre/SWP_2025.html

Ort: Charité/BIH - Bioinformatics & Translational Genetics, Invalidenstr. 97

Weitere Infos:

https://www.genecascade.org/lehre/SWP_2025.html

Kontakt:

Oliver Küchler

Gene expression prediction ML models

DozentIn(en)/Lecturer: Masek, Baum

Maximum number of participants: 6

Infotermin:

Projektvorstellung und Klären von Fragen: 15.01.2026 um 15:30 Uhr, remote unter diesem Webex-Link:

https://fu-berlin.webex.com/meet/pras2wlw379s99

Location: tba

Short description of content:

(will be held in english)
In this project, students will reimplement published deep learning models for predicting gene expression responses to perturbation. They will then assess these models using a variety of metrics and critically evalute the results in terms of biological relevance, addressing an ongoing debate in the field regarding evaluation standards.

Quantitative allocation (in %):

Practical programming work: 50%
Soft Skills: 25%
Literature research: 25%

Programming language(s) used: Python

Difficulty level (Eight stars distributed over three areas):

A Programming ***
B Biology/Chemistry ***
C Project management **

Required previous knowledge Python, machine learning

Contact address:

Martin Masek

Webseite/Link:

https://www.mi.fu-berlin.de/w/DILIS/WebHome

ML Modeling for Cancer Cell Line Drug Response

DozentIn(en): Iversen, Baum

Maximale Teilnehmerzahl: 6

Infotermin:

Projektvorstellung und Klären von Fragen: 14.01.2026 um 17:45 Uhr, remote unter diesem Webex-Link:
https://fu-berlin.webex.com/meet/piversen

Kurze inhaltliche Beschreibung:

In diesem Projekt arbeiten die Studierenden daran, moderne Cancer-Drug-Response-Modelle in das Open-Source-Framework DrEvalPy (https://github.com/daisybio/drevalpy) zu integrieren. Dabei handelt es sich um Machine-Learning-Modelle, die anhand des (Multi-)Omics-Profils von Krebszelllinien vorhersagen, ob diese sensitiv oder resistent gegenüber spezifischen Krebsmedikamenten sind.

Quantitative Aufteilung: (in %)

Praktische Programmierarbeit: 50%
Soft Skills: 35%
Literatureinarbeitung: 15%

Verwendete Programmiersprache(n): Python

Schwierigkeitsgrad (Acht Sterne verteilt auf drei Bereiche):

A Programmieren ****
B Biologie/Chemie ***
C Projektmanagement *

Erforderliche Vorkenntnisse: Python, Machine Learning, basic Pytorch

Kontaktadresse:

Pascal Iversen

Webseite/Link:

https://www.mi.fu-berlin.de/w/DILIS/WebHome

Allgemeine Infos zum Softwarepraktikum (Projektmanagement im Softwarebereich)

Fachbereich Mathematik und Informatik

Studium Bioinformatik

Softwarepraktikum Bioinformatik: Projekte

OpenMS

Advanced bioinformatics pipelines

Generative and Agentic AI in Health Applications

AI for Health

Bioinformatische Aufklärung monogener Krankheiten

Gene expression prediction ML models

ML Modeling for Cancer Cell Line Drug Response