Springe direkt zu Inhalt

Softwarepraktikum Bioinformatik: Projekte

Titel: Faster Bioinformatics with C++

DozentIn(en): Ch. Bielow

Maximale Teilnehmerzahl: 10

Zeitraum/Vorbesprechungstermin: tba

Vorstellung des Projekts: 19.01.2024 um 9:30 Uhr (Webexmeeting), zusammen mit "Workflows"
https://fu-berlin.webex.com/fu-berlin/j.php?MTID=m852e25f32e66d84f3068835679d1c388

Ort: Institut für Informatik

Kurze inhaltliche Beschreibung:

In diesem Praktikum werden wir am Beispiel unserer open-source Bibliothek OpenMS (www.openms.de) realitaetsnah ein C++ Programmierprojekt bearbeiten und dabei Algorithmen, Datenstrukturen und evtl. grafische Benutzerinterfaces reimplementieren oder neu entwicklen.

Dabei werden wir Tools zur Entwicklung, Debugging, Performance-Profiling, Source-Code Management im Team und Continuous-Integration kennen lernen.

OpenMS ist eine der meistverwendeten Softwarebibliotheken zur Analyse von Massenspektrometriedaten und besitzt eine sehr umfaengliche Sammlung an schnellen und effizienten Algorithmen. OpenMS wird staendig weiterentwicklet und auch kommerziell genutzt.

Quantitative Aufteilung (in %):

Praktische Programmierarbeit: 60%
Soft Skills: 40%

Verwendete Programmiersprache(n): C++

Schwierigkeitsgrad (Acht Sterne verteilt auf drei Bereiche):

A Programmieren: 4*
B Biologie/Chemie: 1*
C Projektmanagement: 3*

Erforderliche Vorkenntnisse: gute Kenntnisse in C++

Kontaktadresse, Webseite/Link:

https://www.bsc.fu-berlin.de/TeachingAndWorkshops/SoSe23/Software_Praktikum_OpenMS/index.html

Chris Bielow


Titel: Algorithmen zur Analyse von von genomischen Sequenz-Daten (SeqAn)

Dozent(en): K. Reinert

Maximale Teilnehmerzahl: 6

Zeitraum und Ablauf:

Block 1: C++ Kurs (26.02. – 07.03).  Nicht Reil des Praktikums, aber DRINGEND empfohlen

Block 2:
SeqAn 3 Tutorial  (04.3. – 08.3.)

  • Software Installation
  • Cmake und github
  • SeqAn Tutorials
  • Zuordnung der Teilprojekte

Block 3: Recherche und Präsentation des Projektplans (bis 15.3.)

  • Vortrag vorbereiten
  • Welche Datentypen/Schnittstellen von mir benötigen ggf. andere?
  • Welche Datentypen/Schnittstellen benötige ich?
  • Welche Algorithmen werden benötigt?
  • Welche davon gibt es schon in SeqAn, welche muss ich implementieren?

Block 4: Implementierung, Erstellung eines Abschlussberichts (bis 23.04.)

  • Vorstellung der Ergebnisse (23.04.)

Ort: Institut für Informatik

Kurze inhaltliche Beschreibung:

Implementierung von Algorithmen für die Sequenzanalyse genomischer (Massen)daten & Erstellen kleinerer Analysepipelines mit Hilfe einer bestehenden C++-Bibliothek. Dabei sollen neben dem Programmieren auch Elemente des Software-Engineering eingeübt werden (Erstellen eines Zeitplanes, Benutzung von Programmierwerkzeugen, Erstellen von Tests,  Arbeiten im Team, etc.)

Quantitative Aufteilung:

Praktische Programmierarbeit: 60%
Soft Skills: 40%

Verwendete Programmiersprache(n): C++

Schwierigkeitsgrad (Acht Sterne verteilt auf drei Bereiche):

A Programmieren:  *****
B Biologie/Chemie:  *
C Projektmanagement:  **

Unbedingt erforderliche Vorkenntnisse: C++

Kontaktadresse, Webseite:

Svenja Mehringer

DozentIn(en): Sandro Andreotti

Maximale Teilnehmerzahl: 8

Zeitraum/Vorbesprechungstermin: Nach Absprache

Vorstellung des Projekts: 19.01.2024 um 9:30 Uhr (Webexmeeting), zusammen mit OpenMS (Faster Bioinformatics...)
https://fu-berlin.webex.com/fu-berlin/j.php?MTID=m852e25f32e66d84f3068835679d1c388

Ort: tba

Kurze inhaltliche Beschreibung:

In diesem Praktikum werden Workflows für die Analyse von Next Generation Sequencing (NGS) Daten konzeptioniert und implementiert. Die Teilnehmer werden komplexe professionelle Datenanalysepipelines für aktuelle Forschungsprojekte in unserer Gruppe entwickeln. Dabei werden sie verschiedene Workflowsysteme (z.B. KNIME, Snakemake) kennenlernen und verwenden. Die Teilnehmer werden anhand aktueller Literatur ihre Workflows eigenständig erarbeiten, testen und verfeinern. Neben der Workflow-Programmierung erlangen die Teilnehmer ein umfangreiches Wissen über existierende Bioinformatik-Software im Bereich NGS.

Quantitative Aufteilung: (in %)

Praktische Programmierarbeit: 50%
Soft Skills: 50%

Verwendete Programmiersprache(n):

R, Python oder andere Skriptsprache

Schwierigkeitsgrad (Acht Sterne verteilt auf drei Bereiche):

A Programmieren ****
B Biologie/Chemie *
C Projektmanagement ***

Erforderliche Vorkenntnisse: R, Python

Kontaktadresse, Webseite/Link:
https://www.bsc.fu-berlin.de/TeachingAndWorkshops/SoSe23/Software_Praktikum_Workflows/index.html

Sandro Andreotti

Thema: AI for Health

DozentIn(en): Prof. Roland EilsJulius Upmeier zu Belzen, Benjamin WildSören Lukassen

Maximale Teilnehmerzahl: 10

Zeitraum/Vorbesprechungstermin: nach Absprache

In this software project, you will learn about the fundamentals of applying machine learning to problems in the healthcare domain. We will provide access to public datasets and an environment for development (including ECG, Microscopy, and X-Ray datasets). Furthermore, we are open to discuss specific interests or ideas you might have in our initial meeting, and define the project accordingly. In any case, we will develop a pipeline from dataset access, preprocessing, baseline models, ML models and evaluation, as well as planning of future applications and extensions.

We are flexible with regards to the project timeline. If you have any further questions, please feel free to email us:
benjamin.wild@bih-charite.de, julius.upmeier@bih-charite.de, soeren.lukassen@bih-charite.de 

Ort: Digital (A), BIH, Kapelle-Ufer 2 (B)

Kurze inhaltliche Beschreibung:

Project: Machine Learning in Medicine: from idea to tool

  • Learn the fundamentals of developing, training and testing deep learning models in the medical domain
  • Learn about relevant metrics for evaluation and benchmarking and potential biases to watch out for
  • Optional: Work on integrating the developed and evaluated models into usable (web) tool

Quantitative Aufteilung: (in %)

Praktische Programmierarbeit: 75%
Soft Skills: 25%

Verwendete Programmiersprache(n): Python (>90%), maybe some javascript for web app

Schwierigkeitsgrad (Acht Sterne verteilt auf drei Bereiche):

A Programmieren ****
B Biologie/Chemie * 
C Projektmanagement ***

Erforderliche Vorkenntnisse:

  • Experience with the Python programming language
  • Fundamental understanding of “What is machine learning"
  • Preferably prior experience with PyTorch or other DL-Libraries
  • Understanding of neural networks and preferably experience with deep learning

Kontaktadresse, Webseite/Link:

Benjamin Wild

Julius Upmeier zu Belzen

Sören Lukassen

https://www.hidih.org/research/ailslab  

Titel: Bioinformatische Aufklärung monogener Krankheiten

Themen:

1. Integrierte Analyse und Erweiterung von Splice-Analyse-Tools
2. Entwicklung eines ACME-Clients in C/C++ oder Bash

DozentIn(en): Dominik Seelow, Robin Steinhaus, Oliver Küchler

Maximale Teilnehmerzahl: 5

Informationstermin (online):

Donnerstag, 18.01.2024, 17:00 Uhr unter:  https://meet.jit.si/BTG_SWP_2024

Ort: Charité/BIH - Bioinformatics & Translational Genetics, Invalidenstr. 97

Themen und weitere Infos:

https://www.genecascade.org/lehre/SWP_2024.html


Titel: ML Techniken für biologische Daten

DozentIn(en): Baum, Iversen, Hiort

Maximale Teilnehmerzahl: 10

Infotermin:

Projektvorstellung und Klären von Fragen: 17.01.24 um 17:45, remote unter diesem Webex-Link: https://fu-berlin.webex.com/fu-berlin/j.php?MTID=mb015bf546bc85904bc0932eb81af26e5

Kurze inhaltliche Beschreibung:

Im Softwarepraktikum werden wir verschiedene Machine-Learning (ML)-Methoden zur Analyse von biologischen Daten entwickeln, anwenden und evaluieren. Ziel ist es, verschiedene Datensätze aus der biologisch-medizinischen Forschung kennenzulernen und zu verarbeiten. Insbesondere werden wir uns mit großen Datensätzen beschäftigen, wie etwa aus dem Omics-Bereich, zum Beispiel Messungen von mRNA (Transcriptomics) oder Proteinen (Proteomics). Auf diese Daten sollen verschiedenen ML-Methoden angewendet werden, um biologische und medizinische Vorhersagen zu treffen. Die Qualität der Vorhersagen soll dann passend evaluiert werden. Wir planen im Projekt die Arbeit an konkreten, biomedizinisch und für unsere Forschung relevanten Fragestellungen. Diese können von uns bereitgestellt oder gemeinsam mit uns geplant werden. Eine konkrete Anwendung kann zum Beispiel die personalisierte Medizin sein. Hierbei geht es um die Vorhersage der Wirkung von Krebsmedikamenten anhand von umfassenden Daten von bestimmten Krebszellen. Wir setzen Vorkenntnisse in Python voraus. Wir werden im Projekt moderne Python-basierte Module für ML wie scikit-learn, TensorFlow oder PyTorch benutzen.

Quantitative Aufteilung: (in %)

Praktische Programmierarbeit: 50%
Soft Skills: 50%

Verwendete Programmiersprache(n): Python

Schwierigkeitsgrad (Acht Sterne verteilt auf drei Bereiche):

A Programmieren ****
B Biologie/Chemie *
C Projektmanagement ***

Erforderliche Vorkenntnisse: Python

Kontaktadresse, Webseite/Link:

Prof. Dr. Katharina Baum

Allgemeine Infos zum Softwarepraktikum (Projektmanagement im Softwarebereich)

eVV