Springe direkt zu Inhalt

Softwarepraktikum Bioinformatik: Projekte 2022

Titel: Faster Bioinformatics with C++

DozentIn(en): Ch. Bielow

Maximale Teilnehmerzahl: 10

Zeitraum/Vorbesprechungstermin: tba

Vorstellung des Projekts: 24.01.2023 um 9:30 Uhr (Webexmeeting), zusammen mit "Workflows"
https://fu-berlin.webex.com/fu-berlin-en/j.php?MTID=m1b439b49b5aa502d221bc5251e82b730

Ort: Institut für Informatik

Kurze inhaltliche Beschreibung:

In diesem Praktikum werden wir am Beispiel unserer open-source Bibliothek OpenMS (www.openms.de) realitaetsnah ein C++ Programmierprojekt bearbeiten und dabei Algorithmen, Datenstrukturen und evtl. grafische Benutzerinterfaces reimplementieren oder neu entwicklen.

Dabei werden wir Tools zur Entwicklung, Debugging, Performance-Profiling, Source-Code Management im Team und Continuous-Integration kennen lernen.

OpenMS ist eine der meistverwendeten Softwarebibliotheken zur Analyse von Massenspektrometriedaten und besitzt eine sehr umfaengliche Sammlung an schnellen und effizienten Algorithmen. OpenMS wird staendig weiterentwicklet und auch kommerziell genutzt.

Quantitative Aufteilung (in %):

Praktische Programmierarbeit: 60%
Soft Skills: 40%

Verwendete Programmiersprache(n): C++

Schwierigkeitsgrad (Acht Sterne verteilt auf drei Bereiche):

A Programmieren: 4*
B Biologie/Chemie: 1*
C Projektmanagement: 3*

Erforderliche Vorkenntnisse: gute Kenntnisse in C++

Kontaktadresse, Webseite/Link:

https://www.bsc.fu-berlin.de/TeachingAndWorkshops/SoSe23/Software_Praktikum_OpenMS/index.html

Chris Bielow


Titel: Algorithmen zur Analyse von von genomischen Sequenz-Daten (SeqAn)

Dozent(en): K. Reinert

Maximale Teilnehmerzahl: 6

Zeitraum/Vorbesprechungstermin:

x.03. – x.03. Einführende Seminarwoche, ganztägig

x.03. – x.04. eigenständiges Arbeiten mit wöchentlichen Treffen bzw. nach Absprache
x.03. Vorstellung Arbeits/Projektplan
x.04. Abschlusspräsentation

In Ausnahmefällen kann nach Rücksprache mit der betreuenden Person der Arbeitszeitraum auch angepasst werden (bspw. gebuchter Urlaub in Semesterferien).

Ort: Institut für Informatik

Kurze inhaltliche Beschreibung:

Implementierung von Algorithmen für die Sequenzanalyse genomischer (Massen)daten & Erstellen kleinerer Analysepipelines mit Hilfe einer bestehenden C++-Bibliothek. Dabei sollen neben dem Programmieren auch Elemente des Software-Engineering eingeübt werden (Erstellen eines Zeitplanes, Benutzung von Programmierwerkzeugen, Erstellen von Tests,  Arbeiten im Team, etc.)

Quantitative Aufteilung:

Praktische Programmierarbeit: 60%
Soft Skills: 40%

Verwendete Programmiersprache(n): C++

Schwierigkeitsgrad (Acht Sterne verteilt auf drei Bereiche):

A Programmieren:  *****
B Biologie/Chemie:  *
C Projektmanagement:  **

Unbedingt erforderliche Vorkenntnisse: C++

Kontaktadresse, Webseite:

Präsentation (pdf)

DozentIn(en): Sandro Andreotti

Maximale Teilnehmerzahl: 8

Zeitraum/Vorbesprechungstermin: Nach Absprache

Vorstellung des Projekts: 24.01.2023 um 9:30 Uhr (Webexmeeting), zusammen mit OpenMS (Faster Bioinformatics...)
https://fu-berlin.webex.com/fu-berlin-en/j.php?MTID=m1b439b49b5aa502d221bc5251e82b730

Ort: tba

Kurze inhaltliche Beschreibung:

In diesem Praktikum werden Workflows für die Analyse von Next Generation Sequencing (NGS) Daten konzeptioniert und implementiert. Die Teilnehmer werden komplexe professionelle Datenanalysepipelines für aktuelle Forschungsprojekte in unserer Gruppe entwickeln. Dabei werden sie verschiedene Workflowsysteme (z.B. KNIME, Snakemake) kennenlernen und verwenden. Die Teilnehmer werden anhand aktueller Literatur ihre Workflows eigenständig erarbeiten, testen und verfeinern. Neben der Workflow-Programmierung erlangen die Teilnehmer ein umfangreiches Wissen über existierende Bioinformatik-Software im Bereich NGS.

Quantitative Aufteilung: (in %)

Praktische Programmierarbeit: 50%
Soft Skills: 50%

Verwendete Programmiersprache(n):

R, Python oder andere Skriptsprache

Schwierigkeitsgrad (Acht Sterne verteilt auf drei Bereiche):

A Programmieren ****
B Biologie/Chemie *
C Projektmanagement ***

Erforderliche Vorkenntnisse: R, Python

Kontaktadresse, Webseite/Link:
https://www.bsc.fu-berlin.de/TeachingAndWorkshops/SoSe23/Software_Praktikum_Workflows/index.html

Sandro Andreotti

Titel: Analysis of single-cell RNA sequencing data

Dozenten: Helene Kretzmer

Maximale Teilnehmerzahl: 9

Zeitraum/Vorbesprechungstermin: 01.03. - 24.04.2023

Am 11. Januar 2023 findet um 9 Uhr ein Infotermin statt.
https://us04web.zoom.us/j/6588496485?pwd=ZTZubUUweldLNW9EQjVMT1RCTFVrdz09

Meeting ID: 658 849 6485
Passcode: Yi40Fn

Ort: Max Planck Institute for Molecular Genetics, Ihnestr. 63-73, PC-Pool

Kurze inhaltliche Beschreibung:

Gene expression is the process by which a cell produces proteins from the genetic information of the DNA. While all cells in a body have (almost) identical DNA, the gene expression varies between cells and specifically also along differentiation. During embryonic development, a single cell, the oocyte, starts to divide and already after a few days, cells start to acquire cell identities that can be distinguished on transcriptomic level. One of the research aims is to understand this heterogeneity inside the emerging embryo and how which genes are relevant for proper development. Single-cell transcriptomics is a novel technique that allows the measurement of gene expression for individual cells. These measurements allow us to identify cell types or developmental trajectories which describe how cells of one type become another.
In our course, we will cover the whole bioinformatical pipeline for single-cell transcriptomics, including read processing, quality control, and gene-expression matrix construction and analysis. Additionally, we will use unpublished single-cell gene-perturbation data to evaluate the impact of a single gene on embryonic development.
For this, we will use state-of-the-art tools, such as Cell Ranger and Seurat (R-based), or scanpy (python-based). Experience in programming languages, such as shell scripts, R (or Python) is advantageous. For the advanced data analysis, the students will work with a wide range of data-analysis techniques, for example, modularity-based clustering algorithms, dimensionality-reduction techniques (PCA, t-SNE, and UMAP), differential expression identification, gene-ontology enrichment, and trajectory analysis. Students will work in groups of 3 throughout the course. The final report will be written in form of a brief scientific paper and finally all groups will give a short talk to present their results.

Quantitative Aufteilung:

Praktische Programmierarbeit:  ca. 60 %
Soft Skills: ca. 40 %

Verwendete Programmiersprache(n): präferiert R, alternativ python, bash/shell

Schwierigkeitsgrad (Acht Sterne verteilt auf drei Bereiche):

Programmieren ****
Biologie/Chemie **
Projektmanagement **

Unbedingt erforderliche Vorkenntnisse: Statistische Grundlagen, Modul "Algorithmische Bioinformatik"

Kontaktadresse, Webseite:

Helene Kretzmer

 

Thema: AI for Health

DozentIn(en): Prof. Roland EilsJulius Upmeier zu Belzen, Benjamin WildSören Lukassen

Maximale Teilnehmerzahl: 10

Zeitraum/Vorbesprechungstermin: nach Absprache

In this software project, you will learn about the fundamentals of applying machine learning to problems in the healthcare domain. We will provide access to public datasets and an environment for development (including ECG, Microscopy, and X-Ray datasets). Furthermore, we are open to discuss specific interests or ideas you might have in our initial meeting, and define the project accordingly. In any case, we will develop a pipeline from dataset access, preprocessing, baseline models, ML models and evaluation, as well as planning of future applications and extensions.

We are flexible with regards to the project timeline. If you have any further questions, please feel free to email us:
benjamin.wild@bih-charite.de, julius.upmeier@bih-charite.de, soeren.lukassen@bih-charite.de 

Ort: Digital (A), BIH, Kapelle-Ufer 2 (B)

Kurze inhaltliche Beschreibung:

Project: Machine Learning in Medicine: from idea to tool

  • Learn the fundamentals of developing, training and testing deep learning models in the medical domain
  • Learn about relevant metrics for evaluation and benchmarking and potential biases to watch out for
  • Optional: Work on integrating the developed and evaluated models into usable (web) tool

Quantitative Aufteilung: (in %)

Praktische Programmierarbeit: 75%
Soft Skills: 25%

Verwendete Programmiersprache(n): Python (>90%), maybe some javascript for web app

Schwierigkeitsgrad (Acht Sterne verteilt auf drei Bereiche):

A Programmieren ****
B Biologie/Chemie * 
C Projektmanagement ***

Erforderliche Vorkenntnisse:

  • Experience with the Python programming language
  • Fundamental understanding of “What is machine learning"
  • Preferably prior experience with PyTorch or other DL-Libraries
  • Understanding of neural networks and preferably experience with deep learning

Kontaktadresse, Webseite/Link:

Benjamin Wild

Julius Upmeier zu Belzen

Sören Lukassen

https://www.hidih.org/research/ailslab  

Titel: Bioinformatische Aufklärung monogener Krankheiten

Themen:

1. Integrierte Analyse und Erweiterung von Splice-Analyse-Tools
2. Entwicklung eines ACME-Clients in C/C++ oder Bash

Hinweis: Es sind nur Vollzeitpraktika möglich.

DozentIn(en): Dominik Seelow, Robin Steinhaus, Oliver Küchler

Maximale Teilnehmerzahl: 5

Informationstermin (online):

Donnerstag, 18.01.2024, 17:00 Uhr unter: https://join.skype.com/KT7ZLFoyvLHb

Ort: Charité/BIH - Bioinformatics & Translational Genetics, Invalidenstr. 97

Themen und weitere Infos:

https://www.genecascade.org/lehre/SWP_2024.html


DozentIn(en): Baum, Iversen, Hiort

Maximale Teilnehmerzahl: 10

Zeitraum/Vorbesprechungstermin:

Ort:

Kurze inhaltliche Beschreibung:

xxx

Quantitative Aufteilung: (in %)

Praktische Programmierarbeit:
Soft Skills:

Verwendete Programmiersprache(n):

Schwierigkeitsgrad (Acht Sterne verteilt auf drei Bereiche):

A Programmieren
B Biologie/Chemie
C Projektmanagement

Erforderliche Vorkenntnisse:

Kontaktadresse, Webseite/Link:

Allgemeine Infos zum Softwarepraktikum (Projektmanagement im Softwarebereich)

eVV