Springe direkt zu Inhalt

Softwarepraktikum Bioinformatik: Projekte 2021

DozentIn(en): Ch. Bielow

Maximale Teilnehmerzahl: 6

Zeitraum/Vorbesprechungstermin: s. Link unten

Projektvorstellung: Fr. 22. Januar 2021, 10:15 Uhr via Webex:
https://fu-berlin.webex.com/fu-berlin-en/j.php?MTID=m7b164a88d038f8375f54618661b52c9f

Ort: Institut für Informatik

Kurze inhaltliche Beschreibung:

In diesem Praktikum werden wir am Beispiel unserer open-source Bibliothek OpenMS (www.openms.de) realitaetsnah ein C++ Programmierprojekt bearbeiten und dabei Algorithmen, Datenstrukturen und evtl. grafische Benutzerinterfaces reimplementieren oder neu entwicklen.

Dabei werden wir Tools zur Entwicklung, Debugging, Performance-Profiling, Source-Code Management im Team und Continuous-Integration kennen lernen.

OpenMS ist eine der meistverwendeten Softwarebibliotheken zur Analyse von Massenspektrometriedaten und besitzt eine sehr umfaengliche Sammlung an schnellen und effizienten Algorithmen. OpenMS wird staendig weiterentwicklet und auch kommerziell genutzt.

Quantitative Aufteilung (in %):

Praktische Programmierarbeit: 60%
Soft Skills: 40%

Verwendete Programmiersprache(n): C++

Schwierigkeitsgrad (Acht Sterne verteilt auf drei Bereiche):

A Programmieren: 4*
B Biologie/Chemie: 1*
C Projektmanagement: 3*

Erforderliche Vorkenntnisse: gute Kenntnisse in C++

Kontaktadresse, Webseite/Link:

https://www.bsc.fu-berlin.de/TeachingAndWorkshops/SoSe21/Software_Praktikum_OpenMS/index.html

Präsentation:

s. Link oben


DozentIn(en): Sandro Andreotti

Maximale Teilnehmerzahl: 8

Zeitraum/Vorbesprechungstermin: Nach Absprache, Anfang/Mitte März 21

Projektvorstellung: Fr. 22. Januar 2021, 10:30 Uhr via Webex:
https://fu-berlin.webex.com/fu-berlin-en/j.php?MTID=m7b164a88d038f8375f54618661b52c9f

Ort: tba

Kurze inhaltliche Beschreibung:

In diesem Praktikum werden Workflows für die Analyse von Next Generation Sequencing (NGS) Daten konzeptioniert und implementiert. Die Teilnehmer werden komplexe professionelle Datenanalysepipelines für aktuelle Forschungsprojekte in unserer Gruppe entwickeln. Dabei werden sie verschiedene Workflowsysteme (z.B. KNIME, Snakemake) kennenlernen und verwenden. Die Teilnehmer werden anhand aktueller Literatur ihre Workflows eigenständig erarbeiten, testen und verfeinern. Neben der Workflow-Programmierung erlangen die Teilnehmer ein umfangreiches Wissen über existierende Bioinformatik-Software im Bereich NGS.

Quantitative Aufteilung: (in %)

Praktische Programmierarbeit: 50%
Soft Skills: 50%

Verwendete Programmiersprache(n):

R, Python oder andere Skriptsprache

Schwierigkeitsgrad (Acht Sterne verteilt auf drei Bereiche):

A Programmieren ****
B Biologie/Chemie *
C Projektmanagement ***

Erforderliche Vorkenntnisse: R, Python

Kontaktadresse, Webseite/Link:

https://www.bsc.fu-berlin.de/TeachingAndWorkshops/SoSe21/Software_Praktikum_Workflows/index.html

Sandro Andreotti

Titel: Integrative analysis of next generation sequencing (NGS) data

Dozenten: Robert Schöpflin, Tobias Zehnder

Maximale Teilnehmerzahl: 9

Zeitraum/Vorbesprechungstermin: 03.03.-30.04.2021

Ort: Max Planck Institute for Molecular Genetics, Ihnestr. 63-73, PC-Pool

Kurze inhaltliche Beschreibung:

In this software project we will focus on gene regulation, which facilitates the development of the various cell types in the body, such as neurons, liver cells or muscle cells. All these cells have different properties and functions, though they contain the same genetic information. The various aspects of gene regulation are important for developmental biology as well as for the understanding of diseases.

On a transcriptional level, the main players of gene regulation are transcription factors (TFs), proteins binding to specific DNA sequences. Another important aspect is the accessibility of chromatin which modulates the binding of transcription factors and RNA polymerase II to the DNA. Additionally, epigenetic modifications of the DNA and histones play an important role. The advent of high-throughput experiments based on next-generation sequencing allows nowadays to probe TF binding and epigenetic histone modifications (ChIP-seq), DNA accessibility (ATAC-seq) and gene expression (RNA-seq) on a genome-wide level.

In our course, we want to investigate the main factors during the differentiation from mouse embryonic stem cells into fibroblasts. We are especially interested in understanding the interplay between these factors and their impact on gene expression. For this aim, we will analyze ChIP-seq, ATAC-seq and RNA-seq data at different stages of cell differentiation to study TF binding and histone modifications across the genome with respect to the expression of the neighboring genes. Afterwards, we will develop and apply statistical methods to combine these data sets in an appropriate way. In this course, we will implement our own scripts and also use available tools to perform the analyses and visualize data. Students will work in groups of 3 and present their work at the end of the seminar.

Quantitative Aufteilung:

Praktische Programmierarbeit:  60 %
Soft Skills: 40 %

Verwendete Programmiersprache(n): R, Python, Shell scripts

Schwierigkeitsgrad (Acht Sterne verteilt auf drei Bereiche):

Programmieren ****
Biologie/Chemie **
Projektmanagement **

Unbedingt erforderliche Vorkenntnisse: Statistische Grundlagen, Modul "Algorithmische Bioinformatik"

Kontaktadresse, Webseite:

zehnder@molgen.mpg.de
schoepfl@molgen.mpg.de

Präsentation: https://drive.google.com/file/d/122kEcN8ZOtUWa88yrzfYdquuS7sToP7x/view?usp=sharing

Themen (Titel):

-Personalizing therapy through pharmacokinetics and co-morbidity analysis
-Drug (Re)Discovery and Retargeting
-Big data approach to predict chemical toxicity

Lecturer: Preißner, Banerjee u.a.

Maximum number of participants: 12

Period/preliminary appointment:

Location:

Short description of content:

Quantitative allocation: (in %)

Practical programming work:
Soft Skills:

Programming languages used:

Difficulty level (Eight stars distributed over three areas):

A Programming:
B Biology/Chemistry:
C Project management:

Required previous knowledge e

Contact address, website/link:

Priyanka Banerjee

http://bioinformatics.charite.de/main/course_software.php



Title: Structural Alignment and Superposition

Lecturer: J. Rodríguez-Guerra, tba, A. Volkamer

Maximum number of participants: 4

Period/preliminary appointment: tba, (likely March 2021)

Location: virtual (Institut für Physiologie, CCO, Charité Campus Mitte)

Short description of content:

In this internship, an open-source structural alignment Python package for biopolymers, i.e. proteins and ligands, that we started implementing in 2020 will be further developed and released. While diverse structural alignment implementations can be found in visualization software such as PyMol, VMD or UCSF Chimera, a standalone package is currently missing in the Python ecosystem. We have started filling that gap with a modern Python package designed under the current best practices for development, testing and deployment. 

The main focus of this year’s course will be on finalizing the package. This will include, getting familiar with the current code base, working on alignment-specific issues such as automatic structural renumbering as well as benchmarking the tool.

Quantitative allocation (in %):

Practical programming work: 60%

Soft skills: 40%

Programming language(s) used: Python

Difficulty level (Eight stars distributed over three areas):

A Programming: 4*

B Biology/Chemistry: 2*

C Projekt management: 2*

Required previous knowledge: Python 3 und Git

Contact address, website / link:

·        http://volkamerlab.org/

·        https://github.com/volkamerlab/

Presentation: https://volkamerlab.org/2021/01/structural-alignment-2021/

Language: English

Thema: AI for Health, 2 Projekte, s.u.

DozentIn(en): Prof. Roland Eils, Julius Upmeier zu Belzen, Thore Buergel

Maximale Teilnehmerzahl: 6, je 3 Teilnehmer*innen pro Projekt

Zeitraum/Vorbesprechungstermin: nach Absprache

Ort: Digital (A), BIH, Kapelle-Ufer 2 (B)

Kurze inhaltliche Beschreibung:

Projekt A: Supervised machine learning on single cell data

  • Identification of the best suitable datasets and preparation for performant access, enabling training of neural networks
  • Preparation of associated labels for supervised learning
  • Development of augmentation strategies for the resulting data
  • Training of existing models, and adaptation of the existing architecture

Projekt B: Unsupervised Representation Learning of Medical Data

  • Train models for unsupervised representation learning on medical images, such as Chest X-Rays, Angiographies, Heart-MRIs and Retinal Fundus Images
  • Apply and benchmark different techniques for unsupervised representation learning, such as BYOL (Bootstrap your own latent) and CPC-2 (Contrastive predictive coding)
  • Investigate pretrained image representations for their medical information content by predicting phenotypes and diagnoses from the learned features

Quantitative Aufteilung: (in %)

Praktische Programmierarbeit: 75%
Soft Skills: 25%

Verwendete Programmiersprache(n): Python, optional R

Schwierigkeitsgrad (Acht Sterne verteilt auf drei Bereiche):

A Programmieren ****
B Biologie/Chemie *
C Projektmanagement ***

Erforderliche Vorkenntnisse:

  • Experience with the Python programming language (A + B)
  • Preferably prior experience with PyTorch or other DL-Libraries (A + B)
  • Preferably understanding of neural networks or single cell data (A)
  • Understanding of neural networks and preferably experience with deep learning (B)

Kontaktadresse, Webseite/Link:

bianca.hennig@charite.de
https://www.hidih.org/research/ailslab 

Thema: Bioinformatics Software Engineering

DozentIn(en): Dr. Manuel Holtgrewe

Maximale Teilnehmerzahl: 6

Zeitraum/Vorbesprechungstermin: als Diskussionsbasis

- Vorbesprechung                           (2h)                      Mitte Februar?
- Seminar Software Engineering   (3x5h+45h)          23.3. bis 27.3. (Nachbereitung KW13)
- Eigenständige Bearbeitung          (6x1h+234h)        30.3. bis 14.5.
- Präsentation, Abgabe Bericht      (2h+28h)              15.5.

Der genaue Zeitplan wird mit den Teilnehmer*innen abgestimmt. Während der Bearbeitungszeit finden jede Woche Statustreffen statt.

Ort: Charité Mitte, CUBI, Virchowweg 20, 2.OG/Ebener 3, Raum 03/004

Kurze inhaltliche Beschreibung:

Bei der Translation von bioinformatischer Forschung in die Praxis ist ein wichtiger Schritt die bioinformatischen Lösungen produktionsreif zu machen (stabil, reproduzierbar, Anforderungsgerecht, von der Zielgruppe gut benutzbar).

In diesem Praktikum entwickeln die Teilnehmer*innen (Teil-)systeme zur automatischen und interaktiven Datenverarbeitung, die in ähnlicher Form auch bei der praktischen Arbeit der Core Unit Bioinformatik in der Charité eingesetzt werden. Dabei erarbeiten Sie sich Kenntnisse in Anforderungsanalyse, Projektorganisation und moderne Architekturkomponenten wie REST APIs, Docker Container, sowie SQL Datenbanken. Sie lernen moderne Entwicklungswerkzeuge wie automatisierte Tests, Versionskontrolle mit Git/GitHub, und statische Codeanalyse kennen und setzen agile Entwicklungsprozesse sowie ein verbreitetes Dokumentationssystem ein.

Konkrete Themenvorschläge:

1. Vernetzung genetischer Datenbanken mittels GA4GH Beacons.
Bei der Diagnostik seltener genetischer Krankheiten sind in den letzten Jahren große Datenmengen von genetischer Variantendaten angefallen und stecken meist isoliert in "Datensilos". Das GA4GH (global alliance for genomes and health) Beacon Projekt zielt darauf diese Silos kontrolliert aufzubrechen und es Organisationen, genetische Daten zu teilen.
Der Nutzen vom Teilen der Daten ist, dass Varianten mit unklarer klinischer Signifikanz ("VUS3") im Kontext großer Datenmengen besser bewerten zu können. Tritt die gleiche Variante an anderen Standorten öfters oder mit einem ganz anderen Krankheitsbild auf, sinkt die Wahrscheinlichkeit dass sie krankheitsverursachend ist. Tritt sie im Gegensatz dazu an einem anderen Standort mit dem gleichen Phänotyp auf, so steigt die Wahrscheinlichkeit dafür, dass sie Grund für eine genetische Erkrankung ist.
Ziel dieses Praktikumsprojektes ist die Planung und Umsetzung eines einfachen verteilten Datenbanksystems und die Vernetzung mit Hilfe des Beacon Protokolls. Dabei muss besonderer Wert auf die Umsetzung von Datenschutmaßnamen gelegt werden.

2. Docker Container Scheduling.
Für das Ausliefern von Daten werden immer öfter "Data Science Web Dashboards" mit Hilfe von Docker containern verwendet. Bei CUBI ist eine Plattform ("Kiosc") als Prototyp entstanden, die es einfach erlaubt solche Web Applikationen in Docker containern zu starten und diese auch mit Zugriffsmanagement versieht.
In diesem Praktikumsprojekt geht es darum den bestehenden Prototyp durch Funktionen für besseres Resourcemanagement zu erweitern und zu stabilisieren. Die Herausforderung dabei ist die Einarbeitung in ein bestehendes Softwaresystem und dessen Erweiterung und Verbesserung, was auch der Normallfall im Berufsalltag darstellt.

Quantitative Aufteilung: (in %)

Praktische Programmierarbeit: 50-70 %
Soft Skills: 30-50%

Verwendete Programmiersprache(n): Python

Schwierigkeitsgrad (Acht Sterne verteilt auf drei Bereiche):

A Programmieren ****
B Biologie/Chemie *
C Projektmanagement ***

Erforderliche Vorkenntnisse:

Pythonkenntnisse, Objektorientierte Programmierung, gute Kenntnisse in mindestens einer Programmiersprache (Python oder andere)

Kontaktadresse, Webseite/Link:

manuel.holtgrewe@bihealth.de

Homepage von CUBI – Core Unit Bioinformatik: https://www.cubi.bihealth.org


Titel: Bioinformatische Aufklärung monogener Krankheiten

DozentIn(en): Dominik Seelow, Robin Steinhaus, Sebastian Proft

Maximale Teilnehmerzahl: 3 * 3

Zeitraum: 19.04. - 11.06.2021

Vorstellung der Projekte: 22.01.2021 um 16:00 Uhr via Skype:
https://join.skype.com/iR56M2Xema93

Ort: Charité/BIH - Bioinformatics & Translational Genetics, Invalidenstr. 97

Themen und weitere Infos:

a) Suche nach Krankheitsmutationen in multi-sample VCF-Dateien (Seelow)

b) Development of a web interface for deep phenotyping of rare genetic diseases (Steinhaus)

c) Recurrent Convolutional Neural Network in Genetics (Proft)


Zusätzlich zu den hier aufgelisteten Softwareprojekten gibt es die Möglichkeit, das Softwareprojekt Datenverwaltung aus der Informatik der Arbeitsgruppe Datenbanken und Informationssysteme zu wählen und sich anerkennen zu lassen. Bei Fragen wenden Sie sich an Nicolas Lehmann.

Bitte beachten: Bitte geben Sie trotzdem Ihre Präferenzen in Whiteboard an. Wenn dieses Praktikum (I) Ihre erste Wahl ist, können Sie davon ausgehen, hier einen Platz zu erhalten.

DozentIn(en): Nicolas Lehmann

Maximale Teilnehmerzahl: nicht festgelegt

Zeitraum/Vorbesprechungstermin: Beginn: 15.02.2021

Kurze inhaltliche Beschreibung:

weitere Infos: https://www.mi.fu-berlin.de/inf/groups/ag-db/projects/mhealth_atlas/index.html

Quantitative Aufteilung: (in %)

Praktische Programmierarbeit:
Soft Skills:

Verwendete Programmiersprache(n):

Schwierigkeitsgrad (Acht Sterne verteilt auf drei Bereiche):

A Programmieren
B Biologie/Chemie
C Projektmanagement

Erforderliche Vorkenntnisse:

Kontaktadresse, Webseite/Link:

Allgemeine Infos zum Softwarepraktikum (Projektmanagement im Softwarebereich)

eVV