Softwarepraktikum Bioinformatik: Projekte 2021
DozentIn(en): Ch. Bielow
Maximale Teilnehmerzahl: 6
Zeitraum/Vorbesprechungstermin: s. Link unten
https://fu-berlin.webex.com/fu-berlin-en/j.php?MTID=m7b164a88d038f8375f54618661b52c9f
Ort: Institut für Informatik
Kurze inhaltliche Beschreibung:
In diesem Praktikum werden wir am Beispiel unserer open-source Bibliothek OpenMS (www.openms.de) realitaetsnah ein C++ Programmierprojekt bearbeiten und dabei Algorithmen, Datenstrukturen und evtl. grafische Benutzerinterfaces reimplementieren oder neu entwicklen.
Dabei werden wir Tools zur Entwicklung, Debugging, Performance-Profiling, Source-Code Management im Team und Continuous-Integration kennen lernen.
OpenMS ist eine der meistverwendeten Softwarebibliotheken zur Analyse von Massenspektrometriedaten und besitzt eine sehr umfaengliche Sammlung an schnellen und effizienten Algorithmen. OpenMS wird staendig weiterentwicklet und auch kommerziell genutzt.
Quantitative Aufteilung (in %):
Praktische Programmierarbeit: 60%
Soft Skills: 40%
Verwendete Programmiersprache(n): C++
Schwierigkeitsgrad (Acht Sterne verteilt auf drei Bereiche):
A Programmieren: 4*
B Biologie/Chemie: 1*
C Projektmanagement: 3*
Erforderliche Vorkenntnisse: gute Kenntnisse in C++
Kontaktadresse, Webseite/Link:
https://www.bsc.fu-berlin.de/TeachingAndWorkshops/SoSe21/Software_Praktikum_OpenMS/index.html
Präsentation:
s. Link oben
DozentIn(en): Sandro Andreotti
Maximale Teilnehmerzahl: 8
Zeitraum/Vorbesprechungstermin: Nach Absprache, Anfang/Mitte März 21
Projektvorstellung: Fr. 22. Januar 2021, 10:30 Uhr via Webex:https://fu-berlin.webex.com/fu-berlin-en/j.php?MTID=m7b164a88d038f8375f54618661b52c9f
Ort: tba
Kurze inhaltliche Beschreibung:
In diesem Praktikum werden Workflows für die Analyse von Next Generation Sequencing (NGS) Daten konzeptioniert und implementiert. Die Teilnehmer werden komplexe professionelle Datenanalysepipelines für aktuelle Forschungsprojekte in unserer Gruppe entwickeln. Dabei werden sie verschiedene Workflowsysteme (z.B. KNIME, Snakemake) kennenlernen und verwenden. Die Teilnehmer werden anhand aktueller Literatur ihre Workflows eigenständig erarbeiten, testen und verfeinern. Neben der Workflow-Programmierung erlangen die Teilnehmer ein umfangreiches Wissen über existierende Bioinformatik-Software im Bereich NGS.
Quantitative Aufteilung: (in %)
Praktische Programmierarbeit: 50%
Soft Skills: 50%
Verwendete Programmiersprache(n):
R, Python oder andere Skriptsprache
Schwierigkeitsgrad (Acht Sterne verteilt auf drei Bereiche):
A Programmieren ****
B Biologie/Chemie *
C Projektmanagement ***
Erforderliche Vorkenntnisse: R, Python
Kontaktadresse, Webseite/Link:
https://www.bsc.fu-berlin.de/TeachingAndWorkshops/SoSe21/Software_Praktikum_Workflows/index.html
Titel: Integrative analysis of next generation sequencing (NGS) data
Dozenten: Robert Schöpflin, Tobias Zehnder
Maximale Teilnehmerzahl: 9
Zeitraum/Vorbesprechungstermin: 03.03.-30.04.2021
Ort: Max Planck Institute for Molecular Genetics, Ihnestr. 63-73, PC-Pool
Kurze inhaltliche Beschreibung:
In this software project we will focus on gene regulation, which facilitates the development of the various cell types in the body, such as neurons, liver cells or muscle cells. All these cells have different properties and functions, though they contain the same genetic information. The various aspects of gene regulation are important for developmental biology as well as for the understanding of diseases.
On a transcriptional level, the main players of gene regulation are transcription factors (TFs), proteins binding to specific DNA sequences. Another important aspect is the accessibility of chromatin which modulates the binding of transcription factors and RNA polymerase II to the DNA. Additionally, epigenetic modifications of the DNA and histones play an important role. The advent of high-throughput experiments based on next-generation sequencing allows nowadays to probe TF binding and epigenetic histone modifications (ChIP-seq), DNA accessibility (ATAC-seq) and gene expression (RNA-seq) on a genome-wide level.
In our course, we want to investigate the main factors during the differentiation from mouse embryonic stem cells into fibroblasts. We are especially interested in understanding the interplay between these factors and their impact on gene expression. For this aim, we will analyze ChIP-seq, ATAC-seq and RNA-seq data at different stages of cell differentiation to study TF binding and histone modifications across the genome with respect to the expression of the neighboring genes. Afterwards, we will develop and apply statistical methods to combine these data sets in an appropriate way. In this course, we will implement our own scripts and also use available tools to perform the analyses and visualize data. Students will work in groups of 3 and present their work at the end of the seminar.
Quantitative Aufteilung:
Praktische Programmierarbeit: 60 %
Soft Skills: 40 %
Verwendete Programmiersprache(n): R, Python, Shell scripts
Schwierigkeitsgrad (Acht Sterne verteilt auf drei Bereiche):
Programmieren ****
Biologie/Chemie **
Projektmanagement **
Unbedingt erforderliche Vorkenntnisse: Statistische Grundlagen, Modul "Algorithmische Bioinformatik"
Kontaktadresse, Webseite:
zehnder@molgen.mpg.de
schoepfl@molgen.mpg.de
Präsentation: https://drive.google.com/file/d/122kEcN8ZOtUWa88yrzfYdquuS7sToP7x/view?usp=sharing
Themen (Titel):
-Personalizing therapy through pharmacokinetics and co-morbidity analysis
-Drug (Re)Discovery and Retargeting
-Big data approach to predict chemical toxicity
Lecturer: Preißner, Banerjee u.a.
Maximum number of participants: 12
Period/preliminary appointment:
Location:
Short description of content:
Quantitative allocation: (in %)
Practical programming work:
Soft Skills:
Programming languages used:
Difficulty level (Eight stars distributed over three areas):
A Programming:
B Biology/Chemistry:
C Project management:
Required previous knowledge e
Contact address, website/link:
http://bioinformatics.charite.de/main/course_software.php
Title: Structural Alignment and Superposition
Lecturer: J. Rodríguez-Guerra, tba, A. Volkamer
Maximum number of participants: 4
Period/preliminary appointment: tba, (likely March 2021)
Location: virtual (Institut für Physiologie, CCO, Charité Campus Mitte)
Short description of content:
In this internship, an open-source structural alignment Python package for biopolymers, i.e. proteins and ligands, that we started implementing in 2020 will be further developed and released. While diverse structural alignment implementations can be found in visualization software such as PyMol, VMD or UCSF Chimera, a standalone package is currently missing in the Python ecosystem. We have started filling that gap with a modern Python package designed under the current best practices for development, testing and deployment.
The main focus of this year’s course will be on finalizing the package. This will include, getting familiar with the current code base, working on alignment-specific issues such as automatic structural renumbering as well as benchmarking the tool.
Quantitative allocation (in %):
Practical programming work: 60%
Soft skills: 40%
Programming language(s) used: Python
Difficulty level (Eight stars distributed over three areas):
A Programming: 4*
B Biology/Chemistry: 2*
C Projekt management: 2*
Required previous knowledge: Python 3 und Git
Contact address, website / link:
· https://github.com/volkamerlab/
Presentation: https://volkamerlab.org/2021/01/structural-alignment-2021/
Language: English
Thema: AI for Health, 2 Projekte, s.u.
DozentIn(en): Prof. Roland Eils, Julius Upmeier zu Belzen, Thore Buergel
Maximale Teilnehmerzahl: 6, je 3 Teilnehmer*innen pro Projekt
Zeitraum/Vorbesprechungstermin: nach Absprache
Ort: Digital (A), BIH, Kapelle-Ufer 2 (B)
Kurze inhaltliche Beschreibung:
Projekt A: Supervised machine learning on single cell data
- Identification of the best suitable datasets and preparation for performant access, enabling training of neural networks
- Preparation of associated labels for supervised learning
- Development of augmentation strategies for the resulting data
- Training of existing models, and adaptation of the existing architecture
Projekt B: Unsupervised Representation Learning of Medical Data
- Train models for unsupervised representation learning on medical images, such as Chest X-Rays, Angiographies, Heart-MRIs and Retinal Fundus Images
- Apply and benchmark different techniques for unsupervised representation learning, such as BYOL (Bootstrap your own latent) and CPC-2 (Contrastive predictive coding)
- Investigate pretrained image representations for their medical information content by predicting phenotypes and diagnoses from the learned features
Quantitative Aufteilung: (in %)
Praktische Programmierarbeit: 75%
Soft Skills: 25%
Verwendete Programmiersprache(n): Python, optional R
Schwierigkeitsgrad (Acht Sterne verteilt auf drei Bereiche):
A Programmieren ****
B Biologie/Chemie *
C Projektmanagement ***
Erforderliche Vorkenntnisse:
- Experience with the Python programming language (A + B)
- Preferably prior experience with PyTorch or other DL-Libraries (A + B)
- Preferably understanding of neural networks or single cell data (A)
- Understanding of neural networks and preferably experience with deep learning (B)
Kontaktadresse, Webseite/Link:
bianca.hennig@charite.de
https://www.hidih.org/research/ailslab
Thema: Bioinformatics Software Engineering
DozentIn(en): Dr. Manuel Holtgrewe
Maximale Teilnehmerzahl: 6
Zeitraum/Vorbesprechungstermin: als Diskussionsbasis
- Vorbesprechung (2h) Mitte Februar?
- Seminar Software Engineering (3x5h+45h) 23.3. bis 27.3. (Nachbereitung KW13)
- Eigenständige Bearbeitung (6x1h+234h) 30.3. bis 14.5.
- Präsentation, Abgabe Bericht (2h+28h) 15.5.
Der genaue Zeitplan wird mit den Teilnehmer*innen abgestimmt. Während der Bearbeitungszeit finden jede Woche Statustreffen statt.
Ort: Charité Mitte, CUBI, Virchowweg 20, 2.OG/Ebener 3, Raum 03/004
Kurze inhaltliche Beschreibung:
Bei der Translation von bioinformatischer Forschung in die Praxis ist ein wichtiger Schritt die bioinformatischen Lösungen produktionsreif zu machen (stabil, reproduzierbar, Anforderungsgerecht, von der Zielgruppe gut benutzbar).
In diesem Praktikum entwickeln die Teilnehmer*innen (Teil-)systeme zur automatischen und interaktiven Datenverarbeitung, die in ähnlicher Form auch bei der praktischen Arbeit der Core Unit Bioinformatik in der Charité eingesetzt werden. Dabei erarbeiten Sie sich Kenntnisse in Anforderungsanalyse, Projektorganisation und moderne Architekturkomponenten wie REST APIs, Docker Container, sowie SQL Datenbanken. Sie lernen moderne Entwicklungswerkzeuge wie automatisierte Tests, Versionskontrolle mit Git/GitHub, und statische Codeanalyse kennen und setzen agile Entwicklungsprozesse sowie ein verbreitetes Dokumentationssystem ein.
Konkrete Themenvorschläge:
1. Vernetzung genetischer Datenbanken mittels GA4GH Beacons.
Bei der Diagnostik seltener genetischer Krankheiten sind in den letzten Jahren große Datenmengen von genetischer Variantendaten angefallen und stecken meist isoliert in "Datensilos". Das GA4GH (global alliance for genomes and health) Beacon Projekt zielt darauf diese Silos kontrolliert aufzubrechen und es Organisationen, genetische Daten zu teilen.
Der Nutzen vom Teilen der Daten ist, dass Varianten mit unklarer klinischer Signifikanz ("VUS3") im Kontext großer Datenmengen besser bewerten zu können. Tritt die gleiche Variante an anderen Standorten öfters oder mit einem ganz anderen Krankheitsbild auf, sinkt die Wahrscheinlichkeit dass sie krankheitsverursachend ist. Tritt sie im Gegensatz dazu an einem anderen Standort mit dem gleichen Phänotyp auf, so steigt die Wahrscheinlichkeit dafür, dass sie Grund für eine genetische Erkrankung ist.
Ziel dieses Praktikumsprojektes ist die Planung und Umsetzung eines einfachen verteilten Datenbanksystems und die Vernetzung mit Hilfe des Beacon Protokolls. Dabei muss besonderer Wert auf die Umsetzung von Datenschutmaßnamen gelegt werden.
2. Docker Container Scheduling.
Für das Ausliefern von Daten werden immer öfter "Data Science Web Dashboards" mit Hilfe von Docker containern verwendet. Bei CUBI ist eine Plattform ("Kiosc") als Prototyp entstanden, die es einfach erlaubt solche Web Applikationen in Docker containern zu starten und diese auch mit Zugriffsmanagement versieht.
In diesem Praktikumsprojekt geht es darum den bestehenden Prototyp durch Funktionen für besseres Resourcemanagement zu erweitern und zu stabilisieren. Die Herausforderung dabei ist die Einarbeitung in ein bestehendes Softwaresystem und dessen Erweiterung und Verbesserung, was auch der Normallfall im Berufsalltag darstellt.
Quantitative Aufteilung: (in %)
Praktische Programmierarbeit: 50-70 %
Soft Skills: 30-50%
Verwendete Programmiersprache(n): Python
Schwierigkeitsgrad (Acht Sterne verteilt auf drei Bereiche):
A Programmieren ****
B Biologie/Chemie *
C Projektmanagement ***
Erforderliche Vorkenntnisse:
Pythonkenntnisse, Objektorientierte Programmierung, gute Kenntnisse in mindestens einer Programmiersprache (Python oder andere)
Kontaktadresse, Webseite/Link:
Homepage von CUBI – Core Unit Bioinformatik: https://www.cubi.bihealth.org
Titel: Bioinformatische Aufklärung monogener Krankheiten
DozentIn(en): Dominik Seelow, Robin Steinhaus, Sebastian Proft
Maximale Teilnehmerzahl: 3 * 3
Zeitraum: 19.04. - 11.06.2021
Vorstellung der Projekte: 22.01.2021 um 16:00 Uhr via Skype:https://join.skype.com/iR56M2Xema93
Ort: Charité/BIH - Bioinformatics & Translational Genetics, Invalidenstr. 97
Themen und weitere Infos:
a) Suche nach Krankheitsmutationen in multi-sample VCF-Dateien (Seelow)
b) Development of a web interface for deep phenotyping of rare genetic diseases (Steinhaus)
c) Recurrent Convolutional Neural Network in Genetics (Proft)
Zusätzlich zu den hier aufgelisteten Softwareprojekten gibt es die Möglichkeit, das Softwareprojekt Datenverwaltung aus der Informatik der Arbeitsgruppe Datenbanken und Informationssysteme zu wählen und sich anerkennen zu lassen. Bei Fragen wenden Sie sich an Nicolas Lehmann.
Bitte beachten: Bitte geben Sie trotzdem Ihre Präferenzen in Whiteboard an. Wenn dieses Praktikum (I) Ihre erste Wahl ist, können Sie davon ausgehen, hier einen Platz zu erhalten.DozentIn(en): Nicolas Lehmann
Maximale Teilnehmerzahl: nicht festgelegt
Zeitraum/Vorbesprechungstermin: Beginn: 15.02.2021
Kurze inhaltliche Beschreibung:
weitere Infos: https://www.mi.fu-berlin.de/inf/groups/ag-db/projects/mhealth_atlas/index.html
Quantitative Aufteilung: (in %)
Praktische Programmierarbeit:
Soft Skills:
Verwendete Programmiersprache(n):
Schwierigkeitsgrad (Acht Sterne verteilt auf drei Bereiche):
A Programmieren
B Biologie/Chemie
C Projektmanagement
Erforderliche Vorkenntnisse:
Kontaktadresse, Webseite/Link:
Allgemeine Infos zum Softwarepraktikum (Projektmanagement im Softwarebereich)