Springe direkt zu Inhalt

Softwarepraktikum Bioinformatik: Projekte 2020

DozentIn(en): Ch. Bielow

Maximale Teilnehmerzahl: 6

Zeitraum/Vorbesprechungstermin:

Ort: Institut für Informatik

Kurze inhaltliche Beschreibung:

In diesem Praktikum werden Algorithmen zur Analyse von Massenspektrometrie Daten implementiert, und zwar im Rahmen der Software-Bibliothek OpenMS, die zur Zeit in unserer Arbeitsgruppe entwickelt wird. Mithilfe der zu implementierenden Module werden komplexe Analyse-Pipelines für Proteom/Metabolom Daten in KNIME realisiert.

Quantitative Aufteilung (in %):

Praktische Programmierarbeit: 60%
Soft Skills: 40%

Verwendete Programmiersprache(n): C++

Schwierigkeitsgrad (Acht Sterne verteilt auf drei Bereiche):

A Programmieren: 4*
B Biologie/Chemie: 1*
C Projektmanagement: 3*

Erforderliche Vorkenntnisse: gute Kenntnisse in C/C++

Kontaktadresse, Webseite/Link:

https://www.bsc.fu-berlin.de/TeachingAndWorkshops/SoSe20/Software_Praktikum_OpenMS/index.html

Präsentation:

s. Link oben


DozentIn(en): Sandro Andreotti

Maximale Teilnehmerzahl: 8

Zeitraum/Vorbesprechungstermin:

Ort:

Kurze inhaltliche Beschreibung:

In diesem Praktikum werden Workflows für die Analyse von Next Generation Sequencing (NGS) Daten konzeptioniert und implementiert. Die Teilnehmer werden komplexe professionelle Datenanalysepipelines für aktuelle Forschungsprojekte in unserer Gruppe entwickeln. Dabei werden sie verschiedene Workflowsysteme (z.B. KNIME, Snakemake) kennenlernen und verwenden. Die Teilnehmer werden anhand aktueller Literatur ihre Workflows eigenständig erarbeiten, testen und verfeinern. Neben der Workflow-Programmierung erlangen die Teilnehmer ein umfangreiches Wissen über existierende Bioinformatik-Software im Bereich NGS.

Quantitative Aufteilung: (in %)

Praktische Programmierarbeit: 50%
Soft Skills: 50%

Verwendete Programmiersprache(n):

R, Python oder andere Skriptsprache

Schwierigkeitsgrad (Acht Sterne verteilt auf drei Bereiche):

A Programmieren ****
B Biologie/Chemie *
C Projektmanagement ***

Erforderliche Vorkenntnisse: R

Kontaktadresse, Webseite/Link:

https://www.bsc.fu-berlin.de/TeachingAndWorkshops/SoSe20/Software_Praktikum_Workflows/index.html

Präsentation: https://www.bsc.fu-berlin.de/TeachingAndWorkshops/SoSe20/Software_Praktikum_Workflows/Vorstellung_Workflows.pdf

Sandro Andreotti

Titel: Integrative analysis of next generation sequencing (NGS) data

Dozenten: Alena van Bömmel, Robert Schöpflin

Maximale Teilnehmerzahl: 9

Zeitraum/Vorbesprechungstermin: 05.03.-30.04.2020

Ort: Max Planck Institute for Molecular Genetics, Ihnestr. 63-73, PC-Pool

Kurze inhaltliche Beschreibung:

One of the research aims in bioinformatics and regulatory genomics is to understand the principles of transcriptional regulation. The main players of gene regulation are transcription factors (TFs), proteins binding to specific DNA sequences. Another important aspect is the accessibility of chromatin which modulates the binding of transcription factors and RNA Polymerase II to the DNA. There are several experimental techniques based on next generation sequencing which can determine the binding of regulatory proteins to DNA (ChIP-seq), which probe the DNA accessibility (ATAC-seq and DNase-seq) or which measure gene expression (RNA-seq). In our course, we want to investigate the main factors during the differentiation from mouse embryonic stem cells into fibroblasts. Especially, we are interested in understanding the interplay between these factors and their impact on gene expression. To do so, we will analyze ChIP-seq, ATAC-seq and RNA-seq data at different stages of cell differentiation to study TF binding and histone modifications across the genome with respect to the expression of the neighbouring genes. Afterwards, we will develop a statistical method to combine these data sets in an appropriate way. In this course, we will use available tools as well as implement our own scripts to perform the analyses. Students will work in groups of 3 and present their work at the end of the seminar.

Quantitative Aufteilung:

Praktische Programmierarbeit:  60 %
Soft Skills: 40 %

Verwendete Programmiersprache(n): R, Python, Shell scripts

Schwierigkeitsgrad (Acht Sterne verteilt auf drei Bereiche):

Programmieren ****
Biologie/Chemie **
Projektmanagement **

Unbedingt erforderliche Vorkenntnisse: Statistische Grundlagen, Modul "Algorithmische Bioinformatik"

Kontaktadresse, Webseite:

alena.vanboemmel@molgen.mpg.de
schoepfl@molgen.mpg.de

Präsentation: https://drive.google.com/file/d/122kEcN8ZOtUWa88yrzfYdquuS7sToP7x/view?usp=sharing

Titel: Entwicklung einer Webapplikation zur Analyse von Genexpressionsprofilen

Dozenten: Marc Bonin, Pascal Schendel, PD Dr. med. Thomas Häupl

Maximale Teilnehmerzahl: 8

Zeitraum/Vorbesprechungstermin: 1. Märzwoche

Ort: Charité - Universitätsmedizin Berlin, AG Häupl / AG Bioinformatik, Virchowweg 11, 10117 Berlin

Kurze inhaltliche Beschreibung:

  • Einarbeitung in die theoretischen Grundlagen über DNA-Microarrays (Herstellung, Hybridisierung & Auswertung)
  • Einführung in das Software-Paket "R" zur Analyse von Microarraydaten (Affymetrix & Illumina)
  • Entwicklung / Optimierung eines "R"-Skripts zur automatischen Qualitätsanalyse von Microarraydaten (Chipinformationen, Scanbild, Histogramme, Intensitäten, Qualitätskontrolle, Normalisierung, ...)
  • Entwicklung einer Webapplikation zur Qualitätsanalyse von Microarraydaten (PHP, JavaScript)
  • Github, SVN (Eclipse) 

Quantitative Aufteilung:

Praktische Programmierarbeit:  60 %
Soft Skills: 40 %

Verwendete Programmiersprache(n): PHP, JavaScript, R

Schwierigkeitsgrad (Acht Sterne verteilt auf drei Bereiche):

Programmieren ****
Biologie/Chemie **
Projektmanagement **

Unbedingt erforderliche Vorkenntnisse: Kenntnisse in PHP, Java & R

Kontaktadresse, Webseite:

marc.bonin@charite.de

http://www.charite-bioinformatik.de

Präsentation: http://www.charite-bioinformatik.de/files/ppt/softwarepraktikum_2020.pdf

Themen (Titel):

-Personalizing therapy through pharmacokinetics and co-morbidity analysis
-Drug (Re)Discovery and Retargeting
-Big data approach to predict chemical toxicity

Lecturer: Preißner, Banerjee u.a.

Maximum number of participants: 12

Period/preliminary appointment:

Location:

Short description of content:

Quantitative allocation: (in %)

Practical programming work:
Soft Skills:

Programming languages used:

Difficulty level (Eight stars distributed over three areas):

A Programming:
B Biology/Chemistry:
C Project management:

Required previous knowledge e

Contact address, website/link:

Priyanka Banerjee

http://bioinformatics.charite.de/main/course_software.php



Untertitel: Genetic Algorithms in Design of Cell Classifiers

DozentIn(en): Melania Nowicka, Heike Siebert

Maximale Teilnehmerzahl: 6

Zeitraum/Vorbesprechungstermin:

Pre-meeting: between 17.02 and 21.02.2020
Introductory week: 12.03-17.03.2020
Dates for follow-up meetings to be discussed.

Ort: Institut für Mathematik, Arnimallee 6, 14195 Berlin

Kurze inhaltliche Beschreibung:

Cell classifiers are synthetic decision-making biological circuits that may be built in the wet lab and delivered to cells. Inside, they classify a cell state as healthy or cancerous and release a drug in the latter case. During the Praktikum we will design a population of cancer cell classifiers that may together distinguish whether a given sample should be diagnosed as positive (cancerous) or negative (healthy). To optimize such classifiers we will apply so-called genetic algorithms. Genetic algorithms (GAs) are population-based metaheuristics inspired by Darwin’s theory of evolution used for solving optimization and search problems. GAs mimic a process occurring in evolution called natural selection. Briefly, the process allows for evolving a population of individuals based on their different survival and reproduction abilities. GAs are applied to solve various problems in different fields of research, e.g., in synthetic biology to design synthetic circuits.

Schedule:

  1. Introduction to genetic algorithms and the problem of classifier design
  2. Design of a genetic algorithm
  3. Implementation
  4. Tests
  5. Presentation of results

Quantitative Aufteilung: (in %)

Praktische Programmierarbeit: 60 %
Soft Skills: 40 %

Verwendete Programmiersprache(n):

Ideally, the algorithm will be implemented in Python, but other programming languages can be considered.

Schwierigkeitsgrad (Acht Sterne verteilt auf drei Bereiche):

A Programmieren ****
B Biologie/Chemie **
C Projektmanagement **

Erforderliche Vorkenntnisse: Python basics would be helpful.

Kontaktadresse, Webseite/Link:

m.nowicka@fu-berlin.de

http://www.mi.fu-berlin.de/en/math/groups/dibimath/index.html

Präsentation:

https://www.dropbox.com/s/57kl2pv223gbxa0/Software%20Praktikum.pdf?dl=0

Title: Structural Alignment and Superposition

Lecturer: J. Rodríguez-Guerra, A. Volkamer

Maximum number of participants: 5

Period/preliminary appointment: 1. March - 30. April 2020  (preliminary meeting t.b.a.)

Location: Institute of Physiology, CCO, Charité Campus Mitte

Short description of content: In this internship, an open-source structural alignment Python package for biopolymers, i.e. proteins and ligands, will be developed and released. While diverse structural alignment implementations can be found in visualization software such as PyMol, VMD or UCSF Chimera, a standalone package is currently missing in the Python ecosystem. We will fill that gap with a modern Python package designed under the current best practices for development, testing and deployment. Ultimately, the tool could be integrated into a web-application for increased impact and reach.

Quantitative allocation (in %):

Practical programming work: 60%

Soft skills: 40%

Programming language(s) used: Python

Difficulty level (Eight stars distributed over three areas):

A Programming: 4*

B Biology/Chemistry: 2*

C Projekt management: 2*

Required previous knowledge: Python 3 und Git

Contact address, website / link:

·        http://volkamerlab.org/

·        https://github.com/volkamerlab/

Presentation: https://github.com/volkamerlab/structuralalignment/blob/master/20200131%20Structural%20Alignment.pdf

Language: English

Thema: AI for Health, 2 Projekte, s.u.

DozentIn(en): Prof. Roland Eils, Julius Upmeier zu Belzen, Thore Buergel

Maximale Teilnehmerzahl: 6, je 3 Teilnehmer*innen pro Projekt

Zeitraum/Vorbesprechungstermin: 01.03.2020 – 15.04.2020

Ort: Kapelle-Ufer 2, 10117 Berlin

Kurze inhaltliche Beschreibung:

Projekt A: Learning Patient representations for biomarker identification in Delir prevention

  • Apply and develop machine learning methods to obtain patient representations using multi-modal data sources
  • Apply the learned representations to identify patients at high risk of experiencing postoperative Delir
  • Statistically analyse RNA-Seq, Demographical, Clinical, Metabolomic and Genetic data

Projekt B: Deciphering Angiography – Learning Latent medical features using Autoencoders

  • Apply variational autoencoder (or similar) setups on angiography images based on existing literature
  • Develop data pre-processing and model optimization pipelines
  • Analysis of the latent spaces of the aforementioned variational autoencoder for generative purposes and medical insights (degree of artery obstruction, shape of arteries, flow, etc.)

Quantitative Aufteilung: (in %)

Praktische Programmierarbeit: 2/3
Soft Skills: 1/3

Verwendete Programmiersprache(n): Python, optional R

Schwierigkeitsgrad (Acht Sterne verteilt auf drei Bereiche):

A Programmieren ****
B Biologie/Chemie *
C Projektmanagement ***

Erforderliche Vorkenntnisse:

  • Experience with the Python programming language
  • Preferably understanding of neural networks and variational autoencoders specifically
  • Preferably prior experience with PyTorch or other DL-Libraries

Kontaktadresse, Webseite/Link:

bianca.hennig@charite.de

Präsentation:
https://charitede-my.sharepoint.com/:b:/g/personal/thore_buergel_charite_de/EdPJtOyzxnBOhJPNc1f_yS8BF7jj00yip1846qMGIWaUiQ?e=FoKacy

Zusätzlich zu den hier aufgelisteten Softwareprojekten gibt es die Möglichkeit, das Softwareprojekt Datenverwaltung aus der Informatik der Arbeitsgruppe Datenbanken und Informationssysteme zu wählen und sich anerkennen zu lassen. Bei Fragen wenden Sie sich an Nicolas Lehmann.

Bitte beachten: Die Anmeldung erfolgt nicht über das Formular, sondern direkt bei NIcolas Lehmann!

DozentIn(en): Nicolas Lehmann

Maximale Teilnehmerzahl: nicht festgelegt

Zeitraum/Vorbesprechungstermin:

Kurze inhaltliche Beschreibung:

Das Softwareprojekt Datenverwaltung findet in Kooperation mit der Klinik für kleine Haustiere der FU Berlin statt. Im Rahmen des Softwareprojektes wird ein Tool zur automatisierten Differentialdiagnostik entwickelt. Ziel ist es, gerade jungen Ärzten ein Werkzeug in Form einer App in die Hand zu geben, mit dem sie richtige Diagnosen stellen können. Das Tool wird mit Symptomen gefüttert und berechnet basierend auf gespeicherten Regelwerken wahrscheinliche und unwahrscheinliche Diagnoseergebnisse und bietet diese dem jungen Arzt an. Neben der App-Programmierung und einem Grundverständnis von Expertensystemen (Künstliche Intelligenz in der Medizin) lernen Studierende der Bioinformatik insbesondere sich in interdisziplinären Teams zurechtzufinden und zu agieren.

Quantitative Aufteilung: (in %)

Praktische Programmierarbeit:
Soft Skills:

Verwendete Programmiersprache(n):

Schwierigkeitsgrad (Acht Sterne verteilt auf drei Bereiche):

A Programmieren
B Biologie/Chemie
C Projektmanagement

Erforderliche Vorkenntnisse:

Kontaktadresse, Webseite/Link:

Thema: Bioinformatics Software Engineering

DozentIn(en): Dr. Manuel Holtgrewe

Maximale Teilnehmerzahl: 6

Zeitraum/Vorbesprechungstermin: als Diskussionsbasis

- Vorbesprechung                           (2h)                      Mitte Februar?
- Seminar Software Engineering   (3x5h+45h)          23.3. bis 27.3. (Nachbereitung KW13)
- Eigenständige Bearbeitung          (6x1h+234h)        30.3. bis 14.5.
- Präsentation, Abgabe Bericht      (2h+28h)              15.5.

Der genaue Zeitplan wird mit den Teilnehmer*innen abgestimmt. Während der Bearbeitungszeit finden jede Woche Statustreffen statt.

Ort: Charité Mitte, CUBI, Virchowweg 20, 2.OG/Ebener 3, Raum 03/004

Kurze inhaltliche Beschreibung:

Bei der Translation von bioinformatischer Forschung in die Praxis ist ein wichtiger Schritt die bioinformatischen Lösungen produktionsreif zu machen (stabil, reproduzierbar, Anforderungsgerecht, von der Zielgruppe gut benutzbar).

In diesem Praktikum entwickeln die Teilnehmer*innen (Teil-)systeme zur automatischen und interaktiven Datenverarbeitung, die in ähnlicher Form auch bei der praktischen Arbeit der Core Unit Bioinformatik in der Charité eingesetzt werden. Dabei erarbeiten Sie sich Kenntnisse in Anforderungsanalyse, Projektorganisation und moderne Architekturkomponenten wie REST APIs, Docker Container, sowie SQL Datenbanken. Sie lernen moderne Entwicklungswerkzeuge wie automatisierte Tests, Versionskontrolle mit Git/GitHub, und statische Codeanalyse kennen und setzen agile Entwicklungsprozesse sowie ein verbreitetes Dokumentationssystem ein.

Konkrete Themenvorschläge:

1. Vernetzung genetischer Datenbanken mittels GA4GH Beacons.
Bei der Diagnostik seltener genetischer Krankheiten sind in den letzten Jahren große Datenmengen von genetischer Variantendaten angefallen und stecken meist isoliert in "Datensilos". Das GA4GH (global alliance for genomes and health) Beacon Projekt zielt darauf diese Silos kontrolliert aufzubrechen und es Organisationen, genetische Daten zu teilen.
Der Nutzen vom Teilen der Daten ist, dass Varianten mit unklarer klinischer Signifikanz ("VUS3") im Kontext großer Datenmengen besser bewerten zu können. Tritt die gleiche Variante an anderen Standorten öfters oder mit einem ganz anderen Krankheitsbild auf, sinkt die Wahrscheinlichkeit dass sie krankheitsverursachend ist. Tritt sie im Gegensatz dazu an einem anderen Standort mit dem gleichen Phänotyp auf, so steigt die Wahrscheinlichkeit dafür, dass sie Grund für eine genetische Erkrankung ist.
Ziel dieses Praktikumsprojektes ist die Planung und Umsetzung eines einfachen verteilten Datenbanksystems und die Vernetzung mit Hilfe des Beacon Protokolls. Dabei muss besonderer Wert auf die Umsetzung von Datenschutmaßnamen gelegt werden.

2. Docker Container Scheduling.
Für das Ausliefern von Daten werden immer öfter "Data Science Web Dashboards" mit Hilfe von Docker containern verwendet. Bei CUBI ist eine Plattform ("Kiosc") als Prototyp entstanden, die es einfach erlaubt solche Web Applikationen in Docker containern zu starten und diese auch mit Zugriffsmanagement versieht.
In diesem Praktikumsprojekt geht es darum den bestehenden Prototyp durch Funktionen für besseres Resourcemanagement zu erweitern und zu stabilisieren. Die Herausforderung dabei ist die Einarbeitung in ein bestehendes Softwaresystem und dessen Erweiterung und Verbesserung, was auch der Normallfall im Berufsalltag darstellt.

Quantitative Aufteilung: (in %)

Praktische Programmierarbeit: 50-70 %
Soft Skills: 30-50%

Verwendete Programmiersprache(n): Python

Schwierigkeitsgrad (Acht Sterne verteilt auf drei Bereiche):

A Programmieren ****
B Biologie/Chemie *
C Projektmanagement ***

Erforderliche Vorkenntnisse:

Pythonkenntnisse, Objektorientierte Programmierung, gute Kenntnisse in mindestens einer Programmiersprache (Python oder andere)

Kontaktadresse, Webseite/Link:

manuel.holtgrewe@bihealth.de

Homepage von CUBI – Core Unit Bioinformatik: https://www.cubi.bihealth.org


Titel: Bioinformatische Aufklärung monogener Krankheiten

DozentIn(en): Prof. Dominik Seelow

Maximale Teilnehmerzahl: 8

Zeitraum/Vorbesprechungstermin: 30.03. - 22.05.2020

Ort: Charité Mitte, Campusklinik CCK, Raum 03.051

Kurze inhaltliche Beschreibung:

Im Rahmen dieses Softwarepraktikums soll die Benutzung bestehender Programme und Datenbanken, die zur bioinformatischen Aufklärung monogener Krankheiten verwendet werden, trainiert werden. Darüber hinaus sollen unsere eigenen (in der Regel web-basierten) Tools verbessert/erweitert und/oder neue Applikationen entworfen werden.
Die biologischen Themen umfassen:

  • Hochdurchsatzsequenzierung: Alignment und variant calling
  • Datenbanken: Genome, Gene, Transkripte, Proteine, DNA-Varianten
  • Vorhersage der Auswirkungen von DNA-Varianten auf Proteine
  • exakte digitale Phänotypisierung von Patient(inn)en
  • Splicing
  • Suche nach Transkriptionsfaktorbindestellen und Promotor-Elementen

Informatische Lernziele sind:

  • Datenbanken / Datenintegration (SQL)
  • benutzerfreundliche Schnittstellen
  • Web-Applikationen (HTML, CSS, JavaScript, Perl CGI)

Quantitative Aufteilung: (in %)

Praktische Programmierarbeit: 80%
Soft Skills: 20%

Verwendete Programmiersprache(n): Perl, Python, C++

Schwierigkeitsgrad (Acht Sterne verteilt auf drei Bereiche):

A Programmieren ***
B Biologie/Chemie ****
C Projektmanagement *

Erforderliche Vorkenntnisse:

Grundkenntnisse in Genetik und in mindestens einer der o.g. Programmiersprachen

Kontaktadresse, Webseite/Link:

dominik.seelow@charite.de

Übersicht der von uns entwickelten Programme: http://mitonet.charite.de/

Präsentation: http://mutationtaster.charite.de/downloads/BioinfAufklaerungMonogenerKrankheiten_FU_Bioinf_20200131.pdf

Allgemeine Infos zum Softwarepraktikum (Projektmanagement im Softwarebereich)

eVV SoSe 20