Springe direkt zu Inhalt

Softwarepraktikum Bioinformatik: Projekte 2022

Titel: Faster Bioinformatics with C++

DozentIn(en): Ch. Bielow

Maximale Teilnehmerzahl: 10

Zeitraum/Vorbesprechungstermin: tba

Vorstellung des Projekts: 24.01.2023 um 9:30 Uhr (Webexmeeting), zusammen mit "Workflows"
https://fu-berlin.webex.com/fu-berlin-en/j.php?MTID=m1b439b49b5aa502d221bc5251e82b730

Ort: Institut für Informatik

Kurze inhaltliche Beschreibung:

In diesem Praktikum werden wir am Beispiel unserer open-source Bibliothek OpenMS (www.openms.de) realitaetsnah ein C++ Programmierprojekt bearbeiten und dabei Algorithmen, Datenstrukturen und evtl. grafische Benutzerinterfaces reimplementieren oder neu entwicklen.

Dabei werden wir Tools zur Entwicklung, Debugging, Performance-Profiling, Source-Code Management im Team und Continuous-Integration kennen lernen.

OpenMS ist eine der meistverwendeten Softwarebibliotheken zur Analyse von Massenspektrometriedaten und besitzt eine sehr umfaengliche Sammlung an schnellen und effizienten Algorithmen. OpenMS wird staendig weiterentwicklet und auch kommerziell genutzt.

Quantitative Aufteilung (in %):

Praktische Programmierarbeit: 60%
Soft Skills: 40%

Verwendete Programmiersprache(n): C++

Schwierigkeitsgrad (Acht Sterne verteilt auf drei Bereiche):

A Programmieren: 4*
B Biologie/Chemie: 1*
C Projektmanagement: 3*

Erforderliche Vorkenntnisse: gute Kenntnisse in C++

Kontaktadresse, Webseite/Link:

https://www.bsc.fu-berlin.de/TeachingAndWorkshops/SoSe23/Software_Praktikum_OpenMS/index.html

Chris Bielow


Titel: Algorithmen zur Analyse von von genomischen Sequenz-Daten (SeqAn)

Dozent(en): K. Reinert

Maximale Teilnehmerzahl: 6

Zeitraum/Vorbesprechungstermin:

x.03. – x.03. Einführende Seminarwoche, ganztägig

x.03. – x.04. eigenständiges Arbeiten mit wöchentlichen Treffen bzw. nach Absprache
x.03. Vorstellung Arbeits/Projektplan
x.04. Abschlusspräsentation

In Ausnahmefällen kann nach Rücksprache mit der betreuenden Person der Arbeitszeitraum auch angepasst werden (bspw. gebuchter Urlaub in Semesterferien).

Ort: Institut für Informatik

Kurze inhaltliche Beschreibung:

Implementierung von Algorithmen für die Sequenzanalyse genomischer (Massen)daten & Erstellen kleinerer Analysepipelines mit Hilfe einer bestehenden C++-Bibliothek. Dabei sollen neben dem Programmieren auch Elemente des Software-Engineering eingeübt werden (Erstellen eines Zeitplanes, Benutzung von Programmierwerkzeugen, Erstellen von Tests,  Arbeiten im Team, etc.)

Quantitative Aufteilung:

Praktische Programmierarbeit: 60%
Soft Skills: 40%

Verwendete Programmiersprache(n): C++

Schwierigkeitsgrad (Acht Sterne verteilt auf drei Bereiche):

A Programmieren:  *****
B Biologie/Chemie:  *
C Projektmanagement:  **

Unbedingt erforderliche Vorkenntnisse: C++

Kontaktadresse, Webseite:

Präsentation (pdf)

DozentIn(en): Sandro Andreotti

Maximale Teilnehmerzahl: 8

Zeitraum/Vorbesprechungstermin: Nach Absprache

Vorstellung des Projekts: 24.01.2023 um 9:30 Uhr (Webexmeeting), zusammen mit OpenMS (Faster Bioinformatics...)
https://fu-berlin.webex.com/fu-berlin-en/j.php?MTID=m1b439b49b5aa502d221bc5251e82b730

Ort: tba

Kurze inhaltliche Beschreibung:

In diesem Praktikum werden Workflows für die Analyse von Next Generation Sequencing (NGS) Daten konzeptioniert und implementiert. Die Teilnehmer werden komplexe professionelle Datenanalysepipelines für aktuelle Forschungsprojekte in unserer Gruppe entwickeln. Dabei werden sie verschiedene Workflowsysteme (z.B. KNIME, Snakemake) kennenlernen und verwenden. Die Teilnehmer werden anhand aktueller Literatur ihre Workflows eigenständig erarbeiten, testen und verfeinern. Neben der Workflow-Programmierung erlangen die Teilnehmer ein umfangreiches Wissen über existierende Bioinformatik-Software im Bereich NGS.

Quantitative Aufteilung: (in %)

Praktische Programmierarbeit: 50%
Soft Skills: 50%

Verwendete Programmiersprache(n):

R, Python oder andere Skriptsprache

Schwierigkeitsgrad (Acht Sterne verteilt auf drei Bereiche):

A Programmieren ****
B Biologie/Chemie *
C Projektmanagement ***

Erforderliche Vorkenntnisse: R, Python

Kontaktadresse, Webseite/Link:
https://www.bsc.fu-berlin.de/TeachingAndWorkshops/SoSe23/Software_Praktikum_Workflows/index.html

Sandro Andreotti

Titel: Analysis of single-cell RNA sequencing data

Dozenten: Helene Kretzmer

Maximale Teilnehmerzahl: 9

Zeitraum/Vorbesprechungstermin: 01.03. - 24.04.2023

Am 11. Januar 2023 findet um 9 Uhr ein Infotermin statt.
https://us04web.zoom.us/j/6588496485?pwd=ZTZubUUweldLNW9EQjVMT1RCTFVrdz09

Meeting ID: 658 849 6485
Passcode: Yi40Fn

Ort: Max Planck Institute for Molecular Genetics, Ihnestr. 63-73, PC-Pool

Kurze inhaltliche Beschreibung:

Gene expression is the process by which a cell produces proteins from the genetic information of the DNA. While all cells in a body have (almost) identical DNA, the gene expression varies between cells and specifically also along differentiation. During embryonic development, a single cell, the oocyte, starts to divide and already after a few days, cells start to acquire cell identities that can be distinguished on transcriptomic level. One of the research aims is to understand this heterogeneity inside the emerging embryo and how which genes are relevant for proper development. Single-cell transcriptomics is a novel technique that allows the measurement of gene expression for individual cells. These measurements allow us to identify cell types or developmental trajectories which describe how cells of one type become another.
In our course, we will cover the whole bioinformatical pipeline for single-cell transcriptomics, including read processing, quality control, and gene-expression matrix construction and analysis. Additionally, we will use unpublished single-cell gene-perturbation data to evaluate the impact of a single gene on embryonic development.
For this, we will use state-of-the-art tools, such as Cell Ranger and Seurat (R-based), or scanpy (python-based). Experience in programming languages, such as shell scripts, R (or Python) is advantageous. For the advanced data analysis, the students will work with a wide range of data-analysis techniques, for example, modularity-based clustering algorithms, dimensionality-reduction techniques (PCA, t-SNE, and UMAP), differential expression identification, gene-ontology enrichment, and trajectory analysis. Students will work in groups of 3 throughout the course. The final report will be written in form of a brief scientific paper and finally all groups will give a short talk to present their results.

Quantitative Aufteilung:

Praktische Programmierarbeit:  ca. 60 %
Soft Skills: ca. 40 %

Verwendete Programmiersprache(n): präferiert R, alternativ python, bash/shell

Schwierigkeitsgrad (Acht Sterne verteilt auf drei Bereiche):

Programmieren ****
Biologie/Chemie **
Projektmanagement **

Unbedingt erforderliche Vorkenntnisse: Statistische Grundlagen, Modul "Algorithmische Bioinformatik"

Kontaktadresse, Webseite:

Helene Kretzmer

 

Title: Phylodynamic analysis of SARS-CoV-2

Lecturer: Prabhav Kalaghatgi

Maximum number of participants: 10

Period/preliminary appointment: tba

Location: Max Planck Institute for Molecular Genetics, Ihnestr. 63-73, PC-Pool

Information session: There will be an introductory lecture (online) on Wednesday Jan 11 at 2 pm.
https://fu-berlin.webex.com/fu-berlin-en/j.php?MTID=m10bd9b84965c7a096a0fa6a926de9237

Short description of content:

Over 10 million SARS-CoV-2 genomes have been sampled during the ongoing pandemic making available an unprecedented amount of data to study virus evolution. Phylogenetic trees are tree-structured models of evolutionary relationships. Phylogenetic trees of fast-evolving pathogens contain information about how quickly the pathogen is growing in number.

The software practical will introduce students to the principles of phylogeny inference and discuss tools that are being used during the pandemic such as UShER, nextstrain, and beast2. You will be introduced to the theory and practice of Markov chain Monte Carlo with an emphasis on the use of epidemiological models. Phylodynamics makes use of phylogenetic trees along with sampling time of sequences in order to characterize epidemiological dynamics using effective reproductive number (R0) which is used to characterize the rate at which an epidemic is growing. An R0 greater than 1 indicates an exponentially increasing growth curve whereas an R0 less than 1 indicates that the epidemic is declining.

Students will work in teams of two. At the end of the course each team will present their project and deliver a short report

Quantitative allocation (in %):

Practical programming work: 60 %

Soft skills: 40%

Programming language(s) used: Python

Difficulty level (Eight stars distributed over three areas):

A Programming:****

B Biology/Chemistry:*

C Projekt management:***

Required previous knowledge: Basics of probability theory and Markov chains. These are covered in the course Algorithmische Bioinformatik.

Contact address, website / link:

kalaghatgi@molgen.mpg.de

Language: English

Thema: AI for Health

DozentIn(en): Prof. Roland Eils, Julius Upmeier zu Belzen, Benjamin Wild

Maximale Teilnehmerzahl: 4

Zeitraum/Vorbesprechungstermin: nach Absprache

If you have a specific interest or a project idea, we’d love to discuss that in our first meeting. Alternatively, we have prepared two directions to explore: 1) predicting fractures in chest X-ray images, and 2) linking gene expression to tissue types and other phenotypes. Both of these, align partially with existing research projects in our lab, that we would love to try out in these new contexts. In any case, we will develop a pipeline from dataset access, preprocessing, baseline models, ML models and evaluation, as well as planning of future applications and extensions.
We are flexible with regards to the project timeline. If you have any further questions, please feel free to email us:
benjamin.wild@bih-charite.de, julius.upmeier@bih-charite.de

Ort: Digital (A), BIH, Kapelle-Ufer 2 (B)

Kurze inhaltliche Beschreibung:

Project: Machine Learning in Medicine: from idea to tool

  • Learn the fundamentals of developing, training and testing deep learning models in the medical domain
  • Learn about relevant metrics for evaluation and benchmarking and potential biases to watch out for
  • Work on integrating the developed and evaluated models into usable (web) tool

Quantitative Aufteilung: (in %)

Praktische Programmierarbeit: 75%
Soft Skills: 25%

Verwendete Programmiersprache(n): Python (>90%), maybe some javascript for web app

Schwierigkeitsgrad (Acht Sterne verteilt auf drei Bereiche):

A Programmieren ****
B Biologie/Chemie *
C Projektmanagement ***

Erforderliche Vorkenntnisse:

  • Experience with the Python programming language
  • Fundamental understanding of “What is machine learning"
  • Preferably prior experience with PyTorch or other DL-Libraries
  • Understanding of neural networks and preferably experience with deep learning

Kontaktadresse, Webseite/Link:

Benjamin Wild
Julius Upmeier zu Belzen
https://www.hidih.org/research/ailslab 

Titel: Bioinformatische Aufklärung monogener Krankheiten

Themen:

1. FABIAN-web: Web-GUI für Software zur Suche nach DNA-Motiven

2. Dynamic testing of a web app for symptom analysis

3. Entwicklung einer Web-Applikation zur Darstellung und Veränderung komplexer Stammbäume mit Perl/CGI

Hinweis: Es sind nur Vollzeitpraktika möglich.

DozentIn(en): Dominik Seelow, Robin Steinhaus, Sebastian Proft

Maximale Teilnehmerzahl: 7

Informationstermin (online):

Donnerstag, 19.01.2023, 17:00 Uhr unter: https://join.skype.com/Gf5LCnR2FCci

Ort: Charité/BIH - Bioinformatics & Translational Genetics, Invalidenstr. 97

Themen und weitere Infos:

https://genecascade.org/lehre/SWP_2023.html


Zusätzlich zu den hier aufgelisteten Softwareprojekten gibt es die Möglichkeit, das Softwareprojekt Datenverwaltung aus der Informatik der Arbeitsgruppe Datenbanken und Informationssysteme zu wählen und sich anerkennen zu lassen. Bitte melden Sie sich in Campus Management über das Prüfungsbüro zu dem Informatikmodul an:
LV.-Nr.: 19308412, Anrechnung zum Wintersemester 2021/2022. Bei Fragen wenden Sie sich an Muhammed-Ugur Karagülle.

Bitte beachten: Bitte geben Sie trotzdem Ihre Präferenzen in Whiteboard an, die Verteilung der Plätze wird zentral geregelt.

DozentIn(en): Muhammed-Ugur Karagülle

Maximale Teilnehmerzahl: nicht festgelegt

Zeitraum/Vorbesprechungstermin: 07.03. - 08.04.2022 (Erhebungszeitraum), Umsetzung bis 09.05.2022

Kurze inhaltliche Beschreibung:

Im Rahmen des Softwareprojekts Datenverwaltung wird die Plattform „SearchCite“ entwickelt, die für wissenschaftliches Personal Arbeitsprozesse vereinfachen soll. Ein erster Prototyp wurde bereits im Laufe des aktuellen Semesters entwickelt und soll für die Bereiche Bioinformatik, Biologie und Chemie verbessert werden. Entwickelt werden die Prototypen als Mockups mit Hilfe eines benutzerzentrierten Designansatzes (UCD).

Die Veranstaltung beginnt mit einer Einführungsveranstaltung zu benutzerzentriertem Design und geht danach in die Projektarbeit der Studierenden mit regelmäßigen Feedbackrunden über. Der Projektzeitraum ist vom 28.02.2022 bis zum 01.04.2022. Wir freuen uns auf eure Teilnahme und Expertise.

Quantitative Aufteilung: (in %)

Praktische Programmierarbeit: 50%
Soft Skills: 50%

Verwendete Programmiersprache(n): Mockup-Tool Figma

Schwierigkeitsgrad (Acht Sterne verteilt auf drei Bereiche):

A Programmieren **
B Biologie/Chemie **
C Projektmanagement ****

Erforderliche Vorkenntnisse: keine

Kontaktadresse, Webseite/Link:

m.u.k@fu-berlin.de (Betreff-Präfix: SWP)
KVV/Whiteboard https://mycampus.imp.fu-berlin.de/x/KXXmhK

Allgemeine Infos zum Softwarepraktikum (Projektmanagement im Softwarebereich)

eVV