Kliniken &… Kliniken Zentrum für Innere… Innere Medizin III:… Forschung Klaus-Tschira-Institut… Bioinformatik und…

Klaus-Tschira-Institute für Computational Cardiology

Bioinformatik & Systemkardiologie

Das Klaus Tschira Institut für Integrative Computergestützte Kardiologie ist in drei Themenfeldern aktiv. Erstens: RNA-Reifung und Verarbeitung. Insbesondere die Entwicklung und Physiologie des Herzens erfordern eine strenge Kontrolle der RNA Biologie. Unserem Labor ist es gelungen, zahlreiche Software Lösungen zur Untersuchung der komplexen RNA Welt zu veröffentlichen. Zweitens haben wir das Gebiet der Systemkardiologie für in vitro und in vivo Modelle der Herzinsuffizienz etabliert. Drittens wird durch das HiGHmed Konsortium im Rahmen der Medizininformatikinitiative eine Brücke in den Bereich der klinischen Datenwissenschaft eröffnet. An dieser Stelle sind insbesondere unsere KI-Arbeiten im Bereich unstrukturierter deutscher Texte aus dem kardiologischen Umfeld zu nennen.

Das Klaus Tschira Institute für Computational Cardiology wurde im September 2015 mit Förderung der Klaus Tschira Stiftung gegründet und wird seitdem von Prof. Dr. Christoph Dieterich geleitet. Wir befassen uns in der Bioinformatik mit der Verarbeitung genetischer Informationen von der DNA zu Proteinen. Dies wurde häufig als geradliniger Weg angesehen, auf dem die RNA nur ein Zwischenprodukt darstellt. Dieses Bild wird der Rolle der RNA allerdings nicht gerecht, vielmehr ist sie ein interaktiver und dynamischer Informationsträger, der eine Vielzahl von Funktionen erfüllt. Stabilität und Translationseffizienz der RNA werden sowohl von ihrer Sekundärstruktur als auch von Interaktionen mit RNA-Bindeproteinen und nichtkodierenden RNAs wie beispielweise microRNA oder lncRNA gesteuert. Co- und posttranskriptionelle Prozesse, wie RNA Modifikationen, können RNA Moleküle zudem auf Basenpaarebene verändern und so auch noch nach der Transkription Einfluss auf die finale Proteinsequenz nehmen. Mit der wiederentdeckten Klasse der zirkulären RNAs (circRNAs) hat zudem eine weitere, noch weitgehend unerforschte Gruppe von RNA-Molekülen Aufnahme in den Kreis der nichtkodierenden RNAs gefunden. Das Zusammenspiel all dieser Teile in einem großen Interaktionsnetzwerk wird heute unter dem Begriff der posttranskriptionalen Genregulation zusammengefasst und steuert zahlreiche Abläufe in unseren Zellen. Klassischerweise stehen spezifische Fragestellungen oder Beobachtungen aus der RNA Biomedizin am Anfang unserer Arbeit.

Eine mögliche Fragestellung wäre beispielsweise: „Herzmuskelzellen wachsen sowohl durch Fitnesstraining als auch durch krankhafte Einflüsse, beispielsweise Bluthochdruck. Warum aber unterscheiden sich die Langzeiteffekte auf molekularer und medizinischer Ebene deutlich?“

 

In der Regel erstellen wir mit unseren experimentellen Partnern gemeinsam Hypothesen, die wir dann sowohl durch etablierte bioinformatische und statistische Methoden als auch durch selbstentwickelte Software und Verfahren überprüfen. Neuentwickelte Softwarewerkzeuge werden quelloffen für die wissenschaftliche Gemeinschaft bereitgestellt und stetig weiterentwickelt.

Die Arbeitsgruppe hat so beispielsweise eine Software entwickelt, die in der Lage ist, modifizierte RNA Basenpaare aus Sequenzierungsdaten zu erkennen (Piechotta et. al, 2017). Weitere spezialisierte Softwarelösung für RNA Spleißen sind Baltica und insbesondere für zirkuläre RNAs circtools (Jakobi et al., 2019). Die Software wurde implementiert, um den gesamten Workflow von Qualitätsanalyse der Rohdaten, über Detektion und Rekon-struktion von zirkulären RNAs, bis hin zum Design molekulargenetischer Primersequenzen für Validierungsexperimente abzudecken.

Für viele regulatorische Funktionen ist die Stabilität von RNA ein kritischer Faktor. In vielen Fällen wird die Verfügbarkeit der RNA Blaupause rasch durch Zerfallsprozesse oder Neusynthese kontextabhängig reguliert. Mit PulseR und weitergehenden theoretischen Arbeiten wurde in der Arbeitsgruppe ein Werkzeug für die Analyse der RNA-Stoffwechselkinetik aus RNA-Sequenzierungsdaten entwickelt (Uvarovskii et al., 2019).

In anderen Fällen ist es jedoch wichtig, welche RNAs tatsächlich in Proteine translatiert werden und wie sich die Translation der Proteine im Vergleich zur Transkription der RNA verhält. Die Erstellung von Ribosomenprofilen mittels Hochdurchsatz-Sequenzierung (Ribo-seq) ist eine vielversprechende neue Tech-nik zur Charakterisierung der Ribosomenverteilung auf RNA mit Basenpaar-Auflösung. Das Ribosom ist für die Übersetzung der mRNA in Proteine verantwortlich, so dass Informationen über ihre Belegung eine detaillierte Ansicht der Ribosomen dichte und position bieten, die u.a. zur Entdeckung neuer translatierter offener Leseraster (ORFs) verwendet werden könnte. Ein Bayes'scher Ansatz zur Vorhersage von ORFs aus Ribosomenprofilen wurde in der Software Rp-Bp implementiert (Malone et al., 2017).

Die quantitative Systemkardiologie zeichnet sich durch immense Datenmengen aus, die auf gewöhnlichen Arbeitsplatzrechnern nicht mehr handhabbar sind. Die Arbeitsgruppe unterhält zu diesem Zweck ein eigenes Netzwerk von Hochleistungsrechnern, die in der Lage sind, auch umfangreiche experimentelle Datensätze in kurzer Zeit zu analysieren. Der Rechnercluster besteht derzeit aus 26 dedizierten Rechenknoten mit einem Arbeitsspeicher von bis zu einem Terabyte, der zum Beispiel für die Genomassemblierung oder die parallele Analyse großer OMICS Datensätze benötigt wird. Darüber hinaus wurde der Rechnerverbund mit einem dedizierten Server ausgerüstet, der NVIDIA GPUs (Graphics Processing Units) beherbergt. Diese Spezialhardware stammt von 3D-Grafikkarten für Computerspiele ab, welche in den letzten Jahren immer leistungsfähiger wurden und durch ihre hochparallele Architektur prädestiniert sind, Aufgaben des maschinellen Lernens und der künstlichen Intelligenz (KI) zu verarbeiten. Das Spezialsystem wird für eine Vielzahl von Aufgaben eingesetzt, die von der Extraktion der Sequenz von Basenpaaren aus Sequenzierungsrohdaten, über Text Mining in medizinischen Dokumenten bis hin zur Analyse von Patientengenomen aus molekulargenetischen Daten reichen.

 

In der klinischen Praxis fallen routinemäßig große Mengen an Daten aus den verschiedensten Bereichen an. Unsere Software, der Medical Data Explorer (MedEx) (Kindermann et al., 2019), ist eine intuitive, webbasierte Lösung, mit Möglichkeiten zum einfachen Datenimport. Wir verbinden eine moderne dynamische Webschnittstelle mit einer In-Memory-Datenbanklösung für eine nahezu Echtzeit Reaktionsfähigkeit. MedEx bietet verschiedene Visualisierungsoptionen, um einen einfachen Überblick über die geladenen Daten zu erhalten, um Hypothesen zu generieren und elementare Analysen durchzuführen. In der Medizin werden viele behandlungsrelevante Informationen nach wie vor in Form von unstrukturierten Texten in deutscher Sprache erfasst. Ein typisches Beispiel ist der Arztbrief, der als Transferdokument für die Kommunikation zwischen Ärzten gedacht ist. Unser Projekt MIEdeep (Medical Information Extraction using deep learning) möchte diese Datenquelle für die Gewinnung von Informationen nutzbar machen. Hierfür kommen innovative Ansätze aus den Bereichen der tiefen neuronalen Netze (Deep Learning) und der maschinellen Sprachverarbeitung (NLP) zum Einsatz. Wir verknüpfen hierbei Ansätze maschinellen Lernens für die Datenaufbereitung, Erstellung von Trainingsdaten und Informationsextraktion mit einer modernen grafischen Benutzeroberfläche, die für den Einsatz in einem klinischen Umfeld geeignet ist.

Gruppenbild. Von links nach rechts: Tami Liebfried, Etienne Boileau Isabel Naarmann-de Vries, Magdalena Smieszek, Christoph Dieterich, Qi Wang, Phillip Richter-Pechanski, Thiago Britto Borges, Aljoscha Kindermann, Tobias Jakobi (Foto: Tobias Jakobi)
Von links nach rechts: Maja Bencun, Aljoscha Kindermann, Thiago Britto Borges, Isabel Naarmann-de Vries, Etienne Boileau, Tami Liebfried, Jessica Eschenbach, Magdalena Smieszek, Christoph Dieterich, Qi Wang, Phillip Richter-Pechanski, Qi Wang, Tobias Jakobi (Foto: Tobias Jakobi)
DE