Forschungsschwerpunkte
Wir besch?ftigen uns insbesondere mit:
- Entwicklung von robusten, generalisierbaren Neuronalen Netzen (CNNs, Deep Learning)
- Daten-/Annotation-effiziente Modelle basierend auf Semi-/Self-supervised Learning
- Outlier-Detektion und Imputation von unvollst?ndige Datens?tzen
- Rekonstruktion von Bild- und Videodaten, eg. mit Hilfe von Super-Resolution
- Segmentierungsprobleme, insbesondere MRI Brain Segmentation
- Quantifizierung von Unsicherheiten von Klassifizierungsvorhersagen
- Entwicklung von interpretierbaren Features zur Verbesserung der Anwender-/Patientenkommunikation
- Evaluierung von Algorithmus Performance und Quantifizierung von Data-biases
- Translation von Forschungsergebnissen in industrielle oder medizinische Kontexte
- Quantifizierung von menschlicher Anatomie anhand von Bilddaten (MRI, X-Ray, CT) im Kontext von Erkrankungen wie Demenz, Tumoren und Traumata.
Ausgew?hlte Forschungsarbeiten
F. Di Salvo, M. Nguyen, C. Ledig, "Embedding-Based Federated Data Sharing via Differentially Private Conditional VAEs", MICCAI 2025
Deep Learning (DL) hat die medizinische Bildgebung revolutioniert. Doch seine Einführung wird durch Datenknappheit und Datenschutzbestimmungen eingeschr?nkt, wodurch der Zugang zu vielf?ltigen Datens?tzen begrenzt ist. Federated Learning (FL) erm?glicht zwar ein dezentrales Training, leidet jedoch unter hohen Kommunikationskosten und ist oft auf eine einzige nachgelagerte Aufgabe beschr?nkt, was die Flexibilit?t einschr?nkt. Wir schlagen eine Methode zum Datenaustausch über differentiell private (DP) generative Modelle vor. Mithilfe von Foundation-Modellen extrahieren wir kompakte, informative Einbettungen, wodurch Redundanzen reduziert und der Rechenaufwand gesenkt werden. Kunden trainieren gemeinsam einen Differentially Private Conditional Variational Autoencoder (DP-CVAE), um eine globale, datenschutzbewusste Datenverteilung zu modellieren, die verschiedene nachgelagerte Aufgaben unterstützt. Unser Ansatz, der für mehrere Feature-Extraktoren validiert wurde, verbessert den Datenschutz, die Skalierbarkeit und die Effizienz. Er übertrifft dabei herk?mmliche FL-Klassifikatoren, w?hrend gleichzeitig die differentielle Privatsph?re gew?hrleistet ist. Darüber hinaus erzeugt der DP-CVAE-Embedder mit h?herer Genauigkeit als der DP-CGAN-Embedder und ben?tigt dabei fünfmal weniger Parameter.
Autoren: Francesco Di Salvo*, My Nguyen*, Christian Ledig
* gemeinsame Urheberschaft
[Preprint], [Bibtex](261.0 B)
F. Di Salvo, S. Doerrich, I. Rieger, C. Ledig, "An Embedding is Worth a Thousand Noisy Labels," TMLR 2025
Die Leistung tiefer neuronaler Netze skaliert mit der Gr??e des Datensatzes und der Qualit?t der Labels. Daher ist eine effiziente Reduzierung von Datenannotationen geringer Qualit?t für den Aufbau robuster und kosteneffizienter Systeme von entscheidender Bedeutung. Aktuelle Ans?tze zur Reduktion von Label-Rauschen sind aufgrund ihrer hohen rechnerischen Komplexit?t und spezifischen Anwendungsanforderungen stark begrenzt. In dieser Arbeit pr?sentieren wir WANN, einen gewichteten adaptiven Nearest-Neighbor-Ansatz, der selbstüberwachte Merkmalsdarstellungen verwendet, die aus Basis-Modellen abgeleitet werden. Zur Steuerung des gewichteten Abstimmungsschemas führen wir einen Zuverl?ssigkeitswert ein. Dieser misst die Wahrscheinlichkeit, dass ein Datenlabel korrekt ist. WANN übertrifft Referenzmethoden – einschlie?lich einer linearen Schicht, die mit robusten Verlustfunktionen trainiert wurde – bei verschiedenen Datens?tzen unterschiedlicher Gr??e sowie unter verschiedenen Arten und Schweregraden von Rauschen. WANN zeigt auch eine überlegene Generalisierung bei unausgewogenen Daten im Vergleich zu adaptiven neuronalen Netzen (ANN) und festen k-NNs. Darüber hinaus verbessert das vorgeschlagene Gewichtungsschema die überwachte Dimensionsreduktion bei verrauschten Labels. Dies führt zu einer deutlichen Steigerung der Klassifizierungsleistung bei 10-mal und 100-mal kleineren Bild-Embeddings, wodurch sich Latenz und Speicheranforderungen minimieren lassen. Unser Ansatz, der Effizienz und Erkl?rbarkeit in den Vordergrund stellt, erweist sich somit als einfache und robuste L?sung zur ?berwindung der inh?renten Einschr?nkungen des Trainings tiefer neuronaler Netze.
Autoren: Francesco Di Salvo, Sebastian Doerrich, Ines Rieger, Christian Ledig
[Preprint], [Publication], [Code], [Bibtex](309.0 B)
S. Doerrich, F. Di Salvo, J. Brockmann, C. Ledig, “Rethinking model prototyping through the MedMNIST+ dataset collection”, Scientific Reports, 15, 7669, 2025
Die Integration von auf Deep Learning basierenden Systemen in die klinische Praxis wird h?ufig durch Herausforderungen behindert, die in begrenzten und heterogenen medizinischen Datens?tzen begründet sind. Darüber hinaus wird in diesem Bereich zunehmend marginalen Leistungssteigerungen bei einigen wenigen, eng gefassten Benchmarks Vorrang vor der klinischen Anwendbarkeit einger?umt, wodurch sinnvolle algorithmische Fortschritte verlangsamt werden. Dieser Trend führt h?ufig zu einer überm??igen Feinabstimmung bestehender Methoden an ausgew?hlten Datens?tzen, anstatt klinisch relevante Innovationen zu f?rdern. Als Reaktion darauf wird in dieser Arbeit ein umfassender Benchmark für die MedMNIST+-Datensatzsammlung eingeführt, der die Bewertungslandschaft über mehrere Bildgebungsmodalit?ten, anatomische Regionen, Klassifizierungsaufgaben und Stichprobengr??en hinweg diversifizieren soll. Wir bewerten systematisch h?ufig verwendete Convolutional Neural Networks (CNNs) und Vision Transformer (ViT)-Architekturen in verschiedenen medizinischen Datens?tzen, Trainingsmethoden und Eingabeaufl?sungen, um bestehende Annahmen über die Effektivit?t und Entwicklung von Modellen zu validieren und zu verfeinern. Unsere Ergebnisse deuten darauf hin, dass rechnerisch effiziente Trainingsverfahren und moderne Foundation-modelle praktikable Alternativen zum kostspieligen End-to-End-Training bieten. Darüber hinaus stellen wir fest, dass h?here Bildaufl?sungen die Leistung ab einem bestimmten Schwellenwert nicht durchg?ngig verbessern. Dies unterstreicht die potenziellen Vorteile der Verwendung niedrigerer Aufl?sungen, insbesondere in der Prototyping-Phase, um den Rechenaufwand zu verringern, ohne die Genauigkeit zu beeintr?chtigen. Insbesondere best?tigt unsere Analyse die Wettbewerbsf?higkeit von CNNs im Vergleich zu ViTs und unterstreicht, wie wichtig es ist, die intrinsischen F?higkeiten der verschiedenen Architekturen zu verstehen. Schlie?lich wollen wir durch die Schaffung eines standardisierten Bewertungsrahmens die Transparenz, Reproduzierbarkeit und Vergleichbarkeit innerhalb der MedMNIST+-Datensatzsammlung sowie die zukünftige Forschung verbessern.
Autoren: Sebastian Doerrich, Francesco Di Salvo, Julius Brockmann, Christian Ledig
[Preprint], [Publication], [Code], [Benchmark], [BibTeX](612.0 B)


