Vergleich von Clustering-Ergebnisse

23.03.2023

Das neue DFG-gef?rderte Projekt ?CoCo“ zur visuellen Analyse von Clustern wird in Kooperation mit dem Luxembourg Institute of Science and Technology (LIST) umgesetzt.

CoCo: Vergleichende und kollaborative visuelle Analyse von Clustering und Co-clustering Ensembles

Gef?rdert durch: Deutsche Forschungsgemeinschaft (DFG) in Zusammenarbeit mit dem Fonds National de la Recherche (FNR, Luxemburg)

F?rderung: 2023–2026

Projektpartner: Fabian Beck (Universit?t Bamberg) und Mohammad Ghoniem (LIST)

Zusammenfassung

Beim Clustering werden komplexe Daten automatisch gruppiert und Abstraktionen auf der Grundlage der ?hnlichkeit der Daten erstellt. Es gibt jedoch verschiedene Kriterien zur Berechnung der ?hnlichkeit und verschiedene Clustering-Algorithmen, die alle zu einer anderen Gruppierung der Daten führen. Die sich daraus ergebende Vielfalt an Gruppierungen wird gew?hnlich versucht zu minimieren, aber wir sehen in der Vielfalt auch einen Wert und eine Chance. Nur menschliche Experten k?nnen die Qualit?t der Ergebnisse beurteilen und zwischen den verschiedenen Wahrheiten w?hlen, die sie widerspiegeln. Sie k?nnen die Besonderheiten des jeweiligen Anwendungsfalls berücksichtigen und auf der Grundlage der verschiedenen Ergebnisse eine zusammenfassende Gruppierung vornehmen. Die Zusammenarbeit mehrerer Experten ist sinnvoll, um ein breiteres Spektrum an Fachwissen einzubeziehen.

Um die Experten zu unterstützen, schlagen wir neue Methoden zur Visualisierung und zum visuellen Vergleich solcher Ensembles von Clustering-Ergebnissen vor. Unsere Methoden gehen über den Stand der Technik für visuelle Vergleiche hinaus, da sie komplexere Szenarien hinsichtlich der Eigenschaften von Clusterstrukturen berücksichtigen, sowie ihrer kontextuellen Einbettung in andere Daten und kollaborative Analysen. Wir wollen nicht nur einfache Partitionen von Daten untersuchen, sondern auch überlappende Gruppen und Cluster, die in Netzwerkstrukturen integriert sind. Ein besonderer Schwerpunkt sind Co-Cluster, die auch die Datenvariablen strukturieren und dadurch leichter verst?ndliche Gruppierungen bilden. So k?nnen beispielsweise aus einer Sammlung wissenschaftlicher Dokumente bestimmte Themen identifiziert werden, die zusammen mit den darin enthaltenen Begriffen Co-Cluster bilden, welche durch die Betrachtung des zugrunde liegenden Zitationsnetzwerks weiter kontextualisiert werden.

Zu den spezifischen Zielen des Projekts geh?ren die Erforschung des Gestaltungsraums für die Modellierung solcher Gruppierungen und die Untersuchung von Mitteln zu ihrer visuellen Codierung für einen effektiven und kontextualisierten Vergleich. Neben technischen Beitr?gen in Form von neuen Visualisierungstechniken werden wir auch Leitlinien, Aufgabentaxonomien und Literaturübersichten erarbeiten. Anwendungsbeispiele, die sich auf die Analyse von Dokumentensammlungen und biologischen Omics-Daten konzentrieren, verankern die Techniken in realen Aufgabenstellungen und erm?glichen die Arbeit mit verschiedenen Anwendungsexperten. Ein erg?nzender Schwerpunkt ist die Vereinfachung der kollaborativen visuellen Analyse von Gruppierungen, z. B. auf einem wandgro?en Bildschirm mit der Unterstützung von Mehrbenutzer-Interaktion.