Classifying flow cytometry data using Bayesian analysis helps to distinguish ALS patients from healthy controls

in Zusammenarbeit mit Saskia Räuber

Einzelzellanalysen sind aufstrebende Techniken, die eine Analyse individueller Zellen ermöglichen, um ihre Diversität, ihr Verhalten und ihre Interaktionen zu verstehen. In den letzten Jahren konnten bedeutende Fortschritte in diesem Bereich gemacht werden. Die Entwicklung und Optimierung der Einzelzellsequenzierung, der Proteom-Analysen und der hochauflösenden Bildgebung konnten neue mechanistische Einblicke in die Pathophysiologie verschiedener Erkrankungen liefern. Die zunehmende Komplexität und Variabilität der resultierenden Datensätze stellen jedoch eine große Herausforderung für die Analyse, Interpretation und Integration der Daten dar.

Die multidimensionale Durchflusszytometrie (mFC) ist eine etablierte, kosteneffektive Methode zur Charakterisierung von Immunzellpopulationen. Manuelle Analysen sind dabei meist notwendig, jedoch oft limitierend bei der Analyse von mFC-Daten. Neue (halb-)automatische Analysetechniken konnten die manuellen Auswertungen in den letzten Jahren ergänzen. Allerdings basieren viele dieser Algorithmen auf Dimensionsreduktionsmethoden, wodurch potenziell biologisch relevante Informationen verloren gehen können.

Wir konnten ein mathematisches Modell basierend auf Bayes‘schen Netzwerken entwickeln, welches eine Unterscheidung von Patient*innen mit Amyotropher Lateralsklerose (ALS) und gesunden Kontrollen (HC) anhand der mFC-Rohdaten aus peripherem Blut (PB) ermöglicht und nicht auf Dimensionsreduktionsmethoden basiert. Der Algorithmus erstellt ein Bayes‘sches Netz, das einen HC-Baum darstellt, wenn mFC-Rohdaten einer zufällig ausgewählten Kontrollkohorte (HC) einbezogen werden. Der HC-Baum wird zur Klassifikation verwendet, ob die beobachtete Markerverteilung im PB von entweder Patienten mit ALS oder HC vorhergesagt wird. Die relative Anzahl der Zellen, bei denen die Wahrscheinlichkeit q gleich Null ist, wird berechnet (NoZ). Die NoZ stellt ein Maß für die Ähnlichkeit der Markerverteilung zwischen einer zufällig ausgewählten mFC-Datei (ALS oder HC) und dem HC-Baum dar.

Es wurden zwei unabhängige ALS- und HC-Kohorten mit diesem Algorithmus analysiert. Die Dresden-Kohorte (Kohorte I) bestand aus mFC-Daten von 68 ALS-Patienten und 35 HC. Anhand dieser konnte der Algorithmus 64/68 ALS-Patienten korrekt identifizieren. Das Tuning der Parameter ergab, dass die Kombination aus 7 Markern, 200 Bins und 20 Patienten die höchste AUC auf einem Signifikanzniveau von p < 0,0001 erreichte. Die Marker CD4 und CD38 zeigten die höchsten Nullwahrscheinlichkeiten. Das Modell wurde anschließend in einer zweiten, unabhängigen ALS- und HC-Kohorte (55 ALS und 30 HC) validiert. In diesem Fall wurden alle ALS-Patienten korrekt identifiziert und SSC und CD20 ergaben die höchsten Nullwahrscheinlichkeiten. Abschließend wurden beide Datensätze mit dem kommerziell verfügbaren Algorithmus Citrus analysiert. Die Ergebnisse deuteten auf eine Überlegenheit der auf Bayes‘schen Netzwerken basierenden Modelle bei der Klassifikation von ALS-Patienten und Kontrollen anhand der mFC-Rohdaten hin.

Folglich könnten auf Bayes‘schen Netzwerken basierende Modelle einen neuwertigen Ansatz zur Klassifikation von mFC-Rohdaten darstellen, welcher keine Dimensionsreduktionstechniken verwendet und es somit ermöglicht, Informationen über den gesamten Datensatz zu erhalten. Die Performance bei der Unterscheidung klinisch relevanter Differentialdiagnosen sollte in weiteren Studien analysiert werden, um den zusätzlichen diagnostischen Nutzen mathematischer Modelle zur Ergänzung des bisherigen diagnostischen Workups neurologischer Erkrankungen zu beurteilen.

Quelle: Räuber S, Nelke C, Schroeter CB, et al. Classifying flow cytometry data using Bayesian analysis helps to distinguish ALS patients from healthy controls. Front Immunol. 2023;14:1198860. Published 2023 Aug 1. doi:10.3389/fimmu.2023.1198860

Single-cell analyses are emerging techniques that enable the analysis of individual cells to understand their diversity, behavior, and interactions. Significant progress has been made in this field in recent years. The development and optimization of single-cell sequencing, proteome analysis, and high-resolution imaging have provided new mechanistic insights into the pathophysiology of various diseases. However, the increasing complexity and variability of the resulting datasets pose a significant challenge for data analysis, interpretation, and integration.

Multidimensional flow cytometry (mFC) is an established, cost-effective method for characterizing immune cell populations. Manual analyses are often necessary but can be limiting when analyzing mFC data. New semi-automated and automated analysis techniques have supplemented manual evaluations in recent years. However, many of these algorithms are based on dimensionality reduction methods, which can potentially lead to the loss of biologically relevant information.

We have developed a mathematical model based on Bayesian networks that allows differentiation between patients with Amyotrophic Lateral Sclerosis (ALS) and healthy controls (HC) using raw mFC data from peripheral blood (PB), without relying on dimensionality reduction methods. The algorithm constructs a Bayesian network representing an HC tree when raw mFC data from a randomly selected HC cohort is incorporated. This HC tree is used for classification to predict whether the observed marker distribution in PB belongs to either ALS patients or HC. The relative number of cells for which the probability q is equal to zero is calculated (NoZ). NoZ serves as a measure of the similarity of marker distribution between a randomly selected mFC file (ALS or HC) and the HC tree.

Two independent ALS and HC cohorts were analyzed using this algorithm. The Dresden cohort (Cohort I) consisted of mFC data from 68 ALS patients and 35 HC. Using this cohort, the algorithm correctly identified 64 out of 68 ALS patients. Parameter tuning revealed that the combination of 7 markers, 200 bins, and 20 patients achieved the highest AUC at a significance level of p < 0.0001. Markers CD4 and CD38 exhibited the highest zero probabilities. The model was subsequently validated in a second, independent ALS and HC cohort (55 ALS and 30 HC), correctly identifying all ALS patients, with SSC and CD20 showing the highest zero probabilities.

Finally, both datasets were analyzed using the commercially available Citrus algorithm. The results suggested the superiority of Bayesian network-based models in classifying ALS patients and controls based on raw mFC data.

In conclusion, Bayesian network-based models could represent an innovative approach for classifying raw mFC data, avoiding dimensionality reduction techniques and thereby allowing for the retention of information across the entire dataset. The performance in distinguishing clinically relevant differential diagnoses should be analyzed in further studies to assess the additional diagnostic benefit of mathematical models in complementing the existing diagnostic workup for neurological diseases.