Verwenden von Algorithmen für maschinelles Lernen, um einen tiefen Einblick in die Zusammensetzung von Zellsubpopulationen zu erhalten

Zielsetzung

Einführung eines 20-Marker-Panels, das für die Erfassung mit dem CytoFLEX LX-Durchflusszytometer geeignet ist. Die Visualisierung der Daten mit viSNE, FlowSOM und SPADE auf der Cytobank Plattform wird untersucht. Eine manuelle Gating Strategie unter Verwendung der Kaluza Analysis Software wird gezeigt und mit den Zellsubpopulationen verglichen, die durch unsupervised Clustering mit FlowSOM auf der Cytobank Plattform identifiziert wurden.1,2 Die unsupervised Nature vieler dieser Algorithmen verringert Voreingenommenheit, die durch manuelles Gating bekannter Subpopulationen entstehen und ermöglichen es dem Forscher, unerwartete Phänotypen zu identifizieren. Die Reduzierung der „hands-on-time“, die erforderlich ist, um eine umfassende Analyse hochdimensionaler Datensätze mithilfe von Algorithmen für maschinelles Lernen im Vergleich zum manuellen Gating zu erreichen, ist ein zusätzlicher Vorteil.

Um die in dieser Applikationsnote verwendeten Daten zu erzeugen, wurden Blutproben vor der Lyse der roten Blutkörperchen unter Verwendung von Versalyse gemäß dem Standardverfahren (Partnummer IM3648) mit einem nachstehend beschriebenen 20-Farben-Antikörpercocktail (Tabelle 1) gefärbt. Die gefärbten Proben wurden mit einem 6-Laser-CytoFLEX LX flow cytometer aufgenommen. Die unten beschriebene Filterkonfiguration wurde angewendet, um einen optimalen Nachweis jedes Farbstoffs sicherzustellen.

 

Tabelle 1. Panel-Zusammensetzung für die 20-Marker-Immunphänotypisierung unter Verwendung des CytoFLEX LX Durchflusszytometers.

Panel composition for 20 marker immunophenotyping using CytoFLEX LX flow cytometer

Die Kompensation und Datentransformation unter Verwendung von logicle scaling wurde mit Kaluza Analysis software durchgeführt und kompensierte, logicle transformed Daten wurden unter Verwendung des Kaluza Cytobank Plugins auf die Cytobank platform hochgeladen. Die Kaluza-Analysis Software wurde auch zur biaxialen Steuerung und manuellen Identifizierung der Population verwendet.


Zur Vorbereitung der maschinell lernunterstützten Datenanalyse werden Zelltrümmer, Dubletten und häufig auch tote Zellen oder andere unerwünschte Ereignisse entfernt. Diese Ereignisse fügen der nachgelagerten Analyse keine Informationen hinzu, können sich aber negativ auf die Datenanzeige auswirken und statistische Ergebnisse verfälschen, wenn sie nicht angemessen identifiziert und ausgeschlossen werden. Abhängig von der gewünschten Datenvisualisierung und den Forschungsfragen kann es von Wert sein, die Population von Interesse für die weitere Analyse vorab zu gaten (Abbildung 1).

Use Kaluza to prepare data for ML-assisted analysis

Abbildung 1. Datenbereinigung in der Kaluza Analysis Software. Dubletten wurden basierend auf den Forward Scatter Flächen gegenüber der Höhe ausgeschlossen, gefolgt von einem Gating auf weiße Blutkörperchen basierend auf Forward- und Site Scatter Eigenschaften. Zellen, die für ViaKrome 808 (Partnummer C36628) negativ waren, wurden als lebend identifiziert und basierend auf der CD45-Expression weiter als Leukozyten klassifiziert. Daten wurden mit Kaluza Analysis Software analysiert. Die Plots dienen nur zu Illustrationszwecken.


Für die manuelle Identifizierung von zellulären Subpopulationen in menschlichen peripheren Blutproben wurde eine Gating Strategie basierend auf zuvor veröffentlichten Kenntnissen über Marker-Expressionsmuster unter Verwendung der Kaluza Analysis Software festgelegt3

 

Example of knowledge driven population identificationAbbildung 2. Wissensgesteuerte Identifizierung der wichtigsten Leukozyten-Subpopulationen. Mit der Kaluza Analysis Software analysierte Daten dienen nur zu Illustrationszwecken.

Mit maschinellem Lernen ist es möglich, Zellsubpopulationen ohne Voreingenommenheit und unabhängig von Vorkenntnissen zu identifizieren. Algorithmen zur Dimensionsreduzierung wie viSNE können die in einem hoch dimensionalen Datensatz enthaltenen Informationen in einem einzelnen 2D-Diagramm 1 visualisieren. Clustering-Algorithmen wie FlowSOM können ähnliche Zellen anhand von Ähnlichkeiten in der Marker-Expression automatisch identifizieren und gruppieren.2

Zur weiteren Analyse der Datensätze wurde viSNE zur Dimensionsreduzierung für alle Gating Marker verwendet, die auch in den in Abbildung 2 dargestellten manuellen Gating Schritten verwendet wurden. Dies ermöglicht die Visualisierung der in diesen 11 Markern enthaltenen Informationen (CD45, CRTH2, CD123, CD15, CD14, CD16, CD56, CD3, CD4, CD8, CD19) in einem einzelnen 2D-Diagramm. viSNE ist eine Methode, um hochdimensionale Daten auf zwei Dimensionen zu reduzieren und so eine schnelle explorative Datenanalyse und Visualisierung komplexer Ergebnisse zu ermöglichen. Bei Zytometriedaten kann dies bei der Kategorisierung von Ereignissen/Zellen in biologischen Populationen hilfreich sein. Zellen, die phänotypisch ähnlich sind, liegen nahe beieinander und bilden eine Insel. Ein Konturdiagramm der resultierenden viSNE-Karte ist in Abbildung 3A dargestellt.

Nach der Verringerung der Dimensionen wurde eine FlowSOM-Analyse durchgeführt, um die Zellen automatisch in 12 sogenannte Metacluster zu gruppieren. Das Ausführen von FlowSOM auf den Populationsdefinierenden Markern und das Anzeigen der resultierenden Clusterdaten, die der viSNE-Karte überlagert sind, kann die Qualitätsbewertung erleichtern. Wenn weitere iterative Anpassungen der Einstellungen des Algorithmus erforderlich sind, um die Ergebnisse zu optimieren, kann diese Visualisierung den Vergleich verschiedener Läufe erleichtern und bietet einen Ausgangspunkt für die Analyse von Clusterdaten.

In dem hier analysierten Datensatz kann eine gute Korrelation zwischen den viSNE-Inseln und den FlowSOM-Metaclustern beobachtet werden (Abbildung 3B). Um den Phänotyp jedes Metaclusters schnell zu identifizieren, kann es hilfreich sein, eine Heatmap-Ansicht der FlowSOM-Metacluster durch Clustering zu erstellen (Abbildung 3C).

Subset identification using viSNE, FlowSOM and a heatmap displayAbbildung 3. Identifizierung von Subpopulationen mithilfe von viSNE, FlowSOM und einer Heatmap-Anzeige. A) Konturdiagramm der viSNE-Karte B) viSNE-Karte mit FlowSOM-Metaclustern als überlagerte figure dimensions C) Heatmap-Visualisierung der Marker-Expression durch FlowSOM-Metacluster. Die Daten wurden mit der Kaluza-Analysis Software kompensiert und logicle transformed und über das Kaluza Cytobank-Plugin auf die Cytobank Plattform hochgeladen. viSNE wurde mit 11 populationsdefinierenden Markern von 3 Proben mit 3000 Iterations , 30 Perplexity und 0,5 Theta durchgeführt. FlowSOM-Einstellungen sind 12 Metacluster und 121 Cluster mit hierarchischem Konsensclustering. Die Plots dienen nur zu Illustrationszwecken.


Die durch die Kanalfunktionalität gefärbten Punktdiagramme/dot plots, die jedes Ereignis in der viSNE-Karte entsprechend seiner Intensität auf einem Kanal innerhalb des Datensatzes färben, können verwendet werden, um zu zeigen, warum Punkte in der Karte nahe beieinander liegen oder welches Markerexpressionsmuster zwischen Ereignissen innerhalb einer viSNE Insel ähnlich ist. Abbildung 4 zeigt die Marker-Expression für CD19, CD4 und CD8 auf der viSNE-Karte und im Vergleich zum FlowSOM-Metaclustering.

Expression levels of sub-population markers on viSNE map
Abbildung 4. Expressionsniveaus von Subpopulationsmarkern auf der viSNE-Karte. A) CD19-Expression B) CD4-Expression C) CD8-Expression D) viSNE-Karte mit FlowSOM-Metaclustern als überlagerten Abbildungsdimension. Die Daten wurden mit der Kaluza Analysis Software kompensiert und logicle transformed und über das Kaluza Cytobank Plugin auf die Cytobank Plattform hochgeladen. viSNE wurde mit dem Cytobank-Plugin an 11 Populationen durchgeführt, die Marker von 3 Proben mit 3000 Iterations , 30 Perplexity und 0,5 Theta definieren. FlowSOM-Einstellungen sind 12 Metacluster und 121 Cluster mit hierarchischem Konsensclustering. Die Plots dienen nur zu Illustrationszwecken.

Comparison of 3 samples using ML-assisted analysis

Abbildung 5. Vergleich von 3 Proben. A) FlowSOM-Clustering überlagert die viSNE-Karte, Pfeile zeigen Metacluster 1, Sternchen zeigen Metacluster 12. B) CD16-Expression C) CD56-Expression. Die Daten wurden mit der Kaluza-Analysis Software kompensiert und die logicle transfomed und über das Kaluza Cytobank-Plugin auf die Cytobank Plattform hochgeladen. viSNE wurde auf der Cytobank mit 11 populationsdefinierenden Markern durchgeführt. viSNE wurde auf allen CD45 + Leukozyten von 3 Proben mit 3000 Iterations , 30 Perplexity und 0,5 Theta durchgeführt. FlowSOM Einstellungen sind 12 Metacluster und 121 Cluster mit hierarchischem Konsensclustering. Die Daten wurden mit der Kaluza Analysis Software kompensiert, logicle transformed und über das Kaluza Cytobank-Plugin auf die Cytobank Plattform hochgeladen. Weitere Datenanalysen wurden auf der Cytobank Plattform durchgeführt. Die Plots dienen nur zu Illustrationszwecken.

Die Kombination von viSNE und FlowSOM ermöglicht qualitative Vergleiche zwischen Proben, die durch Visualisierung der Expression spezifischer Marker auf der viSNE-Karte verbessert werden können (Abbildung 5). Der Vergleich zeigt, dass die als Metacluster 1 identifizierte CD16+ Population (5A, blau, Pfeil) in Probe G prominent ist, in den Proben B und F jedoch praktisch nicht vorhanden ist. Er zeigt auch eine Häufigkeit von CD56 hellen Zellen in Metacluster 12 für Probe F (Abbildung 5A, rot; Sternchen).

Ein anderer unsupervised Algorithmus, der zur Identifizierung von Gruppen ähnlicher Zellen verwendet werden kann, ist SPADE. SPADE steht für "Spanning-Tree Progression Analysis of Density-Normalized Events". 4. SPADE gruppiert phänotypisch ähnliche Zellen in einer Hierarchie, die eine mehrdimensionale Analyse heterogener Proben mit hohem Durchsatz ermöglicht (Abbildung 6). Es können Regionen hinzugefügt werden, um den verschiedenen von SPADE gefundenen Computer berechnete Populationen (Clustern) benutzerdefinierte Populationsschwellenwerte zuzuweisen.

 

SPADE trees colored by CD16 expression

Abbildung 6. Vergleich von 2 Proben, SPADE-Tree, gefärbt durch CD16-Expression. Die Daten wurden mit der Kaluza Analysis Software kompensiert, logicle transformed und über das Kaluza Cytobank Plugin auf die Cytobank Plattform hochgeladen. SPADE wurde an 11 Populationen durchgeführt, die mit Down-Sampling auf 10% und 50 Knoten definiert wurden. Die Plots dienen nur zu Illustrationszwecken.

Ein tieferes Immunprofil der jeweiligen Leukozytenpopulationen kann durch Erweiterung der manuellen Gating Strategie erhalten werden. Dies basiert wiederum im Allgemeinen auf Vorkenntnissen der Expressionsmuster. Ein Beispiel für die CD4+ T-Zell-Subpopulation ist in Abbildung 7 dargestellt.

Knowledge-driven identification of regulatory T-cells and their subsets

Abbildung 7. Wissensgesteuerte Identifizierung von regulatorischen T-Zellen und ihren Subpopulation. (A) CD4-T-Zellspeicher-Subpopulation, die auf CD4+ T-Zellen mit Ausnahme von Tregs (B) - und CD8 + T-Zellspeicher-Subpopulationen gesteuert werden. Die Daten wurden mit der Kaluza Analysis Software analysiert. Die Plots dienen nur zu Illustrationszwecken.

Vergleiche zwischen Proben können durch Vergleiche von Plots oder statistischen Ergebnissen und durch Verwenden von Overlay Funktionen oder des Kaluza Vergleichsplots (Abbildung 8) durchgeführt werden. Dieser Ansatz wird am häufigsten auch von Annahmen über wahrscheinliche Unterschiede geleitet.

Comparison of Treg subsets across samples
Abbildung 8. Vergleich der Treg-Subpopulation über Stichproben hinweg. A) Einzelne Dot Plots pro Probe. B) Tabelle mit statistischen Ergebnissen pro Probe und Subpopulation. C) Dot Plot Überlagerung von zwei Proben. D) Vergleichsdiagramm zur Visualisierung von % Gated pro Subpopulation und Probe. Die Daten wurden mit der Kaluza Analysis Software analysiert. Die Plots dienen nur zu Illustrationszwecken.



Zur unsupervised Identifizierung von T-Zell-subpopulationen wurde eine viSNE-Analyse unter Verwendung von CD3 + T-Zellen als Eingabepopulation durchgeführt. 9A zeigt die Expression von CD4 und CD8 auf der viSNE-Karte. Nach dem gleichen manuellen Gating Ansatz wie zuvor (siehe 7) wurden verschiedene CD45RA- und CD62L-Expressionsmuster unter Verwendung eines Quadrantentors auf Pan-T-Zellen identifiziert und auf der viSNE-Karte sichtbar gemacht (9B). Zuletzt wurde mit FlowSOM ein hierarchisches Konsensclustering durchgeführt, um 10 Metacluster zu identifizieren (Abbildung 9 C). Sowohl manuelles Gating als auch unsupervised Clustering führen zur Identifizierung ähnlicher Populationen.

 

Unsupervised analysis of T cell subsets
Abbildung 9. Unsupervised Analyse von T-Zell Subpopulationen. (A) viSNE wurde auf der Cytobank Plattform mit 2000 Iterations durchgeführt und eine Perplexity von 50 und CD4 (links) und CD8 (rechts) Expression werden auf den resultierenden viSNE-Plot (B) CD62L- und CD45RA-Expressionsmustern (links) sowie sichtbar gemacht regulatorische T-Zellen (Mitte) wurden unter Verwendung von manuellem Gating identifiziert und Populationen auf der viSNE-Karte überlagert. (C) FlowSOM-Clustering wurde unter Verwendung von hierarchischem Clustering für normalisierte Daten durchgeführt, um 100 Cluster und 10 Metacluster zu erkennen. Metacluster werden auf der viSNE-Karte angezeigt. Die Daten wurden mit der Kaluza-Analysis Software kompensiert, logicle transformed und über das Kaluza Cytobank Plugin auf die Cytobank Plattform hochgeladen. Weitere Datenanalysen wurden auf der Cytobank Plattform durchgeführt. Die Plots dienen nur zu Illustrationszwecken.

Abbildung 10 zeigt den Vergleich der Identifizierung von CD8 + Gedächtnis Subpopulationen mithilfe von manuellem Gating und unsupervised Clustering mit FlowSOM.

Comparison of CD8+ T cell memory subsets by manual gating versus FlowSOM

Abbildung 10. Vergleich der durch manuelles Gating identifizierten CD8 + T-Gedächtniszellen-Subpopulationen. (A) und FlowSOM (B). Die Daten wurden mit der Kaluza Analysis Software kompensiert und die Logik transformiert und über das Kaluza Cytobank Plugin auf die Cytobank-Plattform hochgeladen. Weitere Datenanalysen wurden auf der Cytobank Plattform durchgeführt. Die Darstellungen dienen nur zu Illustrationszwecken.

Zusammenfassung

Daten von drei Spendern, die unter Verwendung eines 20-Marker-Panels erhalten wurden, das auf einem CytoFLEX LX aufgenommen wurde. Diese wurden verwendet, um eine manuelle Gating Strategie zur Identifizierung von Leukozyten-Untergruppen sowie eine eingehendere Analyse von T-Zell-Subpopulationen zu zeigen. Die Verwendung von viSNE zur Visualisierung hoch dimensionaler Daten in einer 2D-viSNE-Karte wurde gezeigt und die Verwendung von viSNE und SPADE zum Vergleich von Proben wurde diskutiert. Schließlich wurde die automatische Clusteridentifikation mit FlowSOM mit den Ergebnissen des manuellen Gatings verglichen. Tools für maschinelles Lernen wie viSNE, FlowSOM und SPADE können bei der Visualisierung von Daten mit vielen Parametern und bei der unvoreingenommenen Identifizierung von zellulären Subpopulationen hilfreich sein.

 

Tipps für den Erfolg

Ausführliche Anweisungen zur Verwendung der Kaluza Analysis Software finden Sie in der Kaluza IFU C10986. Ausführliche Anweisungen zur Verwendung der Cytobank Plattform finden Sie unter support.cytobank.org. Dieses Dokument ersetzt nicht die Instruction for Use (IFU).

Eine ausführliche Beschreibung der hier durchgeführten Analysen finden Sie in den technical notes in den Abschnitten “Use Machine Learning Algorithms to Explore the Potential of Your High Dimensional Flow Cytometry Data Example of a 20-color Panel on CytoFLEX LX” und“Leveraging the Combined Power of Kaluza and the Cytobank Platform”.


References

  1. Amir ED, Davis KL, Tadmor MD, et al. viSNE enables visualization of high dimensional single-cell data and reveals phenotypic heterogeneity of leukemia. Nature Biotechnology. 2013;31(6):545-552. doi:10.1038/nbt.2594.

  2. Van Gassen S, Callebaut B, Van Helden MJ, et al. FlowSOM: Using self-organizing maps for visualization and interpretation of cytometry data: FlowSOM. Cytometry. 2015;87(7):636-645. doi:10.1002/cyto.a.22625.

  3. Ortolani C. Antigens. In: Flow Cytometry of Hematological Malignancies. John Wiley & Sons, Ltd; 2011:1-157. doi:10.1002/9781444398069.ch1.

  4. Qiu P, Simonds EF, Bendall SC, et al. Extracting a cellular hierarchy from high-dimensional cytometry data with SPADE. Nature Biotechnology. 2011;29(10):886-891. doi:10.1038/nbt.1991.

 

For Research Use Only. Not for use in diagnostic procedures.