Verteiltes maschinelles Lernen (Distributed Machine Learning) ist eine Methode, bei der die Berechnungen und das Training von Machine-Learning-Modellen auf mehrere Geräte, Server oder Knoten verteilt werden. Dieser Ansatz wird verwendet, um große Datenmengen zu verarbeiten und komplexe Modelle zu trainieren, die auf einzelnen Maschinen zu lange dauern oder zu viel Speicher benötigen würden. Ziel des verteilten Lernens ist es, Rechenkapazitäten zu skalieren, Zeit zu sparen und Systeme effizienter zu nutzen. Es gibt dabei zwei Hauptansätze:
Modellparallelität: Das Modell selbst wird auf verschiedene Knoten aufgeteilt. Dies wird vor allem bei sehr großen Modellen genutzt, die nicht auf den Speicher eines einzelnen Geräts passen. Jeder Knoten übernimmt einen Teil der Berechnungen für das Modell.
Datenparallelität: Die Daten werden auf verschiedene Knoten aufgeteilt, und jeder Knoten trainiert ein Modell auf einem Teil der Daten. Die Modelle werden regelmäßig synchronisiert, um die Lernfortschritte zu teilen. So können große Datenmengen effizient verarbeitet werden.
Beispiel: Training eines großen Sprachmodells
Ein Sprachmodell wie GPT-4 wird auf riesigen Datenmengen trainiert, die aus Milliarden von Textbeispielen bestehen. Das Modell selbst enthält oft Milliarden von Parametern, was enormen Speicher und Rechenkapazität erfordert. Ein einzelner Computer würde für das Training Jahre brauchen und könnte aufgrund der Speicheranforderungen viele Teile des Modells gar nicht verarbeiten.
Modellparallelität: Ein so großes Modell passt oft nicht komplett in den Speicher eines Servers. Daher werden die Berechnungen auf verschiedene Server verteilt: Server A berechnet zum Beispiel die ersten Schichten des Modells, Server B die mittleren, und Server C die letzten. Die Zwischenresultate werden von Server zu Server weitergeleitet.
Datenparallelität: Die Trainingsdaten (Texte) werden in kleinere Datensätze aufgeteilt und an verschiedene Server geschickt. Jeder Server trainiert ein identisches Modell mit einem Teil der Daten. In regelmäßigen Abständen tauschen die Server ihre Gewichte (Parameter) aus, um sicherzustellen, dass alle Modelle von den Daten aller Server lernen.
Durch die Verteilung der Daten und der Berechnungen kann das Modell in deutlich kürzerer Zeit trainiert werden.
Föderiertes Lernen als verteiltes Lernen
Zusätzlich gibt es föderiertes Lernen als besonderen Fall des verteilten maschinellen Lernens, bei dem mehrere Geräte (wie Smartphones) ein gemeinsames Modell trainieren, ohne dass Daten zentral gesammelt werden. Dies ist vorteilhaft für Datenschutz und Datensicherheit, da die Daten lokal bleiben.