Wie Roboter denken lernen: VLA-Modelle einfach erklärt

Q: Brauche ich für ein VLA-Modell ein Rechenzentrum?

Zum Trainieren ja, große GPU-Cluster sind nötig. Zum Ausführen nein: Helix und GR00T N1 laufen auf einem einzigen NVIDIA Jetson AGX Orin oder vergleichbarer Hardware direkt im Roboter. System 1 (Reflex) läuft lokal, System 2 (Stratege) läuft lokal oder über eine niedrige-Latenz-Cloud-Verbindung.

Q: Sind VLA-Modelle wirklich neu oder nur Marketing?

Die zugrundeliegenden Bausteine wie Transformer, Vision-Encoder und Diffusion-Heads sind seit Jahren bekannt. Neu ist die Kombination zu einer durchgängigen, Ende-zu-Ende-trainierten Pipeline, die in Echtzeit auf einer realen Maschine läuft. Das ist ein echter Sprung gegenüber den modular gebauten Robotik-Stacks der 2010er Jahre.

Q: Können VLA-Modelle gehackt werden?

Theoretisch ja. Prompt Injection, wo ein Angreifer dem Roboter über sichtbare Schilder oder gesprochene Sprache eine Anweisung unterjubelt, ist ein reales Forschungsthema. Kommerzielle Modelle haben Sicherheits-Layer wie Whitelists für erlaubte Aufgaben, physikalische Begrenzer und Notabschalter, aber eine vollständig sichere Lösung gibt es noch nicht.

Nr. 42

SCHNELLFAKTEN

VLA = Vision-Language-Action: Modell, das Sehen, Sprache und Bewegung in einem Netzwerk vereint
Helix (Figure AI, Februar 2025): Erstes VLA, das Oberkörper, Hände und Blick gleichzeitig steuert
GR00T N1 (NVIDIA, März 2025): Open-Source-VLA für humanoide Roboter, Dual-System-Architektur
164 VLA-Paper allein bei der ICLR 2026 eingereicht
Dual-System-Idee: schneller Reflex (System 1, ~200 Hz) + langsames Denken (System 2, ~10 Hz)
Größtes Problem: zu wenig Trainingsdaten – Robotik hat kein „Internet der Bewegungen"

Bis vor wenigen Jahren wurden Roboter wie Schweizer Taschenmesser programmiert: Für jede Aufgabe ein eigenes Werkzeug. Tasse greifen? Eigenes Skript. Tür öffnen? Eigenes Skript. Eine Treppe hochsteigen? Hunderte Code-Zeilen mit hand-getunten Parametern. Wer einem Roboter beibringen wollte, eine bisher unbekannte Aufgabe zu erledigen, brauchte ein Team von Ingenieuren und Wochen Zeit.

2025 hat das aufgehört. Der Grund heißt Vision-Language-Action, kurz VLA. Es ist die wichtigste Technologie der humanoiden Robotik in diesem Jahrzehnt. Und sie ist verständlicher, als es klingt.

Was ein VLA-Modell wirklich tut

Ein VLA bekommt drei Sachen rein: Bilder von den Kameras des Roboters, Sprache in Form einer Anweisung („Stell die Tasse in die Spülmaschine"), und Sensordaten über die aktuelle Position der eigenen Glieder. Es spuckt eine Sache aus: Aktionen. Genauer gesagt: Sollwerte für jeden Motor des Roboters – 50, 100 oder mehr Werte pro Sekunde, abhängig vom Modell.

Der entscheidende Punkt: Diese drei Eingaben werden nicht von drei verschiedenen Systemen verarbeitet, die dann irgendwie zusammenkleben. Sie werden gemeinsam in einem einzigen großen neuronalen Netz verarbeitet, das gelernt hat, alle drei in einem gemeinsamen „Bedeutungsraum" zu verstehen. Genau wie ein Sprachmodell wie GPT oder Claude den gemeinsamen Bedeutungsraum aus Wörtern, Programmiersprache und Mathematik gelernt hat – nur dass hier die „Wörter" auch Bilder und Bewegungen sind.

VLA-PIPELINE (VEREINFACHT)

1Wahrnehmung: RGB- und Tiefenkameras liefern Bildstrom (30–60 Hz)

2Anweisung: Sprachprompt wird in Tokens zerlegt

3Propriozeption: Gelenk-Encoder liefern aktuelle Position aller Achsen

4Encoder: Alle drei Quellen werden in denselben Vektorraum projiziert

5Transformer: Vorhersage der nächsten Aktionssequenz

6Decoder: Aktionsvektor wird in Motor-Sollwerte übersetzt

7Low-Level-Controller: 1.000-Hz-Schleife sorgt für stabile Ausführung

Die Dual-System-Idee: Reflex und Nachdenken

Die größte Innovation von 2025/2026 ist nicht, dass VLA-Modelle existieren – die gibt es seit 2023. Die Innovation ist, sie auf zwei Geschwindigkeiten gleichzeitig laufen zu lassen. Der Begriff stammt aus der Psychologie und ist mit Daniel Kahnemans Buch „Schnelles Denken, langsames Denken" verbunden.

SYSTEM 1 · SCHNELL · ~200 Hz

Der Reflex

Ein kleines, schnelles neuronales Netz, das aus dem aktuellen Kamerabild und den Gelenkpositionen direkt die nächste Bewegung vorhersagt. Reagiert in 5 Millisekunden. Kennt keine Sprache, kennt kein Ziel – es sorgt nur dafür, dass der Roboter nicht hinfällt, dass die Tasse in der Hand bleibt, dass die Hand nicht abrutscht. Es ist das, was bei einem Menschen das Rückenmark plus Kleinhirn macht.

SYSTEM 2 · LANGSAM · ~10 Hz

Der Stratege

Ein großes Vision-Language-Modell, das die Sprache der Anweisung versteht („Räume die Spülmaschine aus"), die Szene interpretiert („Die Tasse steht oben rechts, der Schrank ist links offen") und alle paar hundert Millisekunden eine neue Sub-Strategie an System 1 weiterreicht. Es plant, was als Nächstes geschieht. Es kann irren – aber es korrigiert sich, weil es regelmäßig neu schaut.

Die beiden Systeme reden ständig miteinander. System 2 sagt: „Greif jetzt nach der Tasse." System 1 wird konkret: „Bewege Schultergelenk +3°, Ellenbogen +1,5°, Handgelenk +0,8°, schließe Finger 1, 2 und 4 zu 70%." Wenn die Tasse verrutscht, korrigiert System 1 in 5 Millisekunden – ohne System 2 zu fragen. Wenn die Tasse gar nicht da ist, wo erwartet, schaltet System 2 in 100 Millisekunden auf Plan B um.

Das ist exakt das Architektur-Muster, das Helix von Figure und GR00T N1 von NVIDIA verwenden – und auf das so gut wie alle ernsthaften Wettbewerber 2026 zurückgreifen.

„Die Roboter, die wir vor zwei Jahren gebaut haben, hatten Reflexe wie ein Boxer. Aber sie waren blind. Heute sind sie Boxer, die das Spielfeld lesen."

— sinngemäß aus einem Figure-Engineering-Blogpost zu Helix

Warum das so unglaublich schwer war (und teilweise immer noch ist)

1. Daten, Daten, Daten

Sprachmodelle sind groß geworden, weil das Internet voll von Text ist. Bildmodelle sind groß geworden, weil das Internet voll von beschrifteten Bildern ist. Robotik hat kein Internet. Wer einen Roboter trainieren will, eine Tasse zu greifen, muss Tausende Demonstrationen aufzeichnen – oder eine Simulation bauen, die so realistisch ist, dass das Gelernte auch in der Realität funktioniert (das berühmte „Sim-to-Real"-Problem).

Die größten Datensätze 2026 haben in der Größenordnung von 10 Millionen Roboter-Demonstrationen. Klingt viel, ist aber im Vergleich zu den Trillionen Tokens eines Sprachmodells lächerlich wenig. Das ist der Hauptgrund, warum VLA-Modelle in unbekannten Umgebungen noch immer wackeln.

2. Echtzeit ist hart

Ein großes Modell wie GPT-4 braucht für eine Antwort hunderte Millisekunden. Ein Roboter, der hinfällt, hat 50 Millisekunden, um seinen Sturz abzufangen. Diese Diskrepanz ist genau der Grund, warum man die Dual-System-Idee braucht: Das große Modell läuft nur so oft, wie es muss, und das schnelle Modell hält den Körper aufrecht.

3. Kein „Vergessen" möglich

Wenn ein Sprachmodell halluziniert, lacht der Nutzer. Wenn ein Roboter halluziniert, fällt eine Vase auf den Boden. Die Konsequenzen jedes einzelnen Aktionsschritts sind irreversibel. Das macht das Training brutal: Das Modell muss nicht nur richtig denken, sondern auch sein eigenes Vertrauen einschätzen können – „Ich greife, weil ich sicher bin" versus „Ich gucke nochmal, weil ich nicht sicher bin".

Helix vs. GR00T N1 vs. WholebodyVLA

Drei Modelle prägen 2026 die Diskussion. Sie unterscheiden sich nicht in der grundsätzlichen Idee, aber in Fokus und Verfügbarkeit.

Modell	Hersteller	Lizenz	Dual-System	Status 2026	Stärke
Helix	Figure AI	Closed Source	Ja	Produktiv (BMW, Amazon)	Industrielle Zuverlässigkeit, Ganzkörper-Steuerung
GR00T N1	NVIDIA	Open Source	Ja	Plattform für Branche	Ökosystem, Toolchain, Community
WholebodyVLA	OpenDriveLab	Open Source	Ja (latent)	Forschung (ICLR 2026)	Gehen + Greifen gleichzeitig (Loco-Manipulation)

Helix (Figure AI)

Das erste produktive VLA, das den gesamten Oberkörper – inklusive einzelner Finger, Kopfblick und Rumpfhaltung – mit hoher Frequenz steuert. Closed Source, läuft auf den Figure-02- und Figure-03-Robotern. Trainiert auf hauseigenen BMW- und Logistik-Daten. Stärke: industrielle Zuverlässigkeit. Schwäche: nicht erforschbar, nicht erweiterbar.

GR00T N1 (NVIDIA)

Open-Source, Dual-System, von NVIDIA als Plattform für die ganze Branche gedacht. Funktioniert mit jedem humanoiden Roboter, der die richtige API spricht. Stärke: Ökosystem, Toolchain, Community. Schwäche: nicht so optimiert wie ein vom Hersteller selbst gebautes Modell. Wird vor allem von chinesischen Startups (Unitree, AgiBot, UBTech) als Basis genutzt.

WholebodyVLA (OpenDriveLab, ICLR 2026)

Akademisches Modell, das einen latenten Aktionsraum für den ganzen Körper lernt – also für Loco-Manipulation, Gehen plus Greifen gleichzeitig. Stärke: theoretisch eleganter, weniger Modellierungs-Annahmen. Schwäche: noch keine echte Produkterprobung.

Was VLA-Modelle 2026 noch nicht können

Lange Aufgaben mit mehreren Sub-Schritten („Koche Pasta") brechen häufig in der Mitte ab, weil das Modell den Kontext verliert
Werkzeuge handhaben, die im Training nicht vorkamen – ein Schraubenzieher mit ungewohnter Form überfordert die Generalisierung
Soziale Interaktion: Wann ein Mensch fragen würde („Soll ich das Glas hier oder dort hinstellen?"), entscheidet ein VLA stumm – meistens falsch
Verhandlungen mit der Physik: Wenn ein Objekt schwerer ist als erwartet, reagiert das Modell träge
Lebenslang lernen: Aktuelle Modelle vergessen ihre Fabrik-Aufgaben, wenn man sie zu Hause umtrainiert

Das letzte Problem ist besonders ungelöst: Ein humanoider Roboter, der dir bei deinem konkreten Wohnzimmer-Layout helfen soll, müsste sich an deine Wohnung anpassen, ohne das Grundwissen aus der Fabrik-Trainingsphase zu verlieren. Das nennt man „kontinuierliches Lernen", und es ist eine offene Forschungsfrage.

Wo VLA-Modelle in 5 Jahren stehen werden

Die Lücke zwischen heute und einem voll alltagstauglichen Roboter ist im Wesentlichen eine Datenlücke, kein Modellierungsproblem. Die Architektur funktioniert. Was fehlt, sind Trainingsdaten in der Größenordnung, in der wir Sprachmodelle trainieren.

Drei Trends werden das ändern:

Synthetische Daten: NVIDIA, Google DeepMind und andere bauen Sim-Engines, die Milliarden Trainings-Episoden erzeugen können
Crowd-Sourcing: Frühe Heim-Roboter wie 1X Neo werden – mit Zustimmung der Käufer – Daten zurück an den Hersteller liefern
Foundation Models: Genauso wie ein Sprachmodell-Backbone heute jede Sprach-Aufgabe lösen kann, wird ein Robot-Foundation-Model 2030 jede Manipulation lösen können

Wenn das gelingt, ist der humanoide Roboter im Jahr 2030 nicht mehr ein Spezialgerät für Fabriken, sondern ein Allzweck-Assistent. Wenn nicht, bleibt er ein extrem teurer, sehr beeindruckender Werkstatt-Helfer. Wir haben die Prognosen für die nächsten Jahre detailliert aufgeschrieben.

Die kurze Antwort für den eiligen Leser

Ein VLA-Modell ist das, was passiert, wenn man die Architektur eines Sprachmodells (Transformer) so umbaut, dass sie nicht nur Text als Eingabe und Text als Ausgabe versteht, sondern Bilder, Sprache und Körperzustände als Eingabe – und Motor-Befehle als Ausgabe. Es macht die Robotik zum ersten Mal so generalisierbar wie die Sprach-KI. Und es ist 2026 der Hauptgrund, warum humanoide Roboter plötzlich nicht mehr so dumm wirken.

Häufige Fragen

Brauche ich für ein VLA-Modell ein Rechenzentrum?

Zum Trainieren: ja, große GPU-Cluster. Zum Ausführen: nein. Helix und GR00T N1 laufen auf einem einzigen NVIDIA Jetson AGX Orin oder vergleichbarer Hardware direkt im Roboter. Das System 1 ist klein genug, um lokal zu laufen; das System 2 läuft entweder ebenfalls lokal (kleinere Modelle) oder über eine niedrige-Latenz-Cloud-Verbindung.

Sind VLA-Modelle wirklich neu, oder ist das nur Marketing?

Die zugrundeliegenden Bausteine (Transformer, Vision-Encoder, Diffusion-Heads) sind seit Jahren bekannt. Neu ist die Kombination zu einer durchgängigen, Ende-zu-Ende-trainierten Pipeline, die in Echtzeit auf einer realen Maschine läuft. Das ist ein echter Sprung gegenüber den modular gebauten Robotik-Stacks der 2010er Jahre.

Können VLA-Modelle gehackt werden?

Theoretisch ja, und das ist ein offenes Sicherheitsthema. „Prompt Injection" – wo ein Angreifer dem Roboter über sichtbare Schilder oder gesprochene Sprache eine Anweisung unterjubelt – ist ein realer Forschungs-Schwerpunkt. Die meisten kommerziellen Modelle haben heute mehrere Sicherheits-Layer (Whitelists für erlaubte Aufgaben, physikalische Begrenzer, menschliche Notabschalter), aber eine wirklich harte Lösung gibt es noch nicht.