TECHNIK · 9 Min. Lesezeit

Wie Roboter denken lernen: VLA-Modelle einfach erklärt

Wenn ein Figure-Roboter dir den Kaffee bringt, einen Atlas Kisten in einer Hyundai-Fabrik stapelt oder ein Unitree G1 sich auf einer Bühne durch eine Choreografie tanzt – dahinter steckt dieselbe Idee: ein Vision-Language-Action-Modell. Wir zerlegen, was das ist, warum es funktioniert, und warum dein Roboter trotzdem manchmal gegen einen Tisch läuft.

RZ
TheRoboAge Team
Redaktion · 4. Mai 2026
Nr. 42

SCHNELLFAKTEN

  • VLA = Vision-Language-Action: Modell, das Sehen, Sprache und Bewegung in einem Netzwerk vereint
  • Helix (Figure AI, Februar 2025): Erstes VLA, das Oberkörper, Hände und Blick gleichzeitig steuert
  • GR00T N1 (NVIDIA, März 2025): Open-Source-VLA für humanoide Roboter, Dual-System-Architektur
  • 164 VLA-Paper allein bei der ICLR 2026 eingereicht
  • Dual-System-Idee: schneller Reflex (System 1, ~200 Hz) + langsames Denken (System 2, ~10 Hz)
  • Größtes Problem: zu wenig Trainingsdaten – Robotik hat kein „Internet der Bewegungen"

Bis vor wenigen Jahren wurden Roboter wie Schweizer Taschenmesser programmiert: Für jede Aufgabe ein eigenes Werkzeug. Tasse greifen? Eigenes Skript. Tür öffnen? Eigenes Skript. Eine Treppe hochsteigen? Hunderte Code-Zeilen mit hand-getunten Parametern. Wer einem Roboter beibringen wollte, eine bisher unbekannte Aufgabe zu erledigen, brauchte ein Team von Ingenieuren und Wochen Zeit.

2025 hat das aufgehört. Der Grund heißt Vision-Language-Action, kurz VLA. Es ist die wichtigste Technologie der humanoiden Robotik in diesem Jahrzehnt. Und sie ist verständlicher, als es klingt.

Was ein VLA-Modell wirklich tut

Ein VLA bekommt drei Sachen rein: Bilder von den Kameras des Roboters, Sprache in Form einer Anweisung („Stell die Tasse in die Spülmaschine"), und Sensordaten über die aktuelle Position der eigenen Glieder. Es spuckt eine Sache aus: Aktionen. Genauer gesagt: Sollwerte für jeden Motor des Roboters – 50, 100 oder mehr Werte pro Sekunde, abhängig vom Modell.

Der entscheidende Punkt: Diese drei Eingaben werden nicht von drei verschiedenen Systemen verarbeitet, die dann irgendwie zusammenkleben. Sie werden gemeinsam in einem einzigen großen neuronalen Netz verarbeitet, das gelernt hat, alle drei in einem gemeinsamen „Bedeutungsraum" zu verstehen. Genau wie ein Sprachmodell wie GPT oder Claude den gemeinsamen Bedeutungsraum aus Wörtern, Programmiersprache und Mathematik gelernt hat – nur dass hier die „Wörter" auch Bilder und Bewegungen sind.

VLA-PIPELINE (VEREINFACHT)

1Wahrnehmung: RGB- und Tiefenkameras liefern Bildstrom (30–60 Hz)
2Anweisung: Sprachprompt wird in Tokens zerlegt
3Propriozeption: Gelenk-Encoder liefern aktuelle Position aller Achsen
4Encoder: Alle drei Quellen werden in denselben Vektorraum projiziert
5Transformer: Vorhersage der nächsten Aktionssequenz
6Decoder: Aktionsvektor wird in Motor-Sollwerte übersetzt
7Low-Level-Controller: 1.000-Hz-Schleife sorgt für stabile Ausführung

Die Dual-System-Idee: Reflex und Nachdenken

Die größte Innovation von 2025/2026 ist nicht, dass VLA-Modelle existieren – die gibt es seit 2023. Die Innovation ist, sie auf zwei Geschwindigkeiten gleichzeitig laufen zu lassen. Der Begriff stammt aus der Psychologie und ist mit Daniel Kahnemans Buch „Schnelles Denken, langsames Denken" verbunden.

SYSTEM 1 · SCHNELL · ~200 Hz

Der Reflex

Ein kleines, schnelles neuronales Netz, das aus dem aktuellen Kamerabild und den Gelenkpositionen direkt die nächste Bewegung vorhersagt. Reagiert in 5 Millisekunden. Kennt keine Sprache, kennt kein Ziel – es sorgt nur dafür, dass der Roboter nicht hinfällt, dass die Tasse in der Hand bleibt, dass die Hand nicht abrutscht. Es ist das, was bei einem Menschen das Rückenmark plus Kleinhirn macht.

SYSTEM 2 · LANGSAM · ~10 Hz

Der Stratege

Ein großes Vision-Language-Modell, das die Sprache der Anweisung versteht („Räume die Spülmaschine aus"), die Szene interpretiert („Die Tasse steht oben rechts, der Schrank ist links offen") und alle paar hundert Millisekunden eine neue Sub-Strategie an System 1 weiterreicht. Es plant, was als Nächstes geschieht. Es kann irren – aber es korrigiert sich, weil es regelmäßig neu schaut.

Die beiden Systeme reden ständig miteinander. System 2 sagt: „Greif jetzt nach der Tasse." System 1 wird konkret: „Bewege Schultergelenk +3°, Ellenbogen +1,5°, Handgelenk +0,8°, schließe Finger 1, 2 und 4 zu 70%." Wenn die Tasse verrutscht, korrigiert System 1 in 5 Millisekunden – ohne System 2 zu fragen. Wenn die Tasse gar nicht da ist, wo erwartet, schaltet System 2 in 100 Millisekunden auf Plan B um.

Das ist exakt das Architektur-Muster, das Helix von Figure und GR00T N1 von NVIDIA verwenden – und auf das so gut wie alle ernsthaften Wettbewerber 2026 zurückgreifen.

„Die Roboter, die wir vor zwei Jahren gebaut haben, hatten Reflexe wie ein Boxer. Aber sie waren blind. Heute sind sie Boxer, die das Spielfeld lesen."

— sinngemäß aus einem Figure-Engineering-Blogpost zu Helix

Warum das so unglaublich schwer war (und teilweise immer noch ist)

1. Daten, Daten, Daten

Sprachmodelle sind groß geworden, weil das Internet voll von Text ist. Bildmodelle sind groß geworden, weil das Internet voll von beschrifteten Bildern ist. Robotik hat kein Internet. Wer einen Roboter trainieren will, eine Tasse zu greifen, muss Tausende Demonstrationen aufzeichnen – oder eine Simulation bauen, die so realistisch ist, dass das Gelernte auch in der Realität funktioniert (das berühmte „Sim-to-Real"-Problem).

Die größten Datensätze 2026 haben in der Größenordnung von 10 Millionen Roboter-Demonstrationen. Klingt viel, ist aber im Vergleich zu den Trillionen Tokens eines Sprachmodells lächerlich wenig. Das ist der Hauptgrund, warum VLA-Modelle in unbekannten Umgebungen noch immer wackeln.

2. Echtzeit ist hart

Ein großes Modell wie GPT-4 braucht für eine Antwort hunderte Millisekunden. Ein Roboter, der hinfällt, hat 50 Millisekunden, um seinen Sturz abzufangen. Diese Diskrepanz ist genau der Grund, warum man die Dual-System-Idee braucht: Das große Modell läuft nur so oft, wie es muss, und das schnelle Modell hält den Körper aufrecht.

3. Kein „Vergessen" möglich

Wenn ein Sprachmodell halluziniert, lacht der Nutzer. Wenn ein Roboter halluziniert, fällt eine Vase auf den Boden. Die Konsequenzen jedes einzelnen Aktionsschritts sind irreversibel. Das macht das Training brutal: Das Modell muss nicht nur richtig denken, sondern auch sein eigenes Vertrauen einschätzen können – „Ich greife, weil ich sicher bin" versus „Ich gucke nochmal, weil ich nicht sicher bin".

Helix vs. GR00T N1 vs. WholebodyVLA

Drei Modelle prägen 2026 die Diskussion. Sie unterscheiden sich nicht in der grundsätzlichen Idee, aber in Fokus und Verfügbarkeit.

Modell Hersteller Lizenz Dual-System Status 2026 Stärke
Helix Figure AI Closed Source Ja Produktiv (BMW, Amazon) Industrielle Zuverlässigkeit, Ganzkörper-Steuerung
GR00T N1 NVIDIA Open Source Ja Plattform für Branche Ökosystem, Toolchain, Community
WholebodyVLA OpenDriveLab Open Source Ja (latent) Forschung (ICLR 2026) Gehen + Greifen gleichzeitig (Loco-Manipulation)

Helix (Figure AI)

Das erste produktive VLA, das den gesamten Oberkörper – inklusive einzelner Finger, Kopfblick und Rumpfhaltung – mit hoher Frequenz steuert. Closed Source, läuft auf den Figure-02- und Figure-03-Robotern. Trainiert auf hauseigenen BMW- und Logistik-Daten. Stärke: industrielle Zuverlässigkeit. Schwäche: nicht erforschbar, nicht erweiterbar.

GR00T N1 (NVIDIA)

Open-Source, Dual-System, von NVIDIA als Plattform für die ganze Branche gedacht. Funktioniert mit jedem humanoiden Roboter, der die richtige API spricht. Stärke: Ökosystem, Toolchain, Community. Schwäche: nicht so optimiert wie ein vom Hersteller selbst gebautes Modell. Wird vor allem von chinesischen Startups (Unitree, AgiBot, UBTech) als Basis genutzt.

WholebodyVLA (OpenDriveLab, ICLR 2026)

Akademisches Modell, das einen latenten Aktionsraum für den ganzen Körper lernt – also für Loco-Manipulation, Gehen plus Greifen gleichzeitig. Stärke: theoretisch eleganter, weniger Modellierungs-Annahmen. Schwäche: noch keine echte Produkterprobung.

Was VLA-Modelle 2026 noch nicht können

Das letzte Problem ist besonders ungelöst: Ein humanoider Roboter, der dir bei deinem konkreten Wohnzimmer-Layout helfen soll, müsste sich an deine Wohnung anpassen, ohne das Grundwissen aus der Fabrik-Trainingsphase zu verlieren. Das nennt man „kontinuierliches Lernen", und es ist eine offene Forschungsfrage.

Wo VLA-Modelle in 5 Jahren stehen werden

Die Lücke zwischen heute und einem voll alltagstauglichen Roboter ist im Wesentlichen eine Datenlücke, kein Modellierungsproblem. Die Architektur funktioniert. Was fehlt, sind Trainingsdaten in der Größenordnung, in der wir Sprachmodelle trainieren.

Drei Trends werden das ändern:

Wenn das gelingt, ist der humanoide Roboter im Jahr 2030 nicht mehr ein Spezialgerät für Fabriken, sondern ein Allzweck-Assistent. Wenn nicht, bleibt er ein extrem teurer, sehr beeindruckender Werkstatt-Helfer. Wir haben die Prognosen für die nächsten Jahre detailliert aufgeschrieben.

Die kurze Antwort für den eiligen Leser

Ein VLA-Modell ist das, was passiert, wenn man die Architektur eines Sprachmodells (Transformer) so umbaut, dass sie nicht nur Text als Eingabe und Text als Ausgabe versteht, sondern Bilder, Sprache und Körperzustände als Eingabe – und Motor-Befehle als Ausgabe. Es macht die Robotik zum ersten Mal so generalisierbar wie die Sprach-KI. Und es ist 2026 der Hauptgrund, warum humanoide Roboter plötzlich nicht mehr so dumm wirken.

Häufige Fragen

Brauche ich für ein VLA-Modell ein Rechenzentrum?

Zum Trainieren: ja, große GPU-Cluster. Zum Ausführen: nein. Helix und GR00T N1 laufen auf einem einzigen NVIDIA Jetson AGX Orin oder vergleichbarer Hardware direkt im Roboter. Das System 1 ist klein genug, um lokal zu laufen; das System 2 läuft entweder ebenfalls lokal (kleinere Modelle) oder über eine niedrige-Latenz-Cloud-Verbindung.

Sind VLA-Modelle wirklich neu, oder ist das nur Marketing?

Die zugrundeliegenden Bausteine (Transformer, Vision-Encoder, Diffusion-Heads) sind seit Jahren bekannt. Neu ist die Kombination zu einer durchgängigen, Ende-zu-Ende-trainierten Pipeline, die in Echtzeit auf einer realen Maschine läuft. Das ist ein echter Sprung gegenüber den modular gebauten Robotik-Stacks der 2010er Jahre.

Können VLA-Modelle gehackt werden?

Theoretisch ja, und das ist ein offenes Sicherheitsthema. „Prompt Injection" – wo ein Angreifer dem Roboter über sichtbare Schilder oder gesprochene Sprache eine Anweisung unterjubelt – ist ein realer Forschungs-Schwerpunkt. Die meisten kommerziellen Modelle haben heute mehrere Sicherheits-Layer (Whitelists für erlaubte Aufgaben, physikalische Begrenzer, menschliche Notabschalter), aber eine wirklich harte Lösung gibt es noch nicht.

Verwandte Artikel

Kein Artikel verpassen

Erhalte jeden Montag und Donnerstag die neuesten Artikel direkt in dein Postfach.