Physical AI: Die unsichtbare Revolution, die Roboter intelligent macht

Nr. 36

SCHNELLFAKTEN

Google DeepMind: Gemini Robotics – Vision-Language-Action (VLA) Modell auf Basis von Gemini 2.0
NVIDIA: GR00T N1.6 VLA-Modell, Cosmos World Models, Isaac Lab-Arena, neuer Jetson T4000 (4x Effizienz)
Neura Robotics + TU München: RoboGym – EUR 17 Mio. Trainingszentrum für Physical AI
Konzept: Cross-Embodiment Transfer – ein Modell, trainiert auf vielen Robotertypen, deploybar auf neuen Plattformen
Partner DeepMind: Boston Dynamics (Atlas), Apptronik (Apollo), Agile Robots (Deutschland)
Jensen Huang (NVIDIA CES 2026): "Jedes Industrieunternehmen wird ein Robotik-Unternehmen"
Deloitte Tech Trends 2026: Physical AI als Top-Trend eingestuft

Was Physical AI ist – und warum es alles ändert

Der Begriff klingt abstrakt, meint aber etwas sehr Konkretes: Physical AI beschreibt KI-Systeme, die nicht nur in digitalen Umgebungen agieren, sondern in der physischen Welt handeln. Foundation Models für Roboter. Der Layer zwischen Hardware und Intelligenz.

Bisher wurden Roboter programmiert. Jede Bewegung, jede Greifsequenz, jeder Pfad: manuell definiert oder über klassische Planungsalgorithmen berechnet. Das funktioniert in kontrollierten Umgebungen wie Autofabriken. Es scheitert in dem Moment, in dem ein Objekt anders liegt als erwartet, ein Hindernis auftaucht oder eine Aufgabe variiert.

Physical AI ersetzt diesen starren Ansatz durch Foundation Models, die aus Daten lernen. Die Roboter sehen (Computer Vision), verstehen Kontext (Language Models) und leiten daraus Handlungen ab (Action Models). Sehen, denken, handeln – in einem einzigen Modell. Das ist der Kern der sogenannten Vision-Language-Action-Modelle (VLA), die 2025/26 zum dominierenden Paradigma in der Robotik geworden sind.

Deloitte hat Physical AI in den Tech Trends 2026 als einen der definierenden Technologietrends eingestuft. Der Grund: Die Konvergenz aus leistungsfähiger Hardware, riesigen Trainingsdatenmengen und skalierbaren KI-Architekturen hat eine Schwelle überschritten. Was jahrelang Laborforschung war, wird jetzt industriefähig.

Google Gemini Robotics: Sehen, denken, handeln

Google DeepMind hat mit Gemini Robotics das ambitionierteste VLA-Modell der Branche vorgestellt. Es basiert auf Gemini 2.0, Googles multimodalem Foundation Model, und wurde speziell für die Steuerung physischer Roboter erweitert.

Das Prinzip: Gemini Robotics nimmt Kameradaten auf, versteht die Szene semantisch (was ist ein Tisch, was ist ein Werkstück, was ist ein Hindernis) und generiert daraus direkt Motorkommandos. Kein separater Perception-Stack, kein handgebauter Planner. End-to-End: vom Pixel zur Aktion.

DeepMind testet das Modell nicht allein. Die Partnerstruktur ist bemerkenswert: Boston Dynamics liefert den Atlas-Plattform, Apptronik den Apollo-Humanoid, Agile Robots aus Deutschland bringt industrielle Manipulatoren. Drei sehr unterschiedliche Robotertypen – gesteuert von derselben KI-Architektur. Das ist kein Zufall, sondern Strategie: Google will beweisen, dass ein Modell auf verschiedenen Körpern funktioniert.

Die Implikation ist erheblich. Wenn ein einzelnes Foundation Model auf Atlas, Apollo und einem Industriearm gleichermaßen funktioniert, braucht nicht mehr jeder Roboterhersteller seine eigene KI-Abteilung. Google positioniert sich als Betriebssystem der Robotik – ähnlich wie Android das für Smartphones war.

NVIDIA: Das Ökosystem hinter den Modellen

Während Google das Modell baut, baut NVIDIA die gesamte Infrastruktur drum herum. Der Ansatz ist umfassender und in der Summe möglicherweise wirkungsvoller.

Das Kernprodukt heißt GR00T N1.6 – ein VLA-Modell, das NVIDIA als Open Foundation Model für humanoide Roboter positioniert. N1.6 kann Sprachbefehle verstehen, visuelle Szenen interpretieren und daraus Gelenkbewegungen ableiten. Das Modell ist bewusst offen gehalten: Roboterhersteller können es auf ihrer Hardware deployen, anpassen, feintunen.

Jensen Huang nennt GR00T das "Android der Robotik". Die Analogie ist durchdacht: Android wurde nicht deshalb dominant, weil es das beste mobile OS war, sondern weil es kostenlos, offen und auf jeder Hardware lauffähig war. GR00T verfolgt dieselbe Strategie.

Aber GR00T ist nur eine Komponente. NVIDIAs Ökosystem umfasst drei weitere Schlüsseltechnologien:

Cosmos World Models: Simulierte Weltmodelle, in denen Roboter trainieren, bevor sie in die reale Welt gehen. Cosmos generiert fotorealistische 3D-Szenarien aus Text – Millionen synthetischer Trainingssituationen, die in der Realität Monate dauern würden
Isaac Lab-Arena: Die Trainingsplattform, in der VLA-Modelle in simulierten Umgebungen lernen. Isaac beschleunigt das Training um Faktor 100 gegenüber realer Datensammlung – und ist GPU-optimiert für NVIDIAs eigene Hardware
Jetson T4000: Der neue Edge-Chip für Roboter. 4x effizienter als der Vorgänger, optimiert für Inferenz von Foundation Models direkt auf dem Roboter. Kein Cloud-Roundtrip, keine Latenz, Echtzeit-Entscheidungen

Die Strategie ist klar: NVIDIA will nicht den Roboter bauen. NVIDIA will die Plattform sein, ohne die kein Roboter intelligent wird. Simulation, Training, Inferenz, Hardware – alles aus einer Hand. Wer einen intelligenten Roboter bauen will, kommt an NVIDIA kaum vorbei.

"Every industrial company will become a robotics company. Physical AI is the next frontier of artificial intelligence."

— Jensen Huang, CEO NVIDIA, CES 2026

Cross-Embodiment: Der eigentliche Durchbruch

In der klassischen Robotik ist jedes Programm an einen bestimmten Roboter gebunden. Der Code für einen KUKA-Industriearm funktioniert nicht auf einem Boston Dynamics Atlas. Die Software ist an den Körper gekoppelt.

Cross-Embodiment Transfer bricht dieses Paradigma. Das Konzept: Ein KI-Modell wird auf Daten von vielen verschiedenen Robotertypen trainiert – Arme, Humanoide, Vierbeinern, mobile Plattformen. Es lernt nicht spezifische Motorkommandos für einen Körper, sondern allgemeine Prinzipien physischer Interaktion: wie man greift, navigiert, Hindernissen ausweicht, Objekte manipuliert.

Das Ergebnis: Ein solches Modell kann auf einem Roboter deployt werden, den es nie zuvor gesehen hat. Es muss nur die kinematische Struktur kennen (welche Gelenke, welche Freiheitsgrade) und kann dann generalisieren. Genau das demonstrieren Google und NVIDIA mit ihren Partnerschaftsprogrammen.

Warum das revolutionär ist: Bisher musste jeder Roboterhersteller seine eigene KI von Grund auf entwickeln und trainieren. Das dauert Jahre und kostet Hunderte Millionen. Cross-Embodiment bedeutet, dass ein Startup einen neuen Roboter bauen und ein bestehendes Foundation Model darauf deployen kann. Die Eintrittsbarriere in die intelligente Robotik sinkt dramatisch.

RoboGym München: Europas Antwort

Während Google und NVIDIA aus dem Silicon Valley operieren, entsteht in München ein europäisches Gegengewicht. Neura Robotics, das Stuttgarter Unternehmen hinter dem kognitiven Humanoid 4NE-1, hat gemeinsam mit der Technischen Universität München das RoboGym eröffnet: ein Trainingszentrum für Physical AI, finanziert mit 17 Millionen Euro.

Das RoboGym adressiert ein Problem, das alle VLA-Modelle haben: Trainingsdaten. Foundation Models für Sprache konnten auf dem gesamten Internet trainiert werden. Foundation Models für Roboter brauchen physische Interaktionsdaten – Roboter, die Objekte greifen, Türen öffnen, Werkzeuge benutzen. Diese Daten existieren nicht in ausreichender Menge.

Die Lösung: Ein physisches Labor, in dem dutzende Roboter parallel Aufgaben ausführen und dabei Daten generieren. Kombiniert mit synthetischen Daten aus Simulationen entsteht ein Datensatz, der europäischen Forschern und Unternehmen zur Verfügung steht.

17 Millionen Euro klingen nach wenig gegenüber den Milliarden von Google und NVIDIA. Aber RoboGym hat einen strategischen Vorteil: Die Nähe zur europäischen Industrie. Deutsche Automobilhersteller, Maschinenbauer und Logistikunternehmen brauchen Physical AI, die auf ihre spezifischen Anforderungen trainiert ist. RoboGym liefert die Daten dafür.

Warum Physical AI der Bottleneck war

Rückblick: Seit den 2010er-Jahren hat die Robotik-Hardware massive Fortschritte gemacht. Hydraulische Antriebe wurden durch effiziente Elektromotoren ersetzt. Sensoren wurden billiger und präziser. Batterien leistungsfähiger. Die mechanischen Voraussetzungen für leistungsfähige Roboter waren gegeben.

Was fehlte, war die Intelligenz. Oder genauer: die Fähigkeit, aus unstrukturierten Situationen die richtige Handlung abzuleiten. Ein Roboter konnte einen Gegenstand greifen, wenn Position, Orientierung und Gewicht exakt bekannt waren. Lag das Objekt 3 cm weiter links, schlug der Griff fehl.

Physical AI löst genau dieses Problem. VLA-Modelle generalisieren über Situationen hinweg. Sie haben tausende Greifvorgänge gesehen und können daraus ableiten, wie man ein unbekanntes Objekt in einer unbekannten Position greift. Die Hardware war bereit. Die Software hat aufgeholt.

Das erklärt, warum 2025/26 ein Wendepunkt ist. Nicht weil ein einzelner Durchbruch stattgefunden hat, sondern weil drei Entwicklungen konvergieren: Erstens sind Foundation Models leistungsfähig genug für Echtzeit-Inferenz geworden. Zweitens hat Simulationstechnologie (Cosmos, Isaac) die Datenknappheit entschärft. Drittens sind Edge-Chips (Jetson T4000) effizient genug, um diese Modelle auf dem Roboter selbst laufen zu lassen.

Die Implikation: Hardware wird zur Commodity

Das ist die These, die die Branche nervös macht: Wenn Physical AI der entscheidende Differenzierungsfaktor wird, dann wird die Hardware austauschbar. Ein Roboterkörper ist dann nur noch der Container für das KI-Modell – ähnlich wie ein Smartphone nur noch der Container für das Betriebssystem und die Apps ist.

Die Parallele zu Smartphones ist aufschlussreich. Samsung, Xiaomi, Oppo – sie alle bauen Hardware. Aber der Wert liegt im Ökosystem: Android, Google Play, Apps. Die Hardwarehersteller konkurrieren über Preis und Formfaktor, nicht über grundlegende Funktionalität.

Übertragen auf die Robotik: Wenn GR00T oder Gemini Robotics als Foundation Models breit verfügbar werden, dann konkurrieren Roboterhersteller primär über Mechanik, Preis und Formfaktor. Die Intelligenz kommt vom Plattformanbieter. Wer dann noch ohne eigenes KI-Ökosystem nur Hardware baut, wird zum Auftragsfertiger.

Gewinner dieses Szenarios: Google und NVIDIA als Plattformen. Verlierer: Roboterhersteller, die weder eigene Foundation Models noch eine strategische Partnerschaft mit einem Plattformanbieter haben. Die Konsolidierung der Branche hat begonnen.

Häufige Fragen

Was ist der Unterschied zwischen Physical AI und klassischer Robotik-Software?

Klassische Robotik-Software basiert auf expliziter Programmierung: Jeder Bewegungsablauf wird manuell definiert oder über regelbasierte Algorithmen berechnet. Physical AI nutzt Foundation Models, die aus Daten lernen und auf neue Situationen generalisieren können. Der Roboter muss nicht für jede Situation programmiert werden, sondern leitet die richtige Handlung selbstständig ab.

Braucht jeder Roboter sein eigenes KI-Modell?

Nein, und genau das ist der Durchbruch von Cross-Embodiment Transfer. Ein Foundation Model kann auf verschiedenen Robotertypen funktionieren, solange es die kinematische Struktur des jeweiligen Roboters kennt. Google demonstriert das bereits mit Gemini Robotics auf Atlas, Apollo und Agile-Robots-Systemen. Langfristig wird ein Modell auf dutzende Plattformen deploybar sein.

Wie weit ist Europa bei Physical AI im Vergleich zu den USA?

Europa liegt bei Foundation Models hinter den USA zurück. Google und NVIDIA haben Milliarden in die Entwicklung investiert. Aber Europa hat Stärken in der angewandten Robotik und Industrieintegration. Projekte wie RoboGym (Neura Robotics + TU München) und Unternehmen wie Agile Robots zeigen, dass Europa den Anschluss sucht. Entscheidend wird sein, ob europäische Akteure eigene Trainingsdaten und spezialisierte Modelle entwickeln.