2 Stunden her
RoboSpatial stärkt das räumliche Verständnis von Robotern – vorgestellt auf der CVPR 2025
Roboter tun sich häufig schwer damit, ihre Umgebung präzise zu interpretieren. Ein Forschungsteam um Luke Song von der Ohio State University stellt mit RoboSpatial ein Datenset vor, das genau hier ansetzt. Die Arbeit wurde auf der CVPR 2025 präsentiert und in den Proceedings veröffentlicht. Ziel ist es, räumliche Zusammenhänge robuster zu erfassen und die Grundlage für natürlichere Interaktionen zwischen Mensch und Maschine zu legen.
RoboSpatial bietet eine breite Abdeckung realer Szenen: über eine Million Indoor- und Tabletop-Fotos, tausende hochauflösende 3D-Scans und rund 3 Millionen Labels mit feingranularen räumlichen Informationen. Kern des Ansatzes ist die Verknüpfung egocentrischer 2D-Sichten mit vollständigen 3D-Rekonstruktionen derselben Umgebung. Dadurch können Modelle Objekte sowohl über flache visuelle Hinweise als auch über die zugrunde liegende Geometrie verorten.
In Evaluierungen übertrafen mit RoboSpatial trainierte Modelle Referenzansätze auf denselben Aufgaben. Getestet wurden unter anderem das Umordnen von Gegenständen und die Übertragung des Gelernten auf bislang unbekannte Szenarien. Die Ergebnisse deuten darauf hin, dass ein konsistenter räumlicher Kontext entscheidend ist, um Stabilität und Genauigkeit bei Manipulationsaufgaben zu erhöhen.
Praktische Beispiele umfassen Ja-Nein-Fragen zur Szene, etwa ob ein Stuhl vor einen Tisch passt oder ob eine Tasse links von einem Laptop liegt. Auf Plattformseite kam unter anderem der Assistenzarm Kinova Jaco zum Einsatz. Im Vergleich zu herkömmlichen Datensätzen, die oft nur Objektklassen abbilden, erlaubt RoboSpatial das präzisere Ableiten von Positionen, Relationen und geeigneten Ablagepunkten.
Das Team sieht in standardisiertem räumlichem Kontext eine Basis für sicherere und verlässlichere Robotersysteme. Offene Fragen betreffen die Skalierung auf weitere Domänen, das Zusammenspiel mit Sprache und die Evaluierung in dynamischen, unstrukturierten Umgebungen. Die vorgestellten Ergebnisse liefern dafür eine belastbare Grundlage und eröffnen Perspektiven für Assistenz-, Service- und kollaborative Robotik.
RoboSpatial bietet eine breite Abdeckung realer Szenen: über eine Million Indoor- und Tabletop-Fotos, tausende hochauflösende 3D-Scans und rund 3 Millionen Labels mit feingranularen räumlichen Informationen. Kern des Ansatzes ist die Verknüpfung egocentrischer 2D-Sichten mit vollständigen 3D-Rekonstruktionen derselben Umgebung. Dadurch können Modelle Objekte sowohl über flache visuelle Hinweise als auch über die zugrunde liegende Geometrie verorten.
In Evaluierungen übertrafen mit RoboSpatial trainierte Modelle Referenzansätze auf denselben Aufgaben. Getestet wurden unter anderem das Umordnen von Gegenständen und die Übertragung des Gelernten auf bislang unbekannte Szenarien. Die Ergebnisse deuten darauf hin, dass ein konsistenter räumlicher Kontext entscheidend ist, um Stabilität und Genauigkeit bei Manipulationsaufgaben zu erhöhen.
Praktische Beispiele umfassen Ja-Nein-Fragen zur Szene, etwa ob ein Stuhl vor einen Tisch passt oder ob eine Tasse links von einem Laptop liegt. Auf Plattformseite kam unter anderem der Assistenzarm Kinova Jaco zum Einsatz. Im Vergleich zu herkömmlichen Datensätzen, die oft nur Objektklassen abbilden, erlaubt RoboSpatial das präzisere Ableiten von Positionen, Relationen und geeigneten Ablagepunkten.
Das Team sieht in standardisiertem räumlichem Kontext eine Basis für sicherere und verlässlichere Robotersysteme. Offene Fragen betreffen die Skalierung auf weitere Domänen, das Zusammenspiel mit Sprache und die Evaluierung in dynamischen, unstrukturierten Umgebungen. Die vorgestellten Ergebnisse liefern dafür eine belastbare Grundlage und eröffnen Perspektiven für Assistenz-, Service- und kollaborative Robotik.
Lesenswert hierzu
Dieser Artikel wurde vollständig oder teilweise durch eine Künstliche Intelligenz (KI) erstellt. Obwohl wir bemüht sind, genaue und aktuelle Informationen bereitzustellen, können wir keine Garantie für die Richtigkeit oder Vollständigkeit des Inhalts übernehmen. Bitte überprüfen Sie alle Informationen und ziehen Sie bei Bedarf eine fachkundige Beratung hinzu.