Personentracking mittels multisensorieller Daten für mobile Serviceroboter

Hui Zeng

Dauer der Arbeit: 4 Monate
Abschluss: April 2020
Betreuer: M.Sc. Florenz Graf (Fraunhofer IPA)
Prüfer: Prof. Dr.-Ing. Uwe Sörgel

Einleitung

Serviceroboter spielen eine immer wichtigere Rolle in unserer Gesellschaft. Sie werden in privaten Haushalten, Krankenhäusern, Pflegeheim usw. eingesetzt. Roboter können in geschlossenen Räumen mit Menschen interagieren, Sie erkennen, Ihnen folgen, ausweichen, Anfragen beantworten und im Notfall Hilfe rufen. Um eine erfolgreiche Mensch-Roboter-Interaktion durchzuführen, muss der Roboter jederzeit wissen, wo sich Personen bzw. Hindernisse befinden. Das heißt, das Umfeld muss in 360° von der Sensorik des Roboters erfasst werden.

Problemstellung

Finanzielle Kosten: Fertige Sensorsysteme welche beispielsweise ein 3D-360°-Rundum-Sichtfeld ermöglichen, sind zu teuer für den Serviceroboter. Eine günstigere Lösung zur Rundumerfassung muss gefunden werden.

Reaktionszeit: Der Serviceroboter soll Daten in Echtzeit bearbeiten und auf Anfragen reagieren, weswegen die zu verarbeitenden Datenmengen eingeschränkt sind.

Motivation

Zur besseren Betreuung alter und hilfsbedürftiger Menschen kommen zunehmend Roboter zum Einsatz. Damit diese Roboter auch mobil interagieren können, ist nicht nur eine Erkennung, sondern auch die Vorhersage der Position und Trajektorie sich bewegender Personen notwendig. Die Genauigkeit des bestehenden Systems zur Personendetektion soll erhöht werden. Beim Einsatz in geschlossenen Räume, ist die Bewegungsdynamik von Personen komplizierter als im Freien. Hindernisse wie Tische, Sofas, Schränke usw., erschweren die Aufgabe und können zu falschen Detektionsergebnissen führen. Bei höherer Genauigkeit sollen also auch falsch-positive Detektionsergebnisse heraus gefiltert werden.

Methodik

Bestandteile des Multisensorsystems

Das Multisensorsystem besteht aus einem 2D-360°-Laserscanner, zwei 180°-Fischaugenkameras sowie einer 60°-Stereokamera. Alle Sensoren befinden sich auf derselben Achse des Roboters. Die Abbildung 1 zeigt das System in Top-Down Ansicht des Roboters.

Um Beine zu detektieren wird der Laserscanner auf Beinhöhe angebracht. Für die Personendetektion wird die Stereokamera auf Kopfhöhe, nach vorne weisend angebracht. Mithilfe der zusätzlichen Tiefeninformation der Stereokamera ist der sich bewegende Roboter in der Lage, Hindernisse zu erkennen und diesen auszuweichen. Zur Verfolgung der Trajektorie detektierter Personen werden die Fischaugenkameras seitlich angebracht.

Abbildung 1: Bestandteile des Multisensorsystems aus Top-Down Ansicht des Roboters

Merkmalsbasierte Datenfusion

Da die RGB-Kamera keine Tiefeninformation enthält, ist ein direkter Vergleich der Detektionsergebnisse nicht möglich. Daher wird ein indirekter Vergleich auf Merkmalniveau durchgeführt.

In Abbildung 2 werden detektierte Personen durch eine um sie gezeichnete Bounding-Box repräsentiert. Die Eckpunkte der Boxen werden in 3D-Koordinaten mit einer undefinierten Tiefe transformiert. Der Suchbereich für die Beindetektion ist durch die Fläche zwischen jeweils zwei Geraden (blauen Strahlen) definiert.

Im linken oberen Teil von Abbildung 2 ist die Fusion dargestellt. Die Beindetektion mittels Laserscanner berechnet die Position eines Beinpaares (grün). Befindet sich die Position innerhalb des Suchbereichs, wird sie als fusionierte Beobachtung veröffentlicht.

Abbildung 2: Konzept der merkmalbasierten Datenfusion

Erweiterte Beindetektion

Eine erfolgreiche Datenfusion setzt voraus, dass sowohl die Beindetektion als auch die Personendetektion gleichzeitig vorliegen müssen. Lücken können zwischen den fusionierten Beobachtungen entstehen, wenn sich die Person zu schnell bewegt oder vom Roboter weg entfernt. Um solche Lücken zu schließen und dadurch die Kontinuität der Bewegungsdynamik zu erhöhen, wird in dieser Arbeit erweiterte Beindetektion implementiert (siehe Abbildung 3).

Die erweiterte Beindetektion wird von den Fusionsergebnissen ausgelöst und initialisiert. Die Position wird zuerst nach einer gleichförmigen geradlinigen Bewegung vorhergesagt. Ein Kreis mit Radius r wird um die vorhergesagte Position (gelb) definiert. Befindet sich der Laserpunkt (rot) innerhalb des Kreises, wird es in einem Cluster für erweiterte Beine hinzugefügt. Der gewichtete Mittelwert des Clusters bezeichnet die zugeordnete Position (grün).

Wenn neue fusionierte Beobachtungen zu späteren Zeitpunkten empfangen werden, werden sie mit der zugeordneten Position verglichen. Befindet sich die zugeordnete Position innerhalb des Schwellwerts, wird sie von der entsprechenden fusionierten Beobachtung aktualisiert.

Abbildung 3: Konzept der erweiterten Beindetektion

Personentracking mittels Extended-Kalman-Filter

Mittels eines Extended Kalman Filter (EKF) wird das Personentracking implementiert. Der EKF hat einen rekursiven Algorithmus, der aus zwei essentiellen Schritten besteht: die Vorhersage und die Korrektur. Das nicht-lineare Bewegungsmodell modelliert eine gleichförmige Kreisbewegung (Thurn et al., 2005), durch das der geschätzte Zustandsvektor einer Person berechnet wird. Mithilfe der Beobachtungen wird der geschätzten Zustandsvektor korrigiert. Der korrigierte Zustandsvektor dient wieder als Eingabedaten für die Vorhersage zum nächsten Zeitstempel.

Wenn sich mehrere Personen im Sichtfeld befinden, werden die geschätzten Zustandsvektoren durch Einsatz des Hungarian-Algorithmus (Kuhn, 1955) mit den Beobachtungen assoziiert. Eine Kostenmatrix wird durch Berechnung des Mahalanobis Abstandes (Mahalanobis, 1936) aufgestellt.

Gesamter Arbeitsablauf

Eine Zusammenfassung des Workflows wird in Abbildung 5 dargestellt. Der Arbeitsablauf unterteilt sich in 5 Ebenen: die Sensoren, die Detektion, die merkmalsbasierte Datenfusion, die erweiterte Beindetektion und der EKF.

Abbildung 5: der gesamte Arbeitsablauf

Ergebnisse und Fazit

Die Kombination von Laserscanner und Kamera ist gut einsetzbar für eine Rundum-Erfassung eines Serviceroboter. Sie kombinieren die Stärken und kompensieren die Schwächen der Sensoren.

Eine Genauigkeitssteigerung der Personenerkennung kann durch Einsatz der merkmalbasierten Datenfusion erzielt werden, da falsch-positive Detektionen außerhalb des Suchbereichs herausgefiltert werden. Wenn sich mehrere Detektionen innerhalb des Suchbereichs befindet, wird die Detektion mit kleineren ID fusioniert. Das hat allerdings zur Folge, dass falsch-positive Ergebnisse wie die Wand fusioniert werden.

Eine Genauigkeitssteigerung des Personentracking kann durch Einsatz eines EKF ermöglichen. Durch die Berechnung des sogenannten Kalman-Gains wird ein gewichtetes Optimum aus der Vorhersage und den Beobachtungen gesucht. Die Standardabweichungen der korrigierten Positionen liegen zwischen 0.25 - 0.30 m (siehe Abbildung 6).

Abbildung 6: Vergleich der geschätzten (in rot) und korrigierten (in blau) Standardabweichung sowie der Standardabweichung der Beobachtungen (in grün) - links: in X-Richtung, rechts: in Y-Richtung

Eine erhöhte Kontinuität und Vollständigkeit der Bewegungsdynamik kann durch Einsatz der erweiterten Beindetektion realisiert werden. Dies hängt aber von der Form der Bewegung ab. Generell übertrifft die Kontinuität einer geradlinigen Bewegung (siehe Abbildung 8) die Kontinuität einer kurvigen Bewegung (siehe Abbildung 7). Darüber hinaus, Abbrüche können aufgrund Wanddetektion oder großer Orientierungsänderung vorliegen.

Abbildung 7: Bewegungstrajektorien einer Person in Kreisbewegung - links: die Beobachtungen (Position und Orientierung) für den EKF, rechts: die korrigierten Beobachtungen (IDs, Positionen und Orientierungen) aus dem EKF

Abbildung 8: Bewegungstrajektorien einer Person in geradliniger Bewegung - links: die Beobachtungen (Position und Orientierung) für den EKF, rechts: die korrigierten Beobachtungen (IDs, Positionen und Orientierungen) aus dem EKF

Literatur

Thrun, S., Burgard, W. and Fox, D., 2005. Probabilistic robotics, vol. 1, MIT Press Cambridge.

Kuhn, H.W., 1955. The Hungarian method for the assignment problem. Naval research logistics quarterly, 2(1‐2), pp.83-97.

Mahalanobis, P.C., 1936. On the generalized distance in statistics. National Institute of Science of India.

Personentracking mittels multisensorieller Daten für mobile Serviceroboter

Hui Zeng