Prof. J. Walter - Informationstechnik, Mikrocomputertechnik, Digitale Medien Stand der Technik
Hochschule Karlsruhe Logo Bachelorarbeit
Einbindung einer Tiefenkamera für eine elektronische Deichsel
Wintersemester 2017/18
Marc
Budig

Stand der Technik

Stand der Technik – elektronische Deichsel

Unter einer elektronischen Deichsel versteht man eine Koppelung von Fahrzeugen, die elektronisch aber nicht mechanisch miteinander gekoppelt sind. Das hintere Fahrzeug folgt dabei dem voranfahrenden Fahrzeug, als wären sie tatsächlich mit einer realen Deichsel gekoppelt. Dies erfordert umfassende Sensorik sowie spezielle Software. Hier wollen wir zunächst untersuchen, welche Systeme es schon gibt und was unser System bereits alles kann.

Unser System

In unserem Fall soll die elektronische Deichsel keinem anderen Fahrzeug folgen, sondern einer Person. Dabei kommen im Moment noch Ultraschallsensoren zum Einsatz. Die Ultraschallsensoren sind am Auto vorn befestigt und die Person, die verfolgt werden soll, trägt einen Empfänger bei sich. Dabei muss der Empfänger auf einen der Sensoren zeigen. Die Ultraschallsensoren sind allerdings sehr störanfällig. Das zeigt sich besonders dann, wenn das Auto die verfolgte Person anfährt. Denn eigentlich sollte das Fahrzeug kurz vorher abbremsen um eine Kollision zu vermeiden. Auch werden keine Hindernisse erkannt, wie zum Beispiel andere Personen, die sich dem Auto in den Weg stellen. Beim Bergabfahren bremst das Fahrzeug außerdem nicht ab. Stattdessen fährt es einfach in die Person rein, die sich vor ihm befindet.

Auch beim Einschlagswinkel der Vorderreifen zeigt sich ein Problem auf. Denn der Winkel ist zu klein um Kurven zu fahren. Das Auto verfügt außerdem über einen Rückwärtsgang. Dieser wurde aber noch nicht zum Laufen gebracht. Für eine Anwendung in der Öffentlichkeit wäre zusätzlich ein Not-Aus erforderlich. Weiter könnte man den Ultraschallsender kleiner konzipieren und optische Sensoren, wie zum Beispiel eine Tiefenkamera, einbinden.

Automatisierte Lkw-Konvois

Hierbei geht es darum, dass zwei oder mehrere Lkws über eine elektronische Deichsel miteinander gekoppelt sind und so hintereinander herfahren. Man nutzt also den Windschatten des voranfahrenden Lkws aus und reduziert so den Treibstoffverbrauch um bis zu 15 Prozent. Per Funk werden Brems –und Sensordaten des Führungsfahrzeugs an die folgenden Fahrzeuge geschickt. Dabei soll ein Abstand von nur 15 Metern bei 80 Stundenkilometern zwischen den Fahrzeugen sein. Später sind, laut Experten, auch 10 Meter Abstand technisch möglich.

Postbot

Der Postbot erinnert stark an unser System. Es handelt sich hierbei ebenfalls um eine elektronische Deichsel, die eine Person verfolgen soll. In Deutschland gibt es viele Zustellbezirke, die zu Fuß abgelaufen werden müssen. Der Postbot hat also die Aufgabe den Postzusteller körperlich zu entlasten, weil dieser mit den schweren Paketen hinterherfährt. Der Postbot erkennt außerdem Hindernisse, wie zum Beispiel andere Personen, und bremst dann ab. Das ist auch nötig, denn der Roboter kann bis zu 150 Kilogramm Post tragen und wäre sonst ein erhebliches Sicherheitsrisiko für Passanten.

Hop Trolley

Ein Trolley, der seinem Besitzer folgen soll. Das Smartphone des Besitzers sendet ein Bluetooth-Signal aus. Drei Sensoren im Koffer empfangen und triangulieren dieses Signal. Mit dem Signal lokalisiert ein Mikroprozessor das Smartphone und erkennt wie es sich fortbewegt. Der Mikroprozessor steuert außerdem zwei Raupenketten zur Fortbewegung an. Das Prinzip ist unserem sehr ähnlich. Nur das unser System über einen Ultraschallsender und drei Ultraschallsensoren verfügt.

Gita von Piaggio

Hierbei handelt es sich ebenfalls um einen Roboter, der einem folgt und Lasten wie zum Beispiel Einkäufe tragen kann. Der Gita fährt auf zwei Rädern und hält sich dabei aufrecht. Er kann bis zu 18 Kilogramm transportieren. Er fährt bis zu 35 km/h schnell und kann somit auch Radfahrer folgen. Navigiert wird der Roboter mithilfe von simultaner Lokalisierung und Kartenerstellung. Er ist mit mehreren Kameras ausgestattet, darunter eine Stereokamera, mit denen der Roboter seine Umgebung rund um sich herum wahrnimmt. Aus diesen 360-Grad-Ansichten erstellt der Gita eine Umgebungskarte und lokalisiert sich auf dieser Karte.

Der Mensch trägt ebenfalls eine Kamera, die an einem Gürtel befestigt ist. Die Kamera nimmt die Umgebung auf und überträgt sie an den Roboter. So findet er den Weg unabhängig davon, ob der Mensch in Sicht ist oder nicht. D.h. wenn der Mensch abbiegt und hinter einer Ecke verschwindet, kann Gita ihm trotzdem weiterhin folgen.

Kameras sind zwar kostengünstiger als Laser-Sensoren, aber stark von den Sichtverhältnissen abhängig. Nachts, bei schlechtem Wetter oder einer tiefstehenden Sonne kann es zu Schwierigkeiten kommen.

Quellen:

https://de.wikipedia.org/wiki/Deichsel#Elektronische_Deichsel am 08.12.2017

https://www.continental-corporation.com/de/presse/pressemitteilungen/bis-zu-15-prozent-weniger-verbrauch---continental-setzt-auf-automatisierte-lkw-konvois-7772 am 08.12.2017

https://www.heise.de/newsticker/meldung/Wenn-der-Roboter-Briefe-bringt-Erster-Alltagstest-des-Postbot-3849915.html am 08.12.2017

http://www.hit-karlsruhe.de/hit-info/info-ws16/04_e-bierkasten/ am 08.12.2017

http://de.engadget.com/2012/10/05/hop-trolley-trifft-hund-und-fahrt-besitzer-automatisch-hinterhe/ am 12.12.2017

https://www.golem.de/news/piaggio-roboter-gita-faehrt-die-einkaeufe-nach-hause-1702-125993.html am 12.12.2017

Teil meiner Arbeit ist es zu evaluieren, welche Tiefenkamera am besten für unser System geeignet ist. Dafür nehmen wir drei Kameras genau unter die Lupe. Neben Vor –und Nachteile sollen auch wichtige Daten (Gewicht, Größe, etc.) aufgeführt werden, die für eine Entscheidung zu berücksichtigen sind. Welche Software brauche ich für meine Kamera? Wie benutzerfreundlich ist die dazugehörige Software? Diese und noch weitere Fragen sollen in diesem Abschnitt beleuchtet werden.

Kinect Tiefenkamera von Microsoft

-          Einfache Bedienbarkeit der Software dank SDK.

-          Zweite Generation der Kinect bedient sich der Time-of-Flight-Methode, bei der Objekte über die Laufzeit von reflektiertem Licht erfasst werden (deutlich höhere 3D-Auflösung).

-          Die Objekte werden erfasst, indem ein Punktmuster, mittels eines Infrarot-Lasers, in den Raum projiziert wird. Gegenstände, Personen und Wände reflektieren diese Punkte. Diese Reflektionen werden von einem Infrarotsensor registriert. Dieser Sensor liegt etwa 7,5 cm versetzt im Gehäuse und erfasst die Szene deshalb aus einem etwas anderen Winkel. Je näher sich ein Objekt jetzt also an der Kamera befindet, desto größer sind die Abweichungen. Die Software vergleicht das aufgenommene Punktmuster mit einem Referenzmuster, erkennt die Abweichungen und berechnet daraus die Tiefenkoordinaten.

-          Diese Tiefenkoordinaten fallen recht grob aus. Zum einen arbeitet der Infrarotsensor lediglich mit einer Auflösung von 320 x 240 Pixeln. Zum anderen schrumpfen die Verschiebungen mit wachsendem Abstand zum Gegenstand, was die Messung zusätzlich ungenau macht. Es reicht daher nicht, nur eine einzige Aufnahme zu machen. Vielmehr werden Serien von Aufnahmen aus leicht unterschiedlichen Blickwinkeln zu einem zusammenhängenden 3D-Modell kombiniert.

-          Wenn sich die Tiefenkamera während des Scans bewegt, wird die Grafikkarte stark beansprucht (hohe Hardware-Anforderung).

-          Wenn sich während des Scans die aufgenommene Szene verändert, erhält die Software widersprüchliche Datensätze (Software kommt aus dem Konzept).

-          Beim 3D-Scannen muss vieles gleichzeitig gemacht werden:

1.       Tiefenkamera manuell durch den Raum führen bzw. um das Objekt herum.

2.       Mindestabstand von 40 cm einhalten, da der Sensor auf kürzerer Entfernung nichts mehr registriert.

3.       Das Zielobjekt darf nicht aus dem Blickfeld der Kamera geraten.

4.       Man muss sich langsam mit der Tiefenkamera fortbewegen, da sonst die Software den Faden verlieren könnte.

-          Bei kleinen Objekten kann man die Tiefenkamera auch an einem festen Ort fixieren und das Objekt auf einen motorisierten Drehteller stellen. Entscheidend ist ja nur, dass sich Kamera und Objekt relativ zueinander bewegen.

-          Bei dieser Methode ist es wichtig, dass sich alles mitdreht, was der Tiefensensor erfasst. Eine Gegenmaßnahme wäre es, die Umgebung des Drehtellers frei zu räumen.

-          Gescannte Objekte dürfen nicht zu klein sein, da sie sonst möglicherweise nicht mehr von der Kamera erfasst werden können.

-          Kugeln oder Kegel beispielsweise sind schwierig zu scannen, da sie aus verschiedenen Blickwinkeln sehr ähnlich aussehen. Hier würde es helfen, um das eigentliche Zielobjekt weitere markante Objekte zu verteilen, an denen sich die Kamera orientieren kann.

-          Tiefenkamera orientiert sich auch an Farbe und Textur eines Objekts.

-          Glänzende oder spiegelnde Oberflächen reflektieren das Punktmuster nur sehr schlecht. Zu viel Sonnenlicht oder andere Lichtquellen können den Sensor blenden.

-          Zu wenig Licht hingegen beeinträchtigt hingegen höchstens die Oberflächentexturen, nicht aber die Formerkennung.

-          Das USB-Kabel schränkt die Bewegungsfreiheit ein.

Intel RealSense Tiefenkamera

-          Die allgemeine Herangehensweise ist dieselbe. Zur Umsetzung des Abbilds, werden drei Gerätschaften eingesetzt: eine Full-HD-Kamera, eine Infrarot-Kamera und ein Infrarot-Laserprojektor. Die beiden Kameras ermitteln die Tiefe des Bildes und erzeugen mithilfe des Laserprojektors ein 3D-Modell des aufgenommenen Objekts.

-          Eine große Bandbreite an Betriebssysteme und Programmiersprachen werden unterstützt. Entwickler-Tools sind für viele Betriebssysteme erhältlich. Das SDK bietet außerdem Beispielcodes sowie Debug –und Auswertungs-Tools.

-          Gute Integration der Intel RealSense Kamera in mein eigenes Produkt, durch Auswählen des Modells mit der besten Kombination aus Energieverbrauch, Sichtfeld und Verschlusstyp.

-          Mitgelieferte Visionprozessoren entlasten Grafikprozessor (GPU) oder CPU-Ressourcen, während Rohbilddaten verarbeitet und kalibrierte 3D-Tiefenkarten geliefert werden.

ZED Mini

-          Die ZED Mini hat zwei RGB-Weitwinkelkameras. Die aufgezeichneten Bildinformationen dienen einerseits zur Bestimmung der räumlichen Position des Geräts. Andererseits wird die Tiefe des Raums berechnet. Das Gerät vergleicht die beiden Bilder und erstellt in Echtzeit eine 3D-Karte der Umgebung. Eine Tiefenkamera wird daher nicht benötigt.

-          Die Kosten für die ZED Mini liegen mit 450 Euro im oberen Preissegment und sind weitaus höher als die der Konkurrenz.

Quellen:

https://www.heise.de/make/artikel/Kinect-Co-als-3D-Scanner-3119643.html am 01.12.2017

https://www.heise.de/newsticker/meldung/Intel-goes-Kinect-Gesten-Gesichts-und-Spracherkennung-mit-Kamerasystem-RealSense-2076382.html am 05.12.2017

http://magazine.magix.com/de/intel-realsense/ am 05.12.2017

https://www.stemmer-imaging.de/de/produkte/serie/intel-realsense-d400/ am 05.12.2017

https://vrodo.de/die-zed-mini-macht-aus-oculus-rift-und-htc-vive-mixed-reality-brillen/ am 05.12.2017

Microsoft Mixed-Reality-Brille HoloLens

Was einem sofort auffällt, ist die Größe der Brille. Tatsächlich wiegt sie 579g und ist damit deutlich schwerer als die Google Glass, die nur 43g auf die Waage bringt. Dafür wurde in die HoloLens deutlich mehr Technik gepackt.

Die Bedienung funktioniert folgendermaßen: Der Cursor wird per Kopfbewegung gesteuert. Weiter haben wir eine Standard-Windows-10-Bildschirmtastatur in der Luft (virtuell selbstverständlich). Mittels Tipp-Bewegung in der Luft, können wir jetzt die Tasten auf der Tastatur „drücken“. Das Userinterface ist nicht an die HoloLens angepasst. Stattdessen sieht der Benutzer das ganz normale Desktop-Windows.

Die Bedienung ist also gewöhnungsbedürftig. So weit so gut. Positiv hingegen ist, dass die Brille mit seiner Tiefenkamera sehr schnell misst und den Raum unbemerkt abtastet. Fenster von 2D-Apps werden so perspektivisch richtig wie Poster an die echte Wand „gehängt“. Ungewohnt ist jedoch, dass man erst die Position der App im Raum festlegen muss, bevor sie gestartet werden kann. Es gibt auch HoloLens-3D-Apps, die als Würfel im Raum platziert werden können. Auch hier gilt: Erst wenn die Position im Raum festgelegt wurde, lässt sich die App öffnen.

Auch kann man mithilfe einer App, statische und dynamische Objekte in den Raum holen. Dabei kann man das Objekt von allen Seiten aus betrachten. Das Objekt kann zum Beispiel auch auf dem Tisch oder unter dem Tisch stehen. Das alles zeigt, wie gut die HoloLens-Raumvermessung der Tiefenkamera funktioniert.

Dass das Sichtfeld eher kleiner ausfällt, kann in Hinsicht auf unsere elektronische Deichsel auch als negativ verstanden werden. Denn wenn wir zu nah an ein Objekt herangehen, verschwindet es aus dem Sichtfeld.

Der Hersteller gibt die Auflösung des Displays nicht in Pixeln pro Auge an, sondern als holografische Auflösung („Holographic Resolution“): 2,3 Millionen Lichtpunkte stellt die HoloLens laut Microsoft dar. Die holografische Dichte („Holographic Density“) liegt laut Hersteller bei über 2500 Lichtpunkten pro Radiant.

Technische Daten im Detail

Im Gehäuse stecken neben einer Time-of-Flight-Tiefenkamera (wie in der zweiten Kinect) vier Umgebungskameras („environment understanding cameras“), eine konventionelle 2-Megapixel-Kamera, vier Mikrofone, ein Umgebungslichtsensor sowie Lagesensoren.

Der eingebaute Rechner hat 32 bit, verfügt über Windows 10 und wird von einem Intel Atom x5-Z8100 mit 1 GHz angetrieben, dem 2 GByte RAM zur Verfügung stehen. Die GPU („HoloLens Graphics“) ist eine Eigenentwicklung. Microsoft hat der HoloLens 64 GByte Flash-Speicher spendiert.

Die HoloLens wird nur passiv gekühlt und bei Überhitzung schließt die gerade aktive App. Der Akku hält 2-3 Stunden durch.

Begriffsklärung

Augmented Reality – erweiterte Realität

Am besten erklärt man den Begriff anhand des Helmvisiers des Kampfpiloten. Hier werden dem Piloten nützliche Informationen, wie zum Beispiel Höhe, Geschwindigkeit und Steuerkurs, eingeblendet, während er normal auf die Umgebung blickt. Ein weiteres Beispiel ist die Google Glass, die Informationen mit realen Objekten verknüpft und dort einblendet.

Augmented Reality, Virtual Reality und Mixed Reality

Sofern die Außenwelt erst aufgenommen und dem Benutzer dann mit Zusatzinformationen als virtuelle Realität eingespielt wird, handelt es sich um „Augmented Reality“ oder auch „Mixed Reality“.

Quellen:

https://www.heise.de/thema/Augmented-Reality am 21.12.2017

https://www.heise.de/ct/artikel/Microsoft-HoloLens-im-Test-Tolle-Software-schwaches-Display-3248670.html am 21.12.2017

 

 

 


  Mit Unterstützung von Prof. J. Walter Wintersemester 2017/18