TU Graz/ TU Graz/ Services/ News+Stories/

Ein Algorithmus möchte selbst die perfekte Runde in einem Rennauto erlernen

07.05.2024 | Planet research | FoE Information, Communication & Computing

Von Falko Schoklitsch

Die Forschung an Robotern und deren Autonomität kann auch dazu führen, dass ein Algorithmus seinen eigenen Rundenzeiten hinterherjagt. Gelingt ihm das besser als einem Menschen?

Ist die Maschine dem Menschen beim schnellen Fahren überlegen? Bildquelle: Schoklitsch - TU Graz

Seit es Motorsport gibt, haben sich Fans und Rennfahrer*innen die Frage gestellt, ob es möglich ist, eine perfekte Runde hinzulegen, auf der nirgendwo eine Tausendstelsekunde verloren gegangen ist. Realistisch betrachtet ist so etwas wohl nicht möglich und es stellt sich ohnehin die Frage, wie man nachmessen kann, ob es nicht doch noch eine Tausendstelsekunde schneller gegangen wäre. „Es ist sehr schwierig, die absolute perfekte, perfekte Runde zu fahren. Ich war nah dran. Aber wenn jemand behauptet, die perfekte Runde gefahren zu haben, so meine ich, das ist nicht möglich“, erklärte der ehemalige Formel-1-Pilot Mark Webber im Jahr 2013 dazu.

Kann der Computer eventuell das schaffen, was die schnellsten Fahrer*innen der Welt nicht für möglich halten? Am Institute of Interactive Systems and Data Science der TU Graz könnte das Team von Eduardo Veas einer Antwort auf diese Frage näherkommen. Im Rahmen ihrer Robotikforschung haben die Wissenschafter*innen einen Algorithmus für autonomes Fahren entwickelt, der sich mittels bestärkenden Lernens (reinforcement learning) selbstständig beibringt, immer schneller zu fahren. Dabei kommt ein als Software-Agent bezeichnetes Programm zum Einsatz, das auf Basis von Belohnungen oder Strafen eigenständig eine Strategie erlernt, um die Belohnungen zu maximieren.

In wenigen (Millionen) Versuchen auf Tempo

„Der Software-Agent lernt aus seiner eigenen Erfahrung mit der Umgebung“, erklärt Eduardo Veas. „Auf Basis des beobachteten Zustands der Umgebung führt er eine Aktion aus und danach bekommt er eine positive oder negative Rückmeldung. Diese speichert er in einem Experience Buffer ab und damit lernt er, wie er es besser machen kann.“ Diese Methode hat das Team in einem Rennsimulator angewandt und den Software-Agent mit keinerlei Erfahrung beginnen lassen. Eine Belohnung gab es dafür, so schnell zu fahren wie möglich ohne die Strecke zu verlassen. Im Simulator kann der Software-Agent seine Aktionen schnell wiederholen und dadurch rasch besser werden. Nach ein paar Tausend Versuchen hatte er gelernt, wie er das Auto fahren muss, noch ein paar Zehntausend Versuche später konnte er schon richtig schnell fahren und die Rundenzeiten laufend verbessern.

Aber kann er auch die perfekte Runde fahren? Zum Zeitpunkt des Gesprächs mit Eduardo Veas war die aktuelle Simulation bereits zehn Tage gelaufen und es zeigte sich, dass die Zeiten in einzelnen Abschnitten besser wurden, sich in anderen allerdings verschlechterten – sie befanden sich aber auf dem Niveau der Top-Profis im eSport. Dass es noch besser geht, hat die Vergangenheit gezeigt, als ein speziell trainierter Software-Agent professionelle menschliche Fahrer*innen in einem industriellen Simulator auf Qualifying-Runden übertrumpfen konnte. Sony führte einige Monate später einen ähnlichen Versuch im Spiel Gran Turismo Sport durch, bei dem der AI-Agent Gran Turismo Sophy gegen die besten Spieler*innen antrat und sie in drei verschiedenen Strecke-Auto-Kombinationen besiegen konnte.

Bisher sind diese Algorithmen aber nur auf eine Handvoll Strecken und Fahrzeuge trainiert, eine Generalisierung des Erlernten zur Anwendung auf allen Arten von Rennstrecken und Fahrzeugtypen gelingt noch nicht. „Wir haben diesen Experience Buffer und weil ich alles aufzeichne, kann ich jetzt recht schnell einen neuen Agent zusammenbauen. Wir versuchen, zu lernen, was der beste Zugang ist, um den Agent neu aufzusetzen und dann muss man das auf der Strecke feintunen. Wir forschen seit fünf Jahren an diesem Thema“, sagt Eduardo Veas. Sein Ziel dabei ist eigentlich, die Voraussetzungen für autonome Fortbewegung zu verbessern, die virtuelle Zeitenjagd ist nur ein Nebenprodukt dessen und bildet einen Randaspekt ab, da der Algorithmus rein auf schnelle Runden trainiert wird und keine Überholmanöver, Reifenverschleiß oder Spritverbrauch berücksichtigen muss.

Das menschliche Gefühl als Vorteil?

Trotz der ausgedehnten Simulationen und der langen Erfahrung scheint die absolut perfekte Runde aber noch nicht geglückt, das gibt auch Eduardo Veas zu. „Ich würde es derzeit noch nicht die perfekte Runde nennen, nein. Aber sagen wir, es ist eine bessere Runde als wir es bisher bei uns geschafft haben und der Algorithmus kann immer noch einige Millisekunden herausquetschen und besser werden.“ Mark Webber sah im Vergleich zwischen Simulation und Mensch allerdings ohnehin den Homo Sapiens im Vorteil. Zwar hat sich seit seinen Aussagen im Jahr 2013 technisch einiges weiterentwickelt, aber eine gewisse Wahrheit steckt wohl weiter darin. „Die Simulatoren geben uns eine Perspektive dafür, was möglich ist. Dennoch ist der wichtigste Faktor der echte Fahrer im Auto, der versteht, wo das Limit wirklich ist“, erklärte Mark Webber. Das Gefühl und die Intuition (unter Rennfahrern auch gerne „Popometer“ genannt) sowie die Erfahrung mit unterschiedlichen Bedingungen und Fahrzeug-Eigenheiten könnten dem Menschen im Vergleich mit der Maschine also einen entscheidenden Vorteil bringen.

Dieses Forschungsprojekt ist im Field of Expertise „Information, Communication & Computingverankert, einem von fünf strategischen Schwerpunktfeldern der TU Graz.

Mehr Forschungsnews finden Sie auf Planet research. Monatliche Updates aus der Welt der Wissenschaft an der TU Graz erhalten Sie über den Forschungsnewsletter TU Graz research monthly.

Kontakt

Eduardo VEAS
Univ.-Prof. Dr.techn. MSc
TU Graz | Institute of Interactive Systems and Data Science
Tel.: +43 316 873 30858
eveasnoSpam@tugraz.at