Projektkonferenz - Humanoider Roboter lernt Tic Tac Toe spielen
Am 17. Juni herrschte wieder reges Treiben im Vorraum der Mensa: dort zeigten 43 Studierende aus 11 Teams ihre Projektarbeiten auf der diesjährigen 4. Projektkonferenz.
Aus dem Labor für Künstliche Intelligenz präsentierte Andy Klay eine Arbeit zum Reinforcement-Lernen von Spielstrategien in humanoiden Robotern: der NAO-Roboter Eve erkennt mittels Bildverarbeitung die Spielsituatuin eines Tic Tac Toe-Spiels und reagiert mit einem eigenen Spielzug. Die dazu nötige Spielstrategie wurde jedoch nicht fest implementiert, sondern wird durch den Roboter beim Spielen gegen menschliche und künstliche Gegenr entwickelt, in dem er versucht herauszufinden, in welchen Situation, welche Züge zu einem späteren Spielgewinn führen. Schwache Gegner wird er versuchen auszutricksen und von starken Gegnern wird er Strategien übernehmen.
Reinforcement-Lernen ist in der Grundidee ein einfaches Lernparadigma, bei dem der Lerner nicht passiv die Belehrung durch den Lehrer hinnimmt (wie beim supervised learning), sondern aktiv durch eigene Aktionswahl seinen Lernprozess steuert. Der Lerner erntscheidet also, welche neuen Erfahrungen er machen möchte oder ob er lieber bei bewährten Aktionen bleibt. Die praktische Umsetzung wird schwierig, wenn die Umgebung stochastisch reagiert, nur schwer zu erkennen ist, einen Gegner enthält, sehr viele Zustände umfasst oder die Belohnung/Bestrafung verzögert erfolgt. Mindestens zwei dieser Merkmale weist das Tic Tac Toe-Spiel auf.
NAO und Eve vorm KI-Labor: