Lesen Sie sich die Anleitung des Spiels "Schlag den Roboter" durch und spielen Sie es mehrmals. Hier der direkte Link zum Spiel.
Beim verstärkenden Lernen (reinforcement learning) vollzieht ein System Aktionen (z.B: Spielzüge) und erhält am Ende jeweils eine Bewertung, meist in Form einer Zahl. Anhand der Bewertungen erlernt das System eine Strategie deren Ziel es ist, die Bewertung bei nachfolgenden Aktionen möglichst zu maximieren.
Beispiele:
Aufgabe: Sehen Sie Ähnlichkeiten zum menschlichen Lernen? Recherchieren Sie zum Begriff Verstärkung in der Psychologie!
Beim "Gute Äffchen-Böse Äffchen-Spiel sind Sie als Tierpflegerin bzw. Tierpfleger in einem Zoo für die Fütterung der Äffchen zuständig. Sie wissen bereits, welche der bisher im Zoo befindlichen Äffchen beißen und welche nicht (→Trainingsdaten!). Allerdings werden bald neue Tiere zur Gruppe hinzukommen (→Testdaten!) und wir müssen uns nun überlegen, wie wir herausfinden können, welche neuen Äffchen beißen und welche nicht – am besten, ohne ihren Zähnen zu nahe zu kommen. Es gilt also, eine möglichst gute Klassifikation der Äffchen als “beißt” bzw. “beißt nicht” zu erzielen.
Wichtig: Sehen Sie sich die zweite Seite des Arbeitsblatts erst an, nachdem Sie den Entscheidungsbaum erstellt haben!
Für Lehrkräfte: Das Spiel und die dazugehörigen Materialien sind hier unter freier Lizenz erhältlich.
Beim überwachten Lernen sollen Datensätze bewertet werden (z.B. Äffchen beißt/beißt nicht), wobei zunächst eine Reihe von Trainingsdaten zur Verfügung steht, bei denen die korrekte Bewertung bekannt ist. Anhand dieser wird ein Modell gebildet, das bei möglichst vielen Datensätzen zur korrekten Bewertung kommt. Anschließend wird die Güte des Modells überprüft, indem es auf bisher unbekannte Daten (Testdaten) angewandt wird.
Beispiele:
(Quelle des Bildes: https://computingeducation.de/proj-it2school/)
In einem Wüstengebiet in Texas wurden von Reisenden in letzter Zeit immer wieder einzelne kleine Gold-Nuggets am Boden gefunden. Sie haben drei Grabungs-Teams für je eine Woche zur Verfügung. Jedes Grabungsteam kann in dieser Zeit eine quadratische Fläche von 9 Kästchen (drei nach rechts, drei nach unten) durchsuchen.
Wo würden Sie sie platzieren?
Für Lehrkräfte: Das Spiel und die dazugehörigen Materialien sind hier unter freier Lizenz erhältlich.
Ziel des unüberwachten Lernens (unsupervised learning) ist es, Muster in den Eingabedaten zu erkennen um diese so z.B. in mehrere Gruppen einzuteilen. Es gibt dabei keine in Vornhinein bekannten Zielwerte und keine Belohnung des Algorithums wie beim überwachten Lernen.
Beispiele: