Fachkonzept: Wahrnehmungs-Aktions-Schleife
Reinforcement Learning (deutsch: „Verstärkungslernen“) beschreibt verschiedene Verfahren des Maschinellen Lernens, bei dem ein Programm lernt, möglichst optimale Aktionen in bestimmten Situationen seiner Umwelt auszuführen. Ein Software-Programm, das die Handlungen situationsabhängig steuert, wird in der Informatik auch als „Software-Agent“ oder kurz „Agent“ bezeichnet (lat.: agere – handeln). Ein typsicher Software-Agent ist ein (computergesteuerter) Gegenspieler in einem Computerspiel. Das Spielszenario selbst stellt seine Umwelt dar. Wenn ein Agent nicht fest programmiert ist sondern optimales Handeln erst erlernen muss, so muss er während des Lernvorgangs eine Rückmeldung darüber erhalten, wie gut eine bestimmte Handlung war und wie sich diese auf seine Situation innerhalb seiner Umwelt ausgewirkt hat. Wir müssen also drei Dinge unterscheiden:
- Die vom Agenten jeweils wahrgenommene Situation. In unseren Überlegungen werden wir die Situationen einfach durchnummerieren und bezeichnen die Situationsnummer mit dem Variablennamen.
- Die vom Agenten jeweils ausgeführte Aktion. Auch die Aktionen nummerieren wir durch und nennen sie .
- Die Belohnung, die der Agent für eine bestimmte Aktion in einer bestimmten Situation erhält (wobei „Bestrafungen“ als „negative Belohnungen“ gedeutet werden). Wegen der englischen Bezeichnung „reward“ für Belohnung verwenden wir das Formelsymbol .
Quellen
- [1]: Wahrnehmungs-Handlungs-Schleife - Urheber: Peter Dauscher - Lizenz: Inf-Schule.de