Desenhe o ambiente, escolha os hiperparâmetros e veja o agente aprender pela experiência.
Imagine um robô-coletor que precisa atravessar um armazém para chegar a uma estação de carga. No caminho, há obstáculos, prateleiras com itens valiosos (recompensa) e zonas frágeis (penalidade). Você não vai programar o robô — ele vai aprender por tentativa e erro.
A cada tentativa (episódio), o agente parte do mesmo lugar e tenta chegar ao destino. Cada passo custa um pouco. Cada zona valiosa rende; cada zona frágil penaliza. Aos poucos, ele descobre o melhor caminho — e essa descoberta vira uma política de decisão.
Estado , ação , recompensa , política , Q-value , episódio , taxa de aprendizado , fator de desconto , exploração × explotação .
Toque em qualquer ponto azul para abrir a explicação no Glossário do Guia.