Agente em ambiente customizável (Q-Learning)

by Andre Barcaui

Desenhe o ambiente, escolha os hiperparâmetros e veja o agente aprender pela experiência.

Narrativa do capítulo

O contexto

Imagine um robô-coletor que precisa atravessar um armazém para chegar a uma estação de carga. No caminho, há obstáculos, prateleiras com itens valiosos (recompensa) e zonas frágeis (penalidade). Você não vai programar o robô — ele vai aprender por tentativa e erro.

A cada tentativa (episódio), o agente parte do mesmo lugar e tenta chegar ao destino. Cada passo custa um pouco. Cada zona valiosa rende; cada zona frágil penaliza. Aos poucos, ele descobre o melhor caminho — e essa descoberta vira uma política de decisão.

Voz do Guia

“Reforço é o paradigma das decisões sequenciais. É como aprende um vendedor iniciante: nas primeiras visitas, tenta tudo; com o tempo, refina o roteiro.”

O que você vai poder controlar

O ambiente: posicionar início, destino, obstáculos, recompensas e penalidades em uma grade.
Os hiperparâmetros: α, γ, ε e o número de episódios.
O treinamento: rodar, pausar, resetar e ver o agente aprender em tempo real.

Conceitos que você verá

Estado , ação , recompensa , política , Q-value , episódio , taxa de aprendizado , fator de desconto , exploração × explotação .

Toque em qualquer ponto azul para abrir a explicação no Glossário do Guia.