ML Executive Lab

Esta página serve de âncora conceitual. Você não precisa ler tudo agora — cada simulação retoma esses termos com exemplos vivos. Mas se em algum momento aparecer uma palavra que gere dúvida (“peso”, “bias”, “época”, “ativação”), volte aqui e leia com calma.

Unidade mínima

Neurônio artificial

É a peça fundamental. Recebe várias entradas numéricas (por exemplo, idade e renda), multiplica cada uma por um peso, soma tudo, adiciona um bias e passa o resultado por uma função de ativação. O que sai é um número — que pode ser interpretado como uma decisão (sim/não) ou como uma estimativa contínua.

Apesar do nome inspirado na biologia, não há mistério: tudo que um neurônio faz é uma soma ponderada seguida de uma função.

Coeficientes

Pesos (w₁, w₂, …)

Os pesos dizem quanto cada entrada importa para a decisão do neurônio. Um peso grande significa que aquela entrada empurra fortemente o resultado; um peso pequeno significa que ela quase não influencia. Pesos podem ser positivos (a entrada empurra para a saída 1) ou negativos (empurra para 0).

Treinar uma rede é ajustar pesos. No início eles são aleatórios; ao longo do treinamento, a rede vai descobrindo, sozinha, quais valores fazem ela acertar mais.

Deslocamento

Bias (b)

O bias é um valor extra somado depois da soma ponderada. Sem ele, a fronteira que o neurônio aprende seria obrigada a passar pela origem (o ponto onde todas as entradas valem zero). Com bias, a fronteira pode ser deslocada para qualquer lugar do plano — o que dá muito mais flexibilidade ao modelo.

Pense numa balança: os pesos são os braços, e o bias é o pratinho extra que faz a balança pender de início para um lado mesmo sem nenhuma carga.

Decisão não-linear

Função de ativação

A ativação transforma a soma ponderada num número final. Se ela fosse simplesmente uma reta (“linear”), empilhar vários neurônios não adiantaria nada — a rede inteira colapsaria num modelo linear só. É a não-linearidade da ativação que permite a rede aprender curvas, anéis, espirais.

Sigmoide σ(z) = 1/(1+e⁻ᶣ)

Suaviza qualquer entrada para um valor entre 0 e 1. Ótima como saída de classificação binária.

Tanh tanh(z)

Como a sigmoide, mas vai de −1 a 1. Costuma treinar mais rápido em camadas ocultas.

ReLU max(0, z)

Devolve 0 para entradas negativas e a própria entrada para positivas. É a preferida em redes profundas modernas.

Degrau z ≥ 0 ? 1 : 0

Liga (1) ou desliga (0). É a ativação clássica do perceptron de Rosenblatt (1957). Não permite gradiente.

Estrutura

Camadas (entrada, oculta, saída)

Uma rede neural é uma sequência de camadas. A camada de entradarecebe as variáveis do problema. A camada de saída produz a previsão final. Entre elas vivem as camadas ocultas, onde a rede inventa representações internas que facilitam a tarefa.

Quanto mais camadas ocultas, mais profunda é a rede — daí o nome Deep Learning. Mais profundidade significa mais capacidade de aprender padrões complexos, mas também mais risco de aprender ruído (overfitting).

Tamanho do passo

Taxa de aprendizado (lr)

É o tamanho do passo que a rede dá ao ajustar cada peso. Uma taxa alta faz a rede aprender rápido, mas pode oscilar e nunca estabilizar. Uma taxa baixa faz aprender devagar, porém de forma estável.

Metáfora: você está descendo uma montanha vendado. Passos largos podem te jogar para o outro lado do vale; passos minimos demoram uma eternidade.

Repetição

Épocas

Uma época é uma passagem completa por todos os exemplos do conjunto de treinamento. Cada época é uma oportunidade para a rede ajustar seus pesos. Treinar por muitas épocas costuma melhorar o resultado — até o ponto em que a rede começa a decorar (overfitting), em vez de generalizar.

Erro

Perda (loss)

A perda é a métrica que a rede tenta reduzir. Para classificação, geralmente usamos entropia cruzada binária (BCE); para regressão, erro quadrático médio (MSE). Quando a perda cai época após época, a rede está aprendendo. Quando ela estagna ou sobe, algo está errado: taxa muito alta, capacidade insuficiente, dados ruins.

Como a rede aprende

Backpropagation + gradiente descendente

É o algoritmo que faz a mágica acontecer. Para cada exemplo, a rede:

Calcula a previsão passando os dados pelas camadas (forward pass).
Compara a previsão com o gabarito e mede o erro (perda).
Calcula, indo de trás para frente, quanto cada peso contribuiu para o erro (esse é o backpropagation).
Empurra cada peso na direção oposta ao erro, com um passinho proporcional à taxa de aprendizado (gradient descent).

Repita isso milhares de vezes — e a rede sai sozinha de pesos aleatórios para uma configuração que resolve o problema.

Hiperparâmetro	O que faz	Sugestão inicial
Número de camadas ocultas	Aumenta capacidade de modelar curvas complexas. 0 = perceptron.	1 (problemas simples) ou 2 (espirais, anéis finos)
Neurônios por camada	Aumenta a 'largura' da rede. Mais neurônios = mais subpadrões detectáveis.	4 a 8 para a maioria dos cenários deste lab
Função de ativação	Define a forma da não-linearidade. Diferentes ativações = diferentes velocidades de treino.	tanh ou ReLU em camadas ocultas; sigmoide na saída de classificação binária
Taxa de aprendizado (lr)	Tamanho do passo de cada ajuste de peso.	0,05 a 0,3 para tanh/ReLU; 0,3 a 0,5 para sigmoide
Épocas	Quantas vezes a rede vê o conjunto inteiro.	100 a 300 para problemas 2D simples; mais para os complexos

Deep Learning

Perceptron interativo (o neurônio original)

Laboratório de rede neural (camadas e backpropagation)

Os conceitos que você vai encontrar nas duas simulações