Capítulo IV

Deep Learning

Você vai construir, ativar e treinar uma rede neural — do perceptron de um único neurônio até redes com camadas ocultas. Veja o sinal fluindo, os neurônios acendendo e a fronteira de decisão sendo aprendida.

Simulação · 1 de 2

Perceptron interativo (o neurônio original)

Construa um único neurônio. Veja como ele soma entradas, aplica uma ativação e aprende uma fronteira linear — exatamente como Frank Rosenblatt propôs em 1957. Descubra também o limite que o levou ao "inverno da IA".

Visualização do neurônio5 etapas≈ 6–10 min
Iniciar simulação
Simulação · 2 de 2

Laboratório de rede neural (camadas e backpropagation)

Monte sua rede: número de camadas ocultas, neurônios por camada, função de ativação, taxa de aprendizado. Treine, veja os neurônios acendendo e a fronteira de decisão sendo esculpida em tempo real.

Cenários não-lineares6 etapas≈ 10–15 min
Iniciar simulação
Antes de começar

Os conceitos que você vai encontrar nas duas simulações

Esta página serve de âncora conceitual. Você não precisa ler tudo agora — cada simulação retoma esses termos com exemplos vivos. Mas se em algum momento aparecer uma palavra que gere dúvida (“peso”, “bias”, “época”, “ativação”), volte aqui e leia com calma.

Unidade mínima

Neurônio artificial

É a peça fundamental. Recebe várias entradas numéricas (por exemplo, idade e renda), multiplica cada uma por um peso, soma tudo, adiciona um bias e passa o resultado por uma função de ativação. O que sai é um número — que pode ser interpretado como uma decisão (sim/não) ou como uma estimativa contínua.

Apesar do nome inspirado na biologia, não há mistério: tudo que um neurônio faz é uma soma ponderada seguida de uma função.

Coeficientes

Pesos (w₁, w₂, …)

Os pesos dizem quanto cada entrada importa para a decisão do neurônio. Um peso grande significa que aquela entrada empurra fortemente o resultado; um peso pequeno significa que ela quase não influencia. Pesos podem ser positivos (a entrada empurra para a saída 1) ou negativos (empurra para 0).

Treinar uma rede é ajustar pesos. No início eles são aleatórios; ao longo do treinamento, a rede vai descobrindo, sozinha, quais valores fazem ela acertar mais.

Deslocamento

Bias (b)

O bias é um valor extra somado depois da soma ponderada. Sem ele, a fronteira que o neurônio aprende seria obrigada a passar pela origem (o ponto onde todas as entradas valem zero). Com bias, a fronteira pode ser deslocada para qualquer lugar do plano — o que dá muito mais flexibilidade ao modelo.

Pense numa balança: os pesos são os braços, e o bias é o pratinho extra que faz a balança pender de início para um lado mesmo sem nenhuma carga.

Decisão não-linear

Função de ativação

A ativação transforma a soma ponderada num número final. Se ela fosse simplesmente uma reta (“linear”), empilhar vários neurônios não adiantaria nada — a rede inteira colapsaria num modelo linear só. É a não-linearidade da ativação que permite a rede aprender curvas, anéis, espirais.

Sigmoide σ(z) = 1/(1+e⁻ᶣ)

Suaviza qualquer entrada para um valor entre 0 e 1. Ótima como saída de classificação binária.

Tanh tanh(z)

Como a sigmoide, mas vai de −1 a 1. Costuma treinar mais rápido em camadas ocultas.

ReLU max(0, z)

Devolve 0 para entradas negativas e a própria entrada para positivas. É a preferida em redes profundas modernas.

Degrau z ≥ 0 ? 1 : 0

Liga (1) ou desliga (0). É a ativação clássica do perceptron de Rosenblatt (1957). Não permite gradiente.

Estrutura

Camadas (entrada, oculta, saída)

Uma rede neural é uma sequência de camadas. A camada de entradarecebe as variáveis do problema. A camada de saída produz a previsão final. Entre elas vivem as camadas ocultas, onde a rede inventa representações internas que facilitam a tarefa.

Quanto mais camadas ocultas, mais profunda é a rede — daí o nome Deep Learning. Mais profundidade significa mais capacidade de aprender padrões complexos, mas também mais risco de aprender ruído (overfitting).

Tamanho do passo

Taxa de aprendizado (lr)

É o tamanho do passo que a rede dá ao ajustar cada peso. Uma taxa alta faz a rede aprender rápido, mas pode oscilar e nunca estabilizar. Uma taxa baixa faz aprender devagar, porém de forma estável.

Metáfora: você está descendo uma montanha vendado. Passos largos podem te jogar para o outro lado do vale; passos minimos demoram uma eternidade.

Repetição

Épocas

Uma época é uma passagem completa por todos os exemplos do conjunto de treinamento. Cada época é uma oportunidade para a rede ajustar seus pesos. Treinar por muitas épocas costuma melhorar o resultado — até o ponto em que a rede começa a decorar (overfitting), em vez de generalizar.

Erro

Perda (loss)

A perda é a métrica que a rede tenta reduzir. Para classificação, geralmente usamos entropia cruzada binária (BCE); para regressão, erro quadrático médio (MSE). Quando a perda cai época após época, a rede está aprendendo. Quando ela estagna ou sobe, algo está errado: taxa muito alta, capacidade insuficiente, dados ruins.

Como a rede aprende

Backpropagation + gradiente descendente

É o algoritmo que faz a mágica acontecer. Para cada exemplo, a rede:

  1. Calcula a previsão passando os dados pelas camadas (forward pass).
  2. Compara a previsão com o gabarito e mede o erro (perda).
  3. Calcula, indo de trás para frente, quanto cada peso contribuiu para o erro (esse é o backpropagation).
  4. Empurra cada peso na direção oposta ao erro, com um passinho proporcional à taxa de aprendizado (gradient descent).

Repita isso milhares de vezes — e a rede sai sozinha de pesos aleatórios para uma configuração que resolve o problema.

Referência rápida · hiperparâmetros
HiperparâmetroO que fazSugestão inicial
Número de camadas ocultasAumenta capacidade de modelar curvas complexas. 0 = perceptron.1 (problemas simples) ou 2 (espirais, anéis finos)
Neurônios por camadaAumenta a 'largura' da rede. Mais neurônios = mais subpadrões detectáveis.4 a 8 para a maioria dos cenários deste lab
Função de ativaçãoDefine a forma da não-linearidade. Diferentes ativações = diferentes velocidades de treino.tanh ou ReLU em camadas ocultas; sigmoide na saída de classificação binária
Taxa de aprendizado (lr)Tamanho do passo de cada ajuste de peso.0,05 a 0,3 para tanh/ReLU; 0,3 a 0,5 para sigmoide
ÉpocasQuantas vezes a rede vê o conjunto inteiro.100 a 300 para problemas 2D simples; mais para os complexos
MEL · ML Executive Lab
@AndreBarcaui
Edição experimental · 2026