Esta é a biblioteca curada do MEL: 34 obras seminais que atravessam 122 anos de história da inteligência artificial, do nascimento da regressão estatística aos modelos de linguagem que moldam a década atual. Quando uma afirmação do site parecer surpreendente, a fonte original costuma estar aqui.
Estudo da Microsoft Research que documenta capacidades emergentes do GPT-4 em tarefas que extrapolam a previsão do próximo token.
Referência para a família de modelos abertos da Meta, importante para entender a engenharia prática de LLMs fora dos laboratórios fechados.
Ponte prática entre teoria e implementação; útil para testar os conceitos da trilha em código.
InstructGPT: introduz o RLHF (reforço com feedback humano), técnica que tornou viáveis assistentes conversacionais como o ChatGPT.
Versão acessível do tratado anterior; ótima primeira leitura, com exercícios em R e Python e PDF aberto.
GPT-3: a escala de 175 bilhões de parâmetros revela comportamentos emergentes, como aprendizado em contexto a partir de poucos exemplos.
Mostra o poder do Transformer para compreensão de linguagem, consolidando a abordagem encoder bidirecional pré-treinada e ajustada por tarefa.
Conhecido como "GPT-1", apresenta o pré-treinamento generativo seguido de ajuste fino, linhagem direta dos LLMs decoder-only atuais.
Referência fundamental e didática da área; PDF disponibilizado pelos autores. Se for ler um único livro sobre RL, este é o livro.
PPO, algoritmo amplamente usado em pesquisa e indústria, inclusive no ajuste fino de LLMs com RLHF.
Artigo fundador da arquitetura Transformer. Propõe um modelo baseado puramente em atenção, dispensando recorrência e convoluções, originalmente para tradução automática.
Tratado de referência sobre redes neurais profundas, com versão online gratuita autorizada pelos autores.
ResNet: introduz blocos residuais e viabiliza redes com centenas de camadas; padrão arquitetural até hoje.
AlphaGo: marco histórico em que reforço profundo combinado a busca em árvore vence campeões humanos no Go.
Introduz o mecanismo de atenção em redes recorrentes; sem este artigo, não existiria o Transformer.
Panorama assinado pelos três autores premiados com o Turing Award. Leitura curta e essencial.
DQN: combina Q-Learning com redes neurais profundas e abre a era moderna do RL aplicado a jogos e robótica.
Leitura executiva sobre como problemas de negócio se traduzem em problemas de classificação e regressão.
AlexNet: o resultado que populariza redes profundas modernas e dispara a revolução do Deep Learning na visão computacional.
Referência canônica para regressão, classificação e teoria estatística do aprendizado supervisionado. PDF aberto pelos autores.
Tratamento estatístico rigoroso de clusterização, redução de dimensionalidade e métodos relacionados.
Define formalmente as florestas aleatórias, o conjunto (ensemble) de árvores que se tornou ferramenta padrão de mercado.
Apresenta a LeNet-5, arquitetura convolucional que reconhece dígitos manuscritos e antecipa o CNN moderno.
LSTM: arquitetura recorrente que dominou modelagem de sequência por quase duas décadas, antes da era Transformer.
Introduz o DBSCAN, alternativa ao K-means que descobre clusters de formato arbitrário e detecta ruído naturalmente.
Introduz as Support Vector Machines (SVM), uma das famílias clássicas de classificadores supervisionados.
Artigo seminal que formaliza o Q-Learning, algoritmo central do simulador desta trilha.
Define o coeficiente de silhueta, métrica que aparece como critério clássico para julgar a qualidade de uma clusterização.
Artigo histórico que populariza o algoritmo de retropropagação, base do treinamento de redes profundas até hoje.
Variante do K-means que dá nome ao algoritmo iterativo padrão usado na maioria das implementações modernas.
Trabalho que cunha o termo "K-means" e formaliza o algoritmo de clusterização que você simula nesta trilha.
Artigo seminal da Regressão Logística, apresentando a função sigmoide aplicada a dados binários.
Introduz a equação de Bellman e o conceito de valor de estado, alicerce matemático de praticamente todo método de aprendizado por reforço.
Texto inaugural da Análise de Componentes Principais (PCA), técnica de redução de dimensionalidade companheira inseparável da clusterização.