Como funcionam os Transformers - A arquitetura por trás do ChatGPT

  

Os Transformers são a arquitetura de rede neural que impulsiona o ChatGPT e a maioria dos modelos de linguagem atuais. Eles funcionam processando sequências inteiras de dados de uma só vez — em vez de palavra por palavra — usando um mecanismo de atenção para entender o contexto e o relacionamento entre cada palavra.


A arquitetura principal, detalhada no famoso artigo "Attention Is All You Need", divide-se em duas partes principais: o Codificador (Encoder) e o Decodificador (Decoder)


1. Mecanismo de Atenção (Self-Attention)

Em vez de ler um texto de forma estritamente linear, o modelo avalia a importância de todas as palavras de uma frase em relação a uma palavra específica simultaneamente.

Exemplo: Na frase "O banco estava sujo porque o rio transbordou", o modelo entende que "banco" se refere à margem de um rio, e não a uma instituição financeira, calculando o peso e a "atenção" entre as palavras.



2. Codificador (Encoder)

Presente na arquitetura original, ele lê e analisa o texto de entrada.Converte cada palavra em um vetor numérico (uma representação matemática chamada embedding) que captura o seu significado e contexto.

O codificador cria uma representação rica e bidirecional do texto.


3. Decodificador (Decoder)

É a parte fundamental do ChatGPT. Ele recebe o contexto processado e gera uma resposta, palavra por palavra, prevendo qual será a próxima palavra mais provável.

Utiliza a atenção mascarada para garantir que, ao prever uma palavra, o modelo não "olhe" para as palavras que ainda serão geradas no futuro.


4. Codificação Posicional (Positional Encoding)

Como os Transformers processam todas as palavras ao mesmo tempo, eles perderiam a noção da ordem (por exemplo, a diferença entre "O cão mordeu o homem" e "O homem mordeu o cão"). A codificação posicional adiciona um sinal matemático à entrada que indica a posição exata de cada palavra na sequência.


5. Treinamento em Larga Escala (Pré-treinamento)

Esses modelos são treinados com bilhões de páginas de texto da internet.

 Eles aprendem a prever a próxima palavra ocultando partes do texto (aprendizado auto-supervisionado). Após essa base, eles passam por um ajuste fino com feedback humano (como o Reinforcement Learning from Human Feedback ou RLHF) para aprender a conversar de forma segura, útil e natural.

Comentários

Mensagens populares deste blogue

Machine Learning na prática - Do zero a um modelo que prevê algo útil

Singularidade tecnológica - Mito, possibilidade e prazos

História da IA - De Turing até os LLMs de hoje