Como funcionam os Transformers - A arquitetura por trás do ChatGPT
Os Transformers são a arquitetura de rede neural que impulsiona o ChatGPT e a maioria dos modelos de linguagem atuais. Eles funcionam processando sequências inteiras de dados de uma só vez — em vez de palavra por palavra — usando um mecanismo de atenção para entender o contexto e o relacionamento entre cada palavra.
A arquitetura principal, detalhada no famoso artigo "Attention Is All You Need", divide-se em duas partes principais: o Codificador (Encoder) e o Decodificador (Decoder)
1. Mecanismo de Atenção (Self-Attention)
Em vez de ler um texto de forma estritamente linear, o modelo avalia a importância de todas as palavras de uma frase em relação a uma palavra específica simultaneamente.
Exemplo: Na frase "O banco estava sujo porque o rio transbordou", o modelo entende que "banco" se refere à margem de um rio, e não a uma instituição financeira, calculando o peso e a "atenção" entre as palavras.
2. Codificador (Encoder)
Presente na arquitetura original, ele lê e analisa o texto de entrada.Converte cada palavra em um vetor numérico (uma representação matemática chamada embedding) que captura o seu significado e contexto.
O codificador cria uma representação rica e bidirecional do texto.
3. Decodificador (Decoder)
É a parte fundamental do ChatGPT. Ele recebe o contexto processado e gera uma resposta, palavra por palavra, prevendo qual será a próxima palavra mais provável.
Utiliza a atenção mascarada para garantir que, ao prever uma palavra, o modelo não "olhe" para as palavras que ainda serão geradas no futuro.
4. Codificação Posicional (Positional Encoding)
Como os Transformers processam todas as palavras ao mesmo tempo, eles perderiam a noção da ordem (por exemplo, a diferença entre "O cão mordeu o homem" e "O homem mordeu o cão"). A codificação posicional adiciona um sinal matemático à entrada que indica a posição exata de cada palavra na sequência.
5. Treinamento em Larga Escala (Pré-treinamento)
Esses modelos são treinados com bilhões de páginas de texto da internet.
Eles aprendem a prever a próxima palavra ocultando partes do texto (aprendizado auto-supervisionado). Após essa base, eles passam por um ajuste fino com feedback humano (como o Reinforcement Learning from Human Feedback ou RLHF) para aprender a conversar de forma segura, útil e natural.

Comentários
Enviar um comentário