AULA 02 DE 08

Como funcionam os LLMs (ChatGPT, Claude, Gemini)

Entenda o que é token, contexto, temperatura e alucinação — e escolha o modelo certo para cada tarefa de marketing.

Nesta aula você vai aprender

Como um LLM literalmente "pensa" (em tokens, não em ideias)
O que são contexto, temperatura e janela de memória
Por que os modelos às vezes inventam fatos (e como evitar)
Qual a diferença entre GPT-5, Claude 4.6 e Gemini 2 no uso real
Qual modelo escolher para cada tarefa do seu marketing

LLM: o que significa essa sigla

LLM é abreviação de Large Language Model — modelo de linguagem de grande escala. É o tipo de IA por trás do ChatGPT, Claude, Gemini, LLaMA, Mistral e companhia. Tecnicamente, um LLM é uma rede neural enorme (bilhões de parâmetros) treinada em praticamente todo o texto útil que a humanidade deixou online: livros, artigos, fóruns, Wikipedia, códigos, manuais. O que ele aprende nessa avalanche de texto não é "o que é verdade" — é como palavras se conectam com outras palavras em contextos específicos.

Essa distinção é importante porque ela explica tanto os superpoderes quanto os limites. O modelo não sabe que Pelé nasceu em Três Corações porque alguém lhe ensinou esse fato. Ele sabe porque viu essa sentença escrita milhares de vezes e aprendeu a completar "Pelé nasceu em..." com alta probabilidade para "Três Corações". É reconhecimento de padrão estatístico em escala astronômica.

Tokens: a moeda do LLM

O LLM não lê letras e não lê palavras — ele lê tokens. Um token é um pedaço de texto, geralmente entre meia e uma palavra em português. A frase "Marketing digital transforma negócios" tem aproximadamente 7 tokens. Cada pergunta que você faz é quebrada em tokens, processada em tokens, e a resposta é construída um token por vez.

Por que isso importa para você? Porque todos os modelos cobram por token (quando você usa via API) ou limitam quantidade (quando você usa na interface grátis). E porque a "inteligência" do modelo é, literalmente, a capacidade de escolher o próximo token certo dado tudo o que veio antes.

Exemplo real: um gestor de mídia pediu ao ChatGPT para analisar um PDF de 80 páginas com o relatório trimestral do concorrente. O modelo "respondeu" mas deu uma análise genérica. Por quê? O PDF passou do limite de contexto — o modelo viu só as primeiras 30 páginas. Se ele soubesse disso, teria pedido para colar o PDF em partes ou teria usado um modelo com janela maior (Claude ou Gemini). Conhecer essa limitação economiza horas de frustração.

Janela de contexto: a memória de trabalho

A janela de contexto é quanto texto o modelo consegue "enxergar" de uma vez só. Em 2026, as janelas ficaram gigantes:

GPT-5: 400 mil tokens (aproximadamente 300 mil palavras)
Claude 4.6: 500 mil tokens (cerca de 375 mil palavras)
Gemini 2: 2 milhões de tokens (um livro inteiro cabe tranquilo)

Na prática de marketing, isso significa que você pode colar o histórico de 50 e-mails com um cliente, anexar o briefing completo, somar as três pesquisas de concorrência, e ainda sobra espaço para o modelo responder. Isso muda completamente o tipo de trabalho que você pode delegar.

Atenção: janela não é memória permanente. Quando a conversa acaba, o modelo esquece tudo. Se você quer que ele "lembre" do cliente X no mês que vem, precisa reinserir o contexto ou usar recursos de memória persistente (que GPT e Claude já oferecem em planos pagos).

Temperatura: o botão da criatividade

Temperatura é um parâmetro que define o quão "arriscado" o modelo vai ser ao escolher o próximo token. Varia de 0 a 2 (depende do modelo).

Temperatura 0: máxima previsibilidade. O modelo escolhe sempre a opção mais provável. Ótimo para tarefas que exigem precisão — extrair dados, classificar leads, resumir fatos.
Temperatura 0.7 (padrão): equilíbrio entre coerência e originalidade. Padrão da maioria das interfaces. Bom para copy comum, e-mail, resumo.
Temperatura 1.2-1.5: criatividade aumentada. Bom para brainstorm de headlines, nomes de campanha, ideias disruptivas. Acima disso, o texto começa a ficar incoerente.

Em interfaces como ChatGPT e Claude você não controla temperatura diretamente — ela é ajustada atrás dos panos. Mas você pode simular: peça "me dê a resposta mais óbvia e previsível" (equivale a temp baixa) ou "quero 10 opções bem ousadas e fora da caixa" (equivale a temp alta).

Alucinação: o calcanhar de Aquiles

Alucinar, no jargão de IA, é o modelo inventar um fato convincente que não existe. Ele vai te dizer que "a pesquisa da Nielsen de 2023 mostrou aumento de 34% no engajamento com vídeos verticais entre 25-34 anos" — e você vai copiar no relatório. Só que essa pesquisa não existe. O número tampouco.

Por que acontece? Porque o modelo é uma máquina de completar padrão. Se o padrão "a pesquisa da X de Y mostrou aumento de Z% em W" aparece muito nos dados de treinamento, ele vai produzir frases assim com números plausíveis mesmo quando não tem fonte real.

Onde a alucinação mais acontece

Citações de pesquisas, estudos e relatórios específicos
Datas precisas, estatísticas, percentuais
Nomes de pessoas em contextos específicos
URLs, endpoints de API, links
Casos de empresas reais com detalhes narrativos

Como reduzir drasticamente

Use Perplexity (ou ChatGPT com busca web ativa) para qualquer fato público
Peça explicitamente: "se não tiver certeza, diga 'não tenho dado seguro sobre isso'"
Nunca publique número ou citação saída de IA sem verificar na fonte primária

Regra de ouro: texto solto que soa bem — confie. Número, nome próprio, citação específica — desconfie e verifique. Sempre.

GPT-5, Claude 4.6 e Gemini 2: qual usar para quê

Os três são excelentes. Mas têm personalidades e pontos fortes diferentes. Sugiro pensar assim:

Tarefa de marketing	Melhor escolha	Por quê
Copy longa (blog, e-mail, VSL)	Claude 4.6	Texto mais natural e menos "robótico", segue tom com precisão
Brainstorm rápido, headlines	GPT-5	Respostas ágeis e criativas, bom em listas variadas
Análise de PDFs gigantes	Gemini 2	Janela de 2M tokens processa relatórios inteiros
Geração de imagem integrada	Gemini 2	Imagem + texto no mesmo fluxo, ótimo para posts
Pesquisa com fontes reais	Perplexity (roda vários)	Cita fontes, ideal para reduzir alucinação
Planilhas, análise de dados	GPT-5 (code interpreter)	Roda Python no navegador, ótimo para .csv
Reescrita de marca, tom de voz	Claude 4.6	Entende nuance de estilo melhor que os outros
Roteiro de vídeo curto	Claude 4.6 ou GPT-5	Ambos boas, teste qual combina com sua voz

Minha recomendação honesta: assine dois desses modelos (idealmente Claude + GPT, ou Claude + Gemini) e alterne. Cada um tem gosto e viés. A combinação evita que todo o seu conteúdo acabe com o mesmo "cheiro".

Prompt testado — teste seu modelo

Quero avaliar qual LLM se encaixa melhor com o tom de voz da minha
marca. Vou te dar uma amostra do nosso estilo e depois te pedir para
escrever a mesma peça. Depois vou comparar os modelos.

Nossa marca: [NOME]
Setor: [SETOR]
Nosso tom: [DESCREVA EM 3 ADJETIVOS + 1 FRASE EXPLICATIVA].

Amostras do nosso texto (copie 2-3 parágrafos reais):
"[COLE AMOSTRA 1]"
"[COLE AMOSTRA 2]"

Tarefa: escreva um e-mail de 180 palavras anunciando o lançamento de
[PRODUTO/SERVIÇO] para a base de clientes ativos. Mantenha o tom
exato das amostras. Use o mesmo ritmo de frase, o mesmo vocabulário,
o mesmo tipo de pontuação. Não explique suas escolhas, apenas escreva
o e-mail. Assunto + corpo + CTA.

Por que às vezes o modelo erra nome e número

Três causas recorrentes:

Confusão de tokens parecidos: nomes próprios com grafia incomum são frequentemente trocados. O modelo calculou que o próximo token mais provável era uma versão parecida.
Base desatualizada: cada modelo tem uma data de corte do treinamento. Se você pergunta sobre evento recente sem ativar busca web, ele pode "completar" com informação antiga ou inventada.
Contexto ambíguo: se o seu prompt não especifica qual "João Silva" você quer, o modelo pode misturar referências.

Solução: sempre forneça contexto específico (empresa, ano, setor) e peça que ele cite fonte ou admita incerteza.

Prompt testado — anti-alucinação

Você vai me ajudar a preparar um relatório trimestral de tendências
de consumo para o setor de [SETOR] no Brasil.

Regras estritas:
1. Use apenas informações que você tem alta confiança.
2. Para CADA afirmação que envolva número, percentual, data ou
   nome próprio de empresa/pessoa, adicione ao final uma das 3 tags:
   [CONFIAVEL] — tenho certeza
   [VERIFICAR] — parece correto mas precisa checar fonte
   [ESPECULATIVO] — estou estimando, trate como hipótese
3. Se não tiver dado seguro sobre algum ponto, diga explicitamente:
   "Não tenho informação confiável sobre X — pesquise em fonte primária."
4. Não invente citações de institutos ou consultorias.
5. Estruture em 5 tendências, cada uma com 1 parágrafo.

Comece pelo esboço estrutural antes de detalhar.

Raciocínio passo a passo

Os modelos de 2026 ganharam capacidade de "pensar antes de responder" — é o chamado raciocínio estendido (extended thinking, reasoning mode). Na prática, o modelo gasta alguns segundos a mais pensando silenciosamente antes de devolver a resposta. Isso melhora muito resultado em tarefas complexas: planejamento de campanha, análise de funil, decomposição de estratégia.

Para marketing, ative esse modo (Claude chama de "Extended Thinking", GPT de "Reasoning") quando a tarefa envolver múltiplas decisões em cadeia. Para tarefa simples (reescrever assunto de e-mail), não precisa.

Resumo desta aula

LLMs operam por tokens — pedaços de palavra — e escolhem o próximo estatisticamente.
Janela de contexto define quanto texto cabe de uma vez; em 2026, dá para colar relatórios inteiros.
Temperatura controla o grau de criatividade: baixa para precisão, alta para brainstorm.
Alucinação é quando o modelo inventa fato plausível — previna com busca web, contexto explícito e verificação humana.
Claude para copy, GPT para agilidade, Gemini para contexto enorme e imagem. O ideal é ter dois assinados.

Voltar ao índice Próxima aula