Imagem
Imagem

POST NO BLOG QUBIC

As previsões de LLM não são previsões cerebrais

Escrito por

Equipe Científica Qubic

Equipe Científica Qubic

Publicado:

2 de set. de 2025

As previsões de LLM não são previsões cerebrais
As previsões de LLM não são previsões cerebrais

Ouça este post do blog

Imagem
Imagem


Quando dizemos que algo “prediz”, realmente queremos dizer que antecipa o que virá a seguir. Em ambientes de IA, frequentemente lemos, mais de uma vez, a palavra previsão como um fenômeno através do qual a IA é dita imitar uma das características mais importantes do cérebro humano e suas redes biológicas. Aparentemente, ambos fazem previsões. No entanto, embora cumpram a mesma missão e assim antecipem o futuro imediato, a semelhança é mais semântica e superficial do que real.


Previsão em máquinas

A previsão em LLMs, como ChatGPT, Grok, Gemini ou DeepSeek, envolve a minimização de erros através de várias funções matemáticas. Modelos de Linguagem Grande (LLMs) não pensam ou entendem como um ser humano, nem possuem representações internas de conhecimento, mas aprendem a prever a próxima palavra em uma sequência de texto.

Este aprendizado é baseado na similaridade entre a saída do modelo e a palavra real. Quanto maior a similaridade, melhor; quanto maior a diferença, maior a discrepância e o erro entre o que se esperava e o que realmente aconteceu. Para reduzir esse erro, é utilizada uma função matemática chamada função de custo, que mede a diferença entre o que um modelo prevê e o que realmente ocorre.

Para isso, cada palavra ou token é representado como um vetor numérico em um espaço de muitas dimensões, chamado de embedding, que codifica relações semânticas e sintáticas aprendidas pela rede.

Você pode se perguntar por que uma palavra não é representada em um espaço de 2 ou 3 dimensões. A linguagem é muito mais complexa e requer capturar simultaneamente milhares de nuances (fonológicas, gramaticais, semânticas, sintáticas, pragmáticas, prosódicas, contextuais, de frequência, de uso, de probabilidade de fechamento). Com muitas dimensões (milhares em LLMs), o modelo pode distribuir palavras melhor, de modo que relações semânticas e gramaticais sejam representadas com precisão. Cada dimensão não corresponde a um “significado” específico (não é que exista uma dimensão “plural/singular” ou “positivo/negativo” ou “substantivo/verbo”), mas sim componentes latentes aprendidos automaticamente, que em combinação capturam algumas regularidades.

Uma palavra (ou mais precisamente um token) dentro dos LLMs é representada como um vetor numérico de X dimensões. Por exemplo, suponha que o vetor correspondente à palavra “gato” em um modelo hipotético de 3 dimensões seja [0.7, −1.2, 2.3] e o de “cachorro” seja [0.6, −1.0, 2.1]. Ambos os vetores estão próximos no espaço, refletindo que “gato” e “cachorro” ocorrem em contextos semelhantes em textos.

O vetor então passa por múltiplas camadas de autoatendimento e redes feed-forward. “Atenção”, que é uma característica dos transformadores, leva em conta a informação de cada token/palavra observando os outros na sequência, como se pudesse analisar frases em vez de palavras isoladas. Após várias camadas, o embedding de “gato” não contém mais apenas informações sobre “gato”, mas também sobre o contexto (“O gato subiu até o telhado...” ). A atenção permite que cada palavra “olhe” para todas as outras na frase para decidir quais são relevantes. Por exemplo, na frase “O gato subiu no telhado porque estava assustado”, o modelo precisa decidir quem estava assustado: o gato ou o telhado? Graças à “atenção”, o modelo vincula corretamente “assustado” com o gato. Uma vez treinado, o modelo gera texto autoregressivamente ao pegar um contexto, calcular probabilidades para a próxima palavra, escolher uma, adicioná-la ao texto e repetir o processo palavra por palavra, como se estivesse completando um quebra-cabeça infinito.

figure 1

Figura 1. Embeddings mundiais.

O vetor final fornece uma probabilidade, codificada entre 0 e 1, da palavra esperada. Neste caso, poderia ser uma distribuição de probabilidade com valores como “cachorro” = 0.25, “gato” = 0.45, “coelho” = 0.25, “pássaro” = 0.10. A função de custo minimiza o erro através de um mecanismo que ajusta os pesos e viés das camadas anteriores. Ao minimizar a função de custo, o modelo aprende progressivamente a melhorar suas previsões.

Na prática de treinamento, o modelo recebe milhares de exemplos de sentenças como “Hoje é um dia muito ___.” Durante o aprendizado, o modelo atribui probabilidades a diferentes opções. Pode estimar que “feliz” tem uma probabilidade de 30%, “triste” 25% e “ensolarado” 10%. Se a resposta real no corpus é “ensolarado”, o modelo falhou e sua função de custo penaliza-o por não ter atribuído probabilidade suficiente a essa opção. A retropropagação corrige os parâmetros internos (os “pesos” da rede) para reduzir esse erro em futuras ocasiões. Esse processo se repete milhões de vezes até que o modelo ajuste seus parâmetros para refletir os padrões estatísticos da linguagem.

Previsão é, como você pode ver, essencialmente a conversão de palavras em vetores numéricos dentro de um espaço multidimensional que é ajustado através do treinamento.


Esse tipo de previsão se assemelha à do cérebro?

Na neurociência, a noção de previsão é baseada em codificação preditiva, inferência bayesiana e o princípio da energia livre de Friston. O cérebro não é um processador de informação passivo, mas um sistema hierárquico que gera hipóteses sobre o estado do mundo e compara essas hipóteses com a informação sensorial que chega. Esses tipos de previsões ocorrem principalmente no córtex cerebral. Áreas de nível superior enviam previsões descendentes (top–down) para áreas de nível inferior. As áreas inferiores retornam sinais de erro de previsão quando os estímulos não correspondem às entradas antecipadas.

Por exemplo, na visão, se vemos uma bola se movendo, áreas de ordem superior (córtex parietal e motor) antecipam sua trajetória. As áreas visuais primárias (V1, V2) recebem as informações sensoriais. Se a bola muda de direção de repente, um erro de previsão aparece, forçando as camadas superiores a atualizar suas informações para prever o próximo movimento novamente. Na audição, ao seguir uma melodia, o córtex auditivo primário (A1) prevê a próxima nota. Se uma dissonância aparece, ficamos surpresos, refletindo o sinal de erro. Se, por exemplo, você vai pegar uma mala que presumia estar vazia, o córtex pré-motor envia sinais ao córtex motor e, a partir daí, a neurônios motores para ativar músculos com a força e tensão necessárias. Se ao pegar a mala ela se revela cheia, o cérebro readjusta previsões correspondente às reais informações sensoriais.

O objetivo é sempre reduzir a discrepância entre o que se espera e o que se percebe. É por isso que o cérebro funciona fundamentalmente como um órgão preditivo, não como um reativo. Mantemos um modelo ativo do mundo, não um passivo.

Esse modelo interno do mundo é refinado continuamente, em escalas de tempo rápidas de milissegundos e também em processos prolongados de aprendizado ao longo do tempo. Todas as áreas corticais, da visão ao controle motor, operam sob esse mesmo esquema preditivo. A discrepância entre a entrada esperada e a real, o erro de previsão, propaga-se para cima (bottom–up) e serve como um sinal de aprendizado para ajustar o modelo interno.

Como o aprendizado ocorre? Através da plasticidade sináptica, que atua como um mecanismo de ajuste via potenciação de longo prazo (LTP) ou depressão de longo prazo (LTD), dependendo da atividade.

O conceito de um modelo do mundo não se limita à percepção sensorial. A cognição social, atribuindo intenções, crenças e emoções a outras pessoas, também depende de mecanismos preditivos. Em regiões como o córtex pré-frontal medial (mPFC), o sulco temporal superior (STS) e a junção temporoparietal (TPJ), hipóteses sobre os estados mentais dos outros são geradas e confrontadas com os sinais observados em seu comportamento. O erro de previsão social, quando as ações de outra pessoa não correspondem às nossas expectativas, nos obriga a readjustar o modelo mental que temos de suas intenções. Isso acontece todos os dias. Precisamos readjustar nossas ideias, expectativas e análises anteriores.

As emoções também funcionam dessa maneira. O córtex insular anterior, o córtex cingulado anterior e regiões do córtex orbitofrontal integram sinais viscerais das sensações corporais (interocepção) com previsões que fazemos com base no contexto. Embora geralmente consideremos “emoção” como uma reação universal pré-programada, na verdade é o resultado de inferências preditivas sobre o estado corporal mais provável em um determinado contexto. A emoção emerge como uma hipótese do cérebro sobre “como o corpo deve se sentir agora” e é corrigida através da comparação com os reais aferentes viscerais.

No nível da memória, cada experiência não é arquivada como um dado fixo. Ela é integrada ao modelo interno através da plasticidade sináptica que produz as alterações necessárias para refinar previsões futuras. Lembrar, nesse sentido, significa  reativar inferências de redes cerebrais (a rede cortical-hipocampal) que são atualizadas com cada nova experiência.

Em última análise, o modelo do mundo no cérebro não é apenas sensorial, mas também prevê as intenções dos outros e os estados corporais que rotulamos como emoções. A inteligência biológica é uma máquina preditiva orientada a reduzir a incerteza em todos os níveis da experiência.

Portanto, o cérebro não representa informações com vetores numéricos discretos como um LLM. Não existem embeddings explícitos de 300 ou 1024 dimensões. Os neurônios não armazenam listas fixas de números, embora na neurociência computacional a codificação populacional de neurônios possa ser modelada como vetores de atividade em espaços de alta dimensão.

Nos LLMs, o embedding é estático e fixo após o treinamento, enquanto no cérebro os vetores neuronais são dinâmicos ao longo do tempo, variáveis e plásticos. Em um LLM, os valores são parâmetros abstratos sem ligação com energia ou biologia, enquanto no cérebro os valores correspondem a processos bioelétricos e bioquímicos reais, sujeitos a ruído, plasticidade e modulação.

figure 2

Como você pode inferir, a possibilidade de uma inteligência geral emergir de um LLM é, pelo menos do ponto de vista neurocientífico, uma quimera, já que a previsão, mesmo que compartilhe o nome, reflete mecanismos e realidades muito diferentes.

Agora é a vez de Aigarth.

Jose Sánchez. Consultor científico da Qubic.

 

Referências

  • Barrett, L. F. (2017). A teoria da emoção construída: uma conta de inferência ativa de interocepção e categorização. Neurociência Social Cognitiva e Afetiva, 12(11), 1833–1840. https://doi.org/10.1093/scan/nsw154

  • Hutchinson, J. B., & Barrett, L. F. (2019). O poder das previsões: um novo paradigma para a pesquisa psicológica. Direções Atuais em Ciência Psicológica, 28(3), 281–289. https://doi.org/10.1177/0963721419831992

  • Friston, K. (2010). O princípio da energia livre: uma teoria cerebral unificada? Nature Reviews Neuroscience, 11(2), 127–138. https://doi.org/10.1038/nrn2787

  • Rao, R. P. N., & Ballard, D. H. (1999). Codificação preditiva no córtex visual: uma interpretação funcional de alguns efeitos de campo receptivo extra-clássicos. Nature Neuroscience, 2(1), 79–87. https://doi.org/10.1038/4580

  • Knill, D. C., & Pouget, A. (2004). O cérebro bayesiano: o papel da incerteza na codificação neural e na computação. Tendências em Neurociências, 27(12), 712–719. https://doi.org/10.1016/j.tins.2004.10.007

  • Frith, C. D., & Frith, U. (2006). A base neural da mentalização. Neuron, 50(4), 531–534. https://doi.org/10.1016/j.neuron.2006.05.001

  • Keller, G. B., & Mrsic-Flogel, T. D. (2018). Processamento preditivo: uma computação cortical canônica. Neuron, 100(2), 424–435. https://doi.org/10.1016/j.neuron.2018.10.003

  • Georgopoulos, A. P., Schwartz, A. B., & Kettner, R. E. (1986). Codificação populacional neuronal da direção do movimento. Science, 233(4771), 1416–1419. https://doi.org/10.1126/science.3749885

  • Bengio, Y., Ducharme, R., Vincent, P., & Jauvin, C. (2003). Um modelo de linguagem probabilístico neural. Journal of Machine Learning Research, 3, 1137–1155.

  • LeCun, Y., Bengio, Y., & Hinton, G. (2015). Aprendizado profundo. Nature, 521(7553), 436–444. https://doi.org/10.1038/nature14539

  • Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, Ł., & Polosukhin, I. (2017). Atenção é tudo o que você precisa. Avanços em Sistemas de Processamento de Informação Neural, 30, 5998–6008.

Tay, Y., Dehghani, M., Bahri, D., & Metzler, D. (2023). Transformers eficientes: uma pesquisa. ACM Computing Surveys, 55(6), Artigo 109.https://doi.org/10.1145/3530811


Acompanhe-nos no X @Qubic
Saiba mais em qubic.org
Inscreva-se no Boletim da AGI for Good abaixo.


Inscreva-se para o Boletim da Equipe Científica Qubic Aqui:

© 2026 Qubic.

Qubic é uma rede descentralizada e de código aberto para tecnologia experimental. Nada neste site deve ser interpretado como aconselhamento de investimento, jurídico ou financeiro. A Qubic não oferece valores mobiliários, e a participação na rede pode envolver riscos. Os usuários são responsáveis por cumprir as regulamentações locais. Por favor, consulte profissionais jurídicos e financeiros antes de interagir com a plataforma.

© 2026 Qubic.

Qubic é uma rede descentralizada e de código aberto para tecnologia experimental. Nada neste site deve ser interpretado como aconselhamento de investimento, jurídico ou financeiro. A Qubic não oferece valores mobiliários, e a participação na rede pode envolver riscos. Os usuários são responsáveis por cumprir as regulamentações locais. Por favor, consulte profissionais jurídicos e financeiros antes de interagir com a plataforma.

© 2026 Qubic.

Qubic é uma rede descentralizada e de código aberto para tecnologia experimental. Nada neste site deve ser interpretado como aconselhamento de investimento, jurídico ou financeiro. A Qubic não oferece valores mobiliários, e a participação na rede pode envolver riscos. Os usuários são responsáveis por cumprir as regulamentações locais. Por favor, consulte profissionais jurídicos e financeiros antes de interagir com a plataforma.