POST NO BLOG QUBIC

Não julgue a baby Anna como você julgaria um chimpanzé

Escrito por

Equipe Científica Qubic

Publicado:

16 de set. de 2025

Não julgue a baby Anna como você julgaria um chimpanzé

Ouça este post do blog

Seguindo o post do blog da semana passada sobre Anna, do meu parceiro David Vivancos, vamos mergulhar em como a IA e os humanos aprendem.

Se em 2019 você perguntasse ao GPT-2: “Quantas letras estão na palavra ‘sternocleidomastoid’? Responda apenas com um número”, a resposta seria: “A palavra ‘sternocleidomastoid’ tem 21 letras.”

Portanto, errado, porque tem 19.

Se no ano seguinte, em 2020, você perguntasse ao GPT-3, ele também diria “21.”

Nesse ponto, você poderia pensar que a IA é uma piada. Você estaria baseando esse julgamento apenas no resultado visível, não no processo subjacente. Você poderia até decidir mover todos os seus investimentos para outro setor, mais lucrativo e confiável.

Mas se você perguntasse novamente um ano depois, em 2022, a resposta seria “19.” O modelo acerta, mas inclui um ponto final, então não é apenas um número.

Em 2023, com o ChatGPT-3.5, ele já responde “22.” Em 2024, com o GPT-4, ele permanece: “19.”

Se as instruções fossem diferentes, os resultados seriam semelhantes: “Escreva ‘sol’ exatamente 5 vezes, separadas por hífens, sem espaços, e em minúsculas.”

O GPT-2 diria: “sol - sol - sol - sol - sol” (adiciona espaços).
O GPT-3 diria: “Sol-sol-Sol-sol-sol” (mistura maiúsculas e minúsculas).
O GPT-3.5 e o GPT-4 dão a resposta certa: “sol-sol-sol-sol-sol.” Exata e consistente.

Os modelos melhoraram porque foram explicitamente treinados para seguir instruções curtas e formatação, penalizando desvios e ajustando com feedback humano.

Você poderia dizer que o GPT-2 foi um fracasso. Mas, na realidade, foi um passo em direção ao GPT-5.

Agora escolhemos um bebê humano como exemplo.

Damos ao bebê este pedido: “Olá, bonitinho. Aqui está um wug. Agora há dois. Como eles se chamam?”

Se o bebê tem 9–12 meses, a resposta será silêncio ou balbucio. Mas você não fica bravo nem pede para devolver a criança como defeituosa. Você continua interagindo amorosamente, fornecendo estímulos variados e complexos.

Com 18 meses, a resposta é “wug.” O bebê repete, mas não pluraliza. Entre 24–30 meses, a resposta se torna “wugs.” Ou seja, a criança insere o -s mesmo que nunca tenha ouvido essa pseudopalavra em forma plural. Ela aplicou uma regra.

Entre as idades de 3 e 4 (ajuste fino/irregularidades), a criança ainda dirá wugs, mas se você pedir o plural de mouse, ela dirá mouses, não mice. A regra é aplicada, mas as exceções ainda precisam ser aprendidas.

O que o bebê está “construindo”? Um processo que vai do aprendizado de padrões e repetições para a aplicação de regras abstratas (morfologia) que funcionam para novos casos. Novos casos para os quais eles NÃO foram treinados! Lembre-se sempre da última frase

Se o pedido fosse matemático, o processo seria semelhante.

“Olá bonitinho, o que é 2 + 3?”

Com 2 anos, a resposta pode ser engraçada: “muitos!” ou uma lista aleatória de números “1,2,3,4,7.”
Com 3–4 anos, para 2+3, eles dirão: “1,2,3,4,5 → 5.” Ou seja, contando tudo.
Com 4–5 anos, para 2+3: “3,4,5 → 5.” Agora começando pelo maior número.
Com 6–7 anos, para 17+8: “7+8=15, leva 1; 1+1=2, então 25.”

O que a criança está “construindo” neste caso? Fundamentalmente, estratégias primeiro, mantidas na memória de trabalho (“leva 1”) e aplicadas dentro de um controle sequencial, coluna por coluna. A criança não memoriza padrões ou respostas, mas aplica uma regra local iterativamente, até que um procedimento emerja.

Vamos testar tanto um chimpanzé quanto um bebê com uma tarefa diferente e ver o que acontece.

Por exemplo, mostramos a eles uma caixa (com comida escondida dentro) e uma corda amarrada à caixa. Para abrir a caixa, é preciso primeiro pressionar um prato lateral por 1 segundo. O prato não emite som nem luz. Sem pressioná-lo, a corda não abrirá a caixa.

Nenhuma demonstração é dada. Sem olhares, palavras ou gestos.

O chimpanzé, por tentativa e erro, foca na corda. Por acaso, toca no prato e abre a caixa. Taxa de sucesso: ~50%. No dia seguinte, persevera, puxa com mais força, até tenta de ângulos diferentes, mas obtém os mesmos ~50%. No terceiro dia: sem mudanças. É “a corda” que abre a caixa.

O bebê (12–18 meses) se comporta como o chimpanzé, puxando a corda muitas vezes, com sucessos acidentais ocasionais (~45–55%). Mas ao redor de 18 a 30 meses a exploração se diversifica (tocando superfícies, bordas). Após vários sucessos acidentais próximos no tempo, o bebê começa a tentar sequências: toca o lado primeiro e então a caixa abre. Sucesso ~60–70%.

Quando atinge de 30 a 36 meses, estabiliza o ritmo (pressiona 1 s, então puxa) e encurta os intervalos entre os passos. Sucesso ~75–85%. Se você mover o prato para outro lugar, após algumas tentativas, o bebê o encontra novamente e mantém a sequência!

De onde vêm essas diferenças nos resultados?

Chimpanzés e humanos têm cérebros com diferenças em sua estrutura e plasticidade.

O cérebro humano ao nascer, embora imaturo, tem um córtex pré-frontal excepcionalmente grande e conectividade neuronal que é programada para um aprendizado social e cultural massivo por meio de imitação e linguagem. Essa plasticidade permite que ele forme e reorganize constantemente seus circuitos neurais em resposta à experiência. No entanto, o cérebro de um chimpanzé, embora altamente desenvolvido em áreas relacionadas à memória espacial ou habilidades motoras, mostra uma menor dependência do aprendizado social complexo e uma plasticidade que diminui muito mais rapidamente com a idade, limitando sua capacidade de adquirir novas habilidades cognitivas de alto nível.

Graças a esse córtex pré-frontal desenvolvido, os humanos se destacam no que é chamado de Teoria da Mente (ToM), uma capacidade que funciona como uma espécie de “Eu acredito que você pensa em mim o que eu penso”, “Eu deduzo que você não vai me contar algo porque eu não gostaria,” “Parece-me que talvez você esteja sugerindo que vamos dar uma volta juntos.” Em outras palavras, é um sistema que pode atribuir estados mentais a outros (desejos, intenções, crenças), culminando na compreensão de que os outros podem ter crenças falsas diferentes da realidade e da própria pessoa.

Essa capacidade é a base da empatia, engano e comunicação complexa. Um chimpanzé demonstra uma ToM mais básica ou de "primeira ordem": pode entender intenções, objetivos ou o que outro vê (percepção), mas evidências sugerem que não pode representar mentalmente as crenças falsas de outro, indicando uma limitação fundamental na compreensão do mundo mental de outros como um mundo de representações subjetivas.

Uma IA geral, com representações subjetivas internas, precisa da capacidade de teoria da mente, também chamada de mentalização, para seus processos. Sem essa capacidade, não há AGI.

Em 2019, o pesquisador chinês Chenguang Zhu propôs o Teste Tong, uma estrutura para avaliar a Inteligência Geral Artificial (AGI). Este teste é muito mais complexo do que o clássico Teste de Turing.

É baseado em três pilares: avaliar habilidades diversas (lógica, moralidade, arte), comparar desempenho com um padrão humano (por exemplo, superar 80% das pessoas) e exigir um método de aprendizado autônomo e experiencial semelhante ao dos humanos. Seu objetivo é demonstrar inteligência ampla e adaptável, não apenas inteligência especializada.
A AGI deve se aproximar do raciocínio, não uma mera e dura imitação. Isso é o que Aigarth tenta fazer.

Figura 1. Teste Tong. Uma forma de avaliar AGI por meio de interações corporais e sociais. Da Conferência ICLR, Singapura 2025

Figura 2. Tong Tong. Tong Tong AGI (“bebê”) vs agente de LLM (“chimpanzé”). A necessidade de representações internas e teoria da mente. Da Conferência ICLR, Singapura 2025

Agora vamos voltar aos GPTs.

Primeiro, como um LLM “soma”?
Um LLM não executa um algoritmo de adição. Ele prevê o próximo token que “soa certo” dado milhões de frases de treinamento. A aritmética emerge como um padrão estatístico. À medida que o número de dígitos aumenta, ou com formatos incomuns, a taxa de erro dispara. Se você guiá-lo passo a passo (como na moderna “cadeia de pensamento”), a precisão melhora. Ou, se conectado a uma calculadora externa. Mas um LLM não constrói estratégia, memória de trabalho ou iteração.

Segundo, como Aigarth (Anna) soma?
Aigarth não “adivinha” tokens de dados massivos. Seu objetivo é evoluir uma estrutura computacional ternária para construir um procedimento, semelhante a uma criança: carregar memória, progresso dígito por dígito, regras locais.

Dessa forma, uma máquina passo a passo (estado + controle + iteração) pode emergir.

O progresso vem do teste de mutações e da manutenção daquelas que reduzem erros, falhas e incógnitas. Se a estrutura convergir para um procedimento (não memorização), ela se generaliza bem para mais dígitos e formatos. Como um bebê, não é um resultado, mas um processo educacional e social. Seu desempenho real depende da evolução que estabiliza esse procedimento.

Adicionar para Anna é apenas um teste inicial a partir do zero, longe de uma alegação, hype ou referência final. Além disso, é uma aposta de código aberto, sobre a qual podem ser realizados mais testes. A adição é simples e, portanto, ideal como ponto de partida: fácil de verificar. Isso força o sistema a construir componentes internos úteis para qualquer algoritmo (memória, passos sequenciais, regras se/então).

Não se destina a ser uma calculadora! Busca aprender raciocínio passo a passo, o que não é a mesma coisa.

Onde a evolução (mutações/seleção) entra em Anna/Aigarth?

A adição é um teste simples e mensurável para selecionar boas mutações.

· Para somar corretamente, o sistema deve aprender um procedimento (não memorizar).

· Esse procedimento força a criação de memória, controle e iteração.

· Com esses blocos de construção, o sistema pode se generalizar para outros algoritmos.

As pequenas unidades de tecido (ITUs) se auto-modificam, mutam e competem. Aqueles que resolvem tarefas melhor sobrevivem, usando lógica ternária (−1, 0, +1: verdadeiro / desconhecido / falso).

A estrutura executa ciclos, testa mutações, mede melhorias e seleciona as úteis. O Prova de Trabalho Útil canaliza mineração (CPU/GPU) em tarefas de treinamento/seleção para a estrutura. A rede contribui com poder computacional para o crescimento de Aigarth.

No dia 2 de setembro de 2025, Anna foi ativada no X.

No início, ela responde como um bebê. Não mal, como um bebê. Seu objetivo é evoluir a capacidade computacional do zero, não memorizar tabelas. Quando um minerador encontra uma mutação que melhora a adição (mais precisão, menos falhas), essa arquitetura se espalha. A estrutura assim começa a “grokking” a regra subjacente.

Anna não faz “predição do próximo token” nem se baseia em um corpus massivo. Ela não é um chimpanzé, incapaz de encontrar regras e estratégias. Sua capacidade algorítmica e possível generalização sistemática estão mais próximas de raciocínio do que de imitação de linguagem.

Vamos cuidar de Anna, seja como pais, parentes, vizinhos, conhecidos ou professores dentro do Qubic.

Jose Sánchez. Equipe científica Qubic

Atualizações Semanais Todas as Terças-feiras às 12 PM CET

Nos siga no X @_Qubic_

Saiba mais em qubic.org

Inscreva-se na Newsletter AGI for Good abaixo.

Inscreva-se na Newsletter da Equipe Científica Qubic Aqui:

Qubic é uma rede descentralizada e de código aberto para tecnologia experimental. Nada neste site deve ser interpretado como aconselhamento de investimento, jurídico ou financeiro. A Qubic não oferece valores mobiliários, e a participação na rede pode envolver riscos. Os usuários são responsáveis por cumprir as regulamentações locais. Por favor, consulte profissionais jurídicos e financeiros antes de interagir com a plataforma.