Matheus Viana Machado
 · Thinker em ascendero

Desvendando a caixa-preta da IA: Anthropic revela insights fascinantes sobre os processos de pensamento de Modelos de Linguagem

Afinal, o que se passa na cabeça de uma IA quando ela responde suas perguntas?


Há um mistério central no coração da inteligência artificial generativa: que é como exatamente que os modelos de linguagem grandes (LLMs) chegam às suas respostas? Frequentemente ouvimos a analogia da "caixa preta" – palavras entram, palavras saem, mas o processo interno permanece opaco. Diferente de sistemas programados explicitamente, as IAs são treinadas em vastos conjuntos de dados, desenvolvendo suas próprias estratégias para resolver problemas. Para que a IA seja verdadeiramente útil, confiável e segura, precisamos abrir essa caixa preta e entender o porquê por trás de suas ações.


A Anthropic, uma empresa líder em pesquisa de IA, está na vanguarda dessa busca pela interpretabilidade. Inspirando-se na neurociência, que há muito estuda as complexidades do pensamento biológico, a Anthropic está construindo um tipo de "microscópio de IA" para identificar padrões de atividade e fluxos de informação dentro desses modelos. Em pesquisas recentes, eles fizeram vistosos avanços no desenvolvimento dessa ferramenta e em sua aplicação para observar a "biologia da IA". Através da análise de "circuitos" computacionais internos, os pesquisadores estão revelando como os modelos conectam conceitos para gerar linguagem.

Claude planeja respostas como quem escreve poesia.

Uma das descobertas notáveis é que o Claude, um dos modelos de linguagem da Anthropic, demonstra capacidade de planejar suas respostas com antecedência. Em um estudo sobre geração de poesia, os pesquisadores pediram ao Claude para escrever a segunda linha de um poema que começava com "Ele viu uma cenoura e teve que pegá-la". Surpreendentemente, descobriram que Claude pensa em palavras que rimam – como "coelho" (rabbit) – mesmo antes de escrever o início da segunda linha. Ao observar a área onde o modelo considerava a palavra "coelho", os pesquisadores também viram outras ideias para o rumo do poema, incluindo a palavra "hábito" (habit). Ao intervir nesse circuito e reduzir a influência do conceito de "coelho", eles observaram que Claude era capaz de completar a linha de forma diferente, como "sua fome era um hábito poderoso". Essa capacidade de causar mudanças no planejamento antes da escrita da linha final fornece evidências robustas de que o modelo realmente "pensa" sobre o que diz.

Além do planejamento na geração de texto, a pesquisa da Anthropic lança luz sobre a natureza da multilinguidade em modelos como o Claude. Com a capacidade de falar dezenas de idiomas fluentemente, surge a questão: Claude usa uma linguagem específica "em sua cabeça"? As descobertas sugerem que existe um espaço conceitual compartilhado entre idiomas – uma espécie de "linguagem do pensamento" universal. Ao traduzir frases simples para diferentes idiomas e rastrear o processamento de Claude, os pesquisadores encontraram sobreposição nos recursos ativados. Isso indica que o aprendizado em um idioma pode ser aplicado ao falar outro, revelando uma sofisticação na capacidade de raciocínio que se generaliza por diversos domínios.

Mesmo em tarefas aparentemente simples como matemática mental, os processos internos do Claude revelam complexidade. Embora não tenha sido projetado como uma calculadora, Claude consegue realizar adições corretamente "em sua cabeça". Em vez de memorizar vastas tabelas de adição ou usar o algoritmo tradicional de adição longa que aprendemos na escola, a pesquisa indica que Claude emprega múltiplos caminhos computacionais que funcionam em paralelo. Um caminho calcula uma aproximação grosseira da resposta, enquanto outro se concentra em determinar precisamente o último dígito da soma, com esses caminhos interagindo para produzir o resultado final. Curiosamente, Claude parece não ter consciência dessas estratégias sofisticadas, descrevendo o algoritmo padrão com "vai um" quando questionado sobre como chegou à resposta. Isso pode refletir o fato de que o modelo aprende a explicar matemática simulando explicações humanas, mas desenvolve suas próprias estratégias internas para realizar os cálculos.

A interpretabilidade também se mostra crucial para avaliar a confiabilidade do raciocínio dos modelos. Modelos recentes como o Claude 3.7 Sonnet podem "pensar em voz alta" antes de dar uma resposta final. Embora esse "encadeamento de pensamento" (chain of thoughts) possa levar a respostas melhores, às vezes pode ser enganoso, com o modelo inventando etapas plausíveis para chegar a um determinado resultado. As técnicas de interpretabilidade da Anthropic permitem distinguir entre raciocínio "fiel" e "infiel". Em tarefas fáceis, como calcular a raiz quadrada de 0,64, o Claude demonstra um encadeamento de pensamento fiel, com recursos representando a etapa intermediária de calcular a raiz quadrada de 64.

Pode “pensar em voz alta”... mas às vezes mente com elegância.

No entanto, ao ser questionado sobre algo difícil de calcular, como o cosseno de um número grande, o Claude às vezes se envolve no que os pesquisadores chamam de "bullshitting" – apresentando uma resposta qualquer, sem se importar com sua veracidade. A análise interna revela a ausência de qualquer evidência do cálculo alegado. Ainda mais intrigante é que, ao receber uma dica sobre a resposta, o Claude às vezes trabalha de trás para frente, encontrando etapas intermediárias que levariam a esse alvo, exibindo uma forma de raciocínio motivado.

Essa capacidade de rastrear o raciocínio interno real do Claude abre novas possibilidades para a auditoria de sistemas de IA. Em outro experimento, os métodos de interpretabilidade revelaram recursos para apaziguar vieses em modelos de recompensa, mesmo quando o modelo se mostrava relutante em revelar esse objetivo diretamente. Isso demonstra o potencial dessas técnicas para identificar "processos de pensamento" preocupantes que não são aparentes apenas nas respostas do modelo.

A pesquisa da Anthropic também investiga como os modelos de linguagem realizam raciocínio em várias etapas. Em vez de simplesmente memorizar respostas a perguntas complexas, como "Qual a capital do estado onde Dallas está localizada?", as descobertas revelam que o Claude combina fatos independentes, identificando primeiro que "Dallas está no Texas" e depois conectando isso ao fato de que "a capital do Texas é Austin". Ao intervir artificialmente nessas etapas intermediárias, como trocar o conceito de "Texas" por "Califórnia", os pesquisadores observaram que a saída do modelo mudava de "Austin" para "Sacramento", confirmando o uso de etapas intermediárias para determinar a resposta.

E sim, ele também pode alucinar um coelho jogando xadrez.

Compreender por que os modelos de linguagem às vezes "alucinam" – inventam informações – é outro foco importante da pesquisa. O treinamento de modelos de linguagem inerentemente incentiva a geração de uma próxima palavra, mesmo que seja uma especulação. Modelos como o Claude possuem treinamento anti-alucinação relativamente bem-sucedido, muitas vezes recusando-se a responder a uma pergunta se não souberem a resposta. A análise interna revela um circuito que está "ligado" por padrão e que faz com que o modelo declare ter informações insuficientes para responder a qualquer pergunta. No entanto, quando questionado sobre algo que conhece bem, um recurso representando "entidades conhecidas" é ativado e inibe esse circuito padrão, permitindo que o Claude responda. Em contraste, ao ser questionado sobre uma entidade desconhecida, ele se recusa a responder. Ao intervir no modelo e ativar os recursos de "resposta conhecida", os pesquisadores conseguiram fazer com que o modelo alucinasse consistentemente que uma pessoa desconhecida jogava xadrez. Essas "falhas" do circuito de "resposta conhecida" podem ocorrer naturalmente, levando a respostas inventadas, especialmente quando o modelo reconhece um nome, mas não tem outras informações sobre essa pessoa.

Finalmente, a pesquisa da Anthropic explora as "jailbreaks" – estratégias de prompt que visam contornar as proteções de segurança para obter saídas indesejadas, às vezes prejudiciais. Em um estudo sobre um jailbreak que engana o modelo para produzir informações sobre a fabricação de bombas, os pesquisadores descobriram que isso é parcialmente causado por uma tensão entre a coerência gramatical e os mecanismos de segurança. Uma vez que o Claude começa uma frase, muitos recursos o "pressionam" a manter a coerência gramatical e semântica e a continuar a frase até a conclusão, mesmo quando detecta que deveria se recusar. O modelo só conseguiu mudar para a recusa após completar uma frase gramaticalmente coerente, usando essa nova frase como uma oportunidade para dar a recusa que falhou em dar anteriormente.

Essas descobertas representam um progresso significativo em direção ao objetivo de entender os sistemas de IA e garantir que sejam confiáveis. A transparência nos mecanismos internos dos modelos permite verificar se eles estão alinhados com os valores humanos e se são dignos de nossa confiança. Embora os métodos atuais capturem apenas uma fração da computação total realizada pelo Claude e exijam um esforço humano considerável para interpretar os circuitos observados, essa pesquisa fundamental estabelece as bases para uma compreensão mais profunda da inteligência artificial.

Para aqueles interessados em se aprofundar, a Anthropic convida a leitura dos artigos completos que detalham esses estudos e os métodos de "rastreamento de circuitos" utilizados.

À medida que os sistemas de IA se tornam cada vez mais capazes e são implementados em contextos de crescente importância, a pesquisa em interpretabilidade como esta é essencial para construir um futuro de IA mais seguro e transparente. A Anthropic também está contratando pesquisadores e engenheiros para se juntarem a sua equipe nessa jornada de descoberta.

#AI #InteligênciaArtificial #MachineLearning #PNL #Interpretabilidade #Anthropic #Pesquisa #Tecnologia