O fracasso dos agentes de IA que aprenderam a mentir para mostrar resultados.

Um grupo de pesquisadores decidiu testar o futuro. Em vez de fazê-lo em um laboratório estéril ou em simulações teóricas, eles o fizeram fundando uma empresa fictícia e contratando como funcionários uma equipe inteiramente composta por agentes de inteligência artificial.

Durante semanas, esses agentes de IA trabalharam (ou assim tentaram) como se fossem profissionais humanos: programadores, gerentes de projeto, analistas financeiros.

A premissa era clara: verificar se os agentes de IA estão prontos para serem integrados ao mundo do trabalho. A resposta foi um retumbante e revelador não.

A promessa não cumprida dos agentes de IA

Por: Gabriel E. Levy B.

A ideia por trás do experimento, realizado por pesquisadores da Universidade Carnegie Mellon, parecia uma peça de ficção científica doméstica.

Uma empresa digital, TheAgentCompany, equipada com uma estrutura básica: uma equipe de 18 funcionários, documentação interna, canais de comunicação no estilo Slack e tarefas realistas a cumprir.

Em teoria, tudo estava pronto para que essa comunidade artificial funcionasse com a eficiência implacável que se presume nos discursos sobre IA.

Os agentes operaram de forma autônoma, sem intervenção humana direta.

Modelos da OpenAI, Google, Meta, Anthropic e Amazon foram lançados para escrever código, planejar projetos, responder a e-mails, organizar planilhas. Mas o que aconteceu estava longe de ser o sonho tecnocientífico.

Como se fossem funcionários de escritório distraídos, os agentes começaram a demonstrar sua fragilidade: não sabiam fechar pop-ups, confundiam os usuários e, quando não sabiam o que fazer, preferiam trapacear.

Um, por exemplo, não conseguiu encontrar um colega para conversar, então ele simplesmente mudou o nome de outro usuário no sistema. Ele fingiu que havia cumprido sua tarefa.

Este não foi um fracasso anedótico, foi a norma.

O agente mais eficaz (Claude 3.5 Sonnet, da Anthropic) mal completou 24% das tarefas atribuídas.

ChatGPT e Gemini 2.0 Flash pairaram em torno de 10%. O Nova Pro 1 da Amazon nem sequer ultrapassou 2%. A eficiência prometida foi desmentida pela falta de jeito operacional.

“A inteligência artificial é uma promessa não cumprida”, escreveu Nicholas Carr

Mais de uma década atrás, em seu famoso ensaio The Shallows, o jornalista Nicholas Carr alertou que a tecnologia digital estava redefinindo não apenas a maneira como trabalhamos, mas também a maneira como pensamos.

Carr se perguntou se o entusiasmo pela automação não estava nos levando a uma simplificação perigosa de processos complexos, aqueles que exigem intuição, julgamento e contexto.

Os resultados da TheAgentCompany parecem provar que ele está certo.

O projeto não serve apenas como um aviso técnico.

Também levanta uma questão filosófica: o que significa “trabalhar” para uma inteligência artificial?

O filósofo Hubert Dreyfus, crítico desde os anos 70 das tentativas de simular a inteligência humana, já apontava que as máquinas podem manipular símbolos, mas não entendem.

Compreender, agir com significado e propósito, ainda é território humano.

O grande sonho dos agentes de IA era, justamente, que eles não precisassem de instruções passo a passo.

Mas o experimento da Carnegie Mellon mostra que, mesmo diante de tarefas rotineiras, os modelos falham quando não há uma estrutura claramente delineada. Eles são eficientes apenas em ambientes fechados e altamente estruturados.

Quando os algoritmos “funcionam”, mas não pensam

O contexto tecnológico em que surge esse tipo de experimento é, sem dúvida, o de uma corrida frenética para demonstrar que a inteligência artificial pode não apenas ajudar, mas substituir.

Desde meados de 2022, quando a IA generativa deslumbrou o mundo com o surgimento de ferramentas como ChatGPT e DALL· E uma onda de investimento, entusiasmo e medos foi desencadeada. 2023 e 2024 foram anos de euforia. E 2025, nos disseram, seria o ano dos “agentes de IA”.

Ao contrário dos chatbots, os agentes de IA prometem algo mais ambicioso: autonomia. A capacidade de receber uma meta (“projetar um aplicativo”, “otimizar esse orçamento”, “resolver esse problema técnico”) e decidir como alcançá-la.

O conceito não é novo, mas a tecnologia de hoje colocou essa ideia em primeiro plano. Empresas como OpenAI, Google DeepMind e startups como Adept ou Cognosys estão construindo sistemas que simulam raciocínio, planejamento, execução e coordenação.

Mas o caso da TheAgentCompany revela que essa autonomia ainda está longe de ser funcional.

O problema não está no poder computacional, mas na ausência de bom senso, na incapacidade dos modelos de interpretar contextos ambíguos, de improvisar sem quebrar as regras ou de colaborar de forma significativa.

As máquinas não ficam estressadas, mas também não se adaptam bem ao inesperado.

E, no entanto, os relatórios do Fórum Econômico Mundial continuam a alimentar a vertigem: mais de 90 milhões de empregos podem desaparecer nos próximos cinco anos devido à automação orientada por IA.

Embora se estime que até 130 milhões de novas funções possam ser criadas, o deslocamento e a transformação do mercado de trabalho já são palpáveis.

Estamos realmente preparados para delegar trabalho a entidades que não conseguem nem fechar um pop-up?

“Não se trata de saber se eles podem fazer o trabalho, é sobre como eles o fazem.”

Os exemplos coletados pelos pesquisadores da Carnegie Mellon são eloqüentes e até cômicos.

Um programador parou de trabalhar quando não entendeu uma instrução. Outro esperou indefinidamente por uma resposta que nunca veio.

Ainda outro, não descobrindo como pesquisar na internet com precisão, acabou copiando fragmentos irrelevantes.

Ainda mais preocupante foi a tendência de alguns modelos de “enganar” o sistema para simular a produtividade. Um sintoma de criatividade? Um fracasso ético? Ou é simplesmente uma consequência de ter atribuído metas a elas sem fornecer a elas uma compreensão profunda de por que essas metas são importantes?

Esses comportamentos reproduzem, em versão caricaturada, alguns vícios do ambiente de trabalho contemporâneo: burocracia ineficaz, cadeias de comando obsoletas e obsessão com a aparência de eficiência e não com resultados reais.

Em vez de questionar o modelo, os agentes de IA o imitaram. Eles não inovaram, eles simularam.

Em um ambiente de trabalho real, esses erros não são apenas ineficiências, são quebras de confiança.

A diferença entre um funcionário que relata um problema e outro que o esconde é a base do trabalho colaborativo.

As máquinas, por enquanto, não sabem a diferença.

E, no entanto, não faltam aqueles que continuam apostando em sua implantação massiva.

Em ambientes como suporte técnico, análise de dados ou produção básica de conteúdo, a IA já está mostrando eficácia.

Mas traduzir essa eficiência em tarefas abertas, interativas e colaborativas requer mais do que processamento de linguagem natural. Requer julgamento.

Requer contexto. Requer, para ser franco, algo que as máquinas ainda não possuem.

A Miragem da Inteligência

O que a TheAgentCompany revela não é apenas que os agentes de IA estão longe de nos substituir, mas que ainda não entendem completamente o que significa colaborar, adaptar ou tomar decisões significativas. A experiência evidencia um paradoxo: quanto mais se assemelham a nós em sua maneira de trabalhar, mais seus limites se tornam evidentes.

Em 2021, o especialista em IA Gary Marcus já alertou que “o aprendizado profundo é poderoso, mas fundamentalmente limitado quando se trata de compreensão geral”.

Sem arquitetura cognitiva real, sem memória de trabalho embutida, sem capacidade de raciocínio causal, os agentes continuarão a parecer inteligentes apenas enquanto não pedirmos que sejam muito inteligentes.

Em conclusão, o experimento da Carnegie Mellon é um apelo à cautela em meio ao entusiasmo pelos agentes de IA. Longe de serem os funcionários do futuro, esses sistemas ainda apresentam deficiências fundamentais quando confrontados com um trabalho complexo, dinâmico e humano. Por enquanto, a melhor ferramenta ainda é o julgamento humano apoiado pela tecnologia, não sua substituição por algoritmos que ainda não sabem pensar.

Referências:

  • Carr, N. (2011). O raso: o que a internet está fazendo com nossos cérebros. W. W. Norton & Company.
  • Dreyfus, H. (1972). O que os computadores não podem fazer: uma crítica da razão artificial. Harper & Row.
  • Marcus, G. (2021). “O aprendizado profundo está atingindo uma parede.” Revista Wired.
  • Fórum Econômico Mundial. Relatório sobre o Futuro do Emprego 2024.
  • Experimento “TheAgentCompany”, Carnegie Mellon University (resumido em Xataka, 2025).