Uma plataforma de inteligência artificial desenvolvida pela Microsoft afirma diagnosticar doenças com 85,5% de precisão, quatro vezes mais precisa do que os médicos humanos.
O sistema, chamado AI Diagnostic Orchestrator, não apenas analisa dados clínicos, mas simula um debate entre agentes virtuais que raciocinam como médicos reais.
Esse avanço levanta questões inquietantes: a IA será o novo oráculo da medicina? Ou apenas mais um ator em um cenário onde o julgamento humano ainda é essencial?
“Os modelos de IA estão se tornando dramaticamente melhores do que os humanos”
Por: Gabriel E. Levy B.
Os erros de diagnóstico são uma das principais causas de mortes evitáveis nos sistemas de saúde.
De acordo com um estudo publicado no BMJ Quality & Safety, cerca de 5% dos adultos nos Estados Unidos recebem um diagnóstico médico incorreto a cada ano, o que equivale a 12 milhões de pessoas.
Destes, um terço sofre sérias consequências. Nesse contexto, o interesse em incorporar tecnologias de inteligência artificial (IA) não é um capricho futurista, mas uma necessidade concreta.
A Microsoft, uma das empresas mais ativas na corrida para liderar a IA, apresentou sua proposta para mudar o rumo do diagnóstico médico: o AI Diagnostic Orchestrator (MAI-DxO).
Este sistema foi desenvolvido por Mustafa Suleyman, cofundador da DeepMind e atual diretor da área de inteligência artificial da Microsoft.
A proposta consiste em reunir vários modelos de linguagem, especificamente, cinco agentes de IA, para analisar conjuntamente casos clínicos e chegar a um diagnóstico de consenso.
Ao contrário das ferramentas anteriores, que funcionavam de forma unidirecional, este modelo introduz debate e contradição entre algoritmos.
O ensaio foi realizado com 304 casos reais extraídos do New England Journal of Medicine, uma das publicações de maior prestígio na área científica. A IA obteve 85,5% de precisão em seus diagnósticos, especialmente ao usar o modelo GPT-4 da OpenAI.
Em contraste, um grupo de médicos humanos, privados de recursos complementares usuais, como bancos de dados ou imagens, só acertou em 20% dos casos. Embora o design do experimento tenha atraído algumas críticas, a diferença de desempenho era grande demais para ser ignorada.
“O futuro não depende do modelo, mas do orquestrador”
A chave para o sistema MAI-DxO não está apenas no uso de grandes modelos de linguagem (LLMs), mas em seu design colaborativo.
Como Suleyman explicou ao Financial Times, “os modelos de IA tendem a se tornar commodities; O que realmente faz a diferença é o valor agregado do orquestrador.”
Esta declaração resume a abordagem que a Microsoft quer instalar na medicina do futuro: não se trata apenas de ter uma IA poderosa, mas de organizá-la como uma sinfonia de raciocínio clínico diversificado.
Do ponto de vista técnico, LLMs como o GPT-4 são capazes de interpretar sintomas, comparar antecedentes e gerar hipóteses diagnósticas com uma velocidade impossível para humanos. Mas o verdadeiro salto qualitativo do sistema da Microsoft está em permitir que esses agentes se confrontem, como se fossem especialistas em uma junta médica.
Isso reduz o viés individual de um único modelo e simula uma deliberação mais rica, mais parecida com o pensamento da equipe clínica.
Por enquanto, a empresa não anunciou um aplicativo comercial específico, mas há especulações de que ele possa ser integrado a plataformas como Bing ou Copilot, as interfaces de conversação da Microsoft.
Isso abriria as portas para a IA acessível a profissionais e pacientes, embora também levantasse dilemas éticos e regulatórios que ainda não foram resolvidos.
Quem é responsável se o diagnóstico automatizado estiver errado?
Como você garante a privacidade dos dados clínicos?
E a relação médico-paciente?
Além do desempenho, o sistema visa um objetivo econômico subjacente: reduzir o desperdício no sistema de saúde.
Nos Estados Unidos, cerca de 25% dos gastos com saúde, mais de 800.000 milhões de dólares anuais, correspondem a procedimentos desnecessários ou mal indicados.
Se a IA pudesse melhorar a precisão do diagnóstico, também poderia otimizar a distribuição de recursos e evitar intervenções médicas que não beneficiem o paciente.
“Mais rápido, mais barato e quatro vezes mais preciso”
A afirmação mais provocativa de Suleyman, a IA é “quatro vezes mais precisa que os humanos”, provocou uma onda de reações no campo da medicina. Alguns consideram isso um sintoma de arrogância tecnológica; outros veem como uma oportunidade de repensar o papel do profissional de saúde na era digital.
Em qualquer caso, a comparação é inevitável.
Durante anos, autores como Eric Topol, cardiologista e autor de Deep Medicine, argumentaram que a medicina está em uma encruzilhada entre o humanismo e a automação.
Para ele, o futuro ideal não é aquele em que as máquinas substituem os médicos, mas em que os libertem de tarefas repetitivas e os tragam de volta ao contato humano. “Não precisamos da IA para nos substituir, precisamos dela para nos permitir ser mais humanos”, escreveu ele em 2019.
David Sontag, pesquisador do MIT e especialista em ciência de dados aplicada à medicina, fez uma crítica mais pragmática: os médicos que participaram do estudo não tinham as ferramentas que normalmente usariam na prática diária.
Isso, em sua opinião, distorce a comparação e reduz a validade externa dos resultados.
No entanto, ele reconheceu que o nível de demanda clínica do teste foi maior do que o de outros ensaios semelhantes.
Outro ponto a considerar é o risco de confiança cega nos modelos. Como alertou a socióloga Shoshana Zuboff, autora de The Age of Surveillance Capitalism, as decisões automatizadas não são isentas de preconceitos e erros, e quanto mais opaco o funcionamento do sistema, maior o risco de dependência acrítica.
Na medicina, onde a interpretação incorreta pode custar vidas, esse aviso se torna crucial.
Casos que ilustram a promessa… e o dilema
Em 2023, o Hospital da Universidade de Stanford testou um sistema de IA semelhante ao da Microsoft em seu departamento de emergência.
A ferramenta foi capaz de diagnosticar apendicite aguda com 91% de precisão, em comparação com 75% dos médicos residentes.
A implementação possibilitou reduzir o tempo médio de atendimento de 3,5 horas para 2 horas, segundo dados internos do centro.
No entanto, também houve casos relatados em que a IA sugeriu diagnósticos incorretos, como confundir pancreatite com uma ITU complicada.
Na China, o Hospital Ruijin de Xangai implementou um assistente médico virtual baseado em LLM para a detecção precoce de doenças pulmonares.
O sistema, integrado com imagens de TC e dados clínicos, identificou lesões pré-cancerosas com uma taxa de sensibilidade superior a 88%.
Isso permitiu a intervenção mais precoce em vários pacientes, evitando progressões fatais.
No entanto, o modelo apresentou desempenho inferior quando aplicado em outras regiões do país, com diferentes perfis genéticos e epidemiológicos.
Também no Brasil, um projeto piloto do Ministério da Saúde utilizou um modelo de IA conversacional para auxiliar médicos rurais em diagnósticos básicos.
Em áreas onde há apenas um médico para cada 10.000 habitantes, a ferramenta ofereceu uma melhoria notável nos tempos de resposta.
Mas um relatório do Observatório de Saúde Pública alertou que a qualidade das recomendações diminuiu significativamente quando a conexão com a internet estava instável, o que mostra a fragilidade da infraestrutura.
Esses casos mostram que o sucesso da inteligência artificial na medicina não depende apenas do modelo, mas do ecossistema que o cerca: conectividade, treinamento, regulação, cultura clínica.
E, acima de tudo, como a colaboração entre humanos e máquinas é articulada.
Em conclusão
A promessa de uma IA capaz de diagnosticar melhor do que um médico não é mais ficção científica. No entanto, seu impacto real dependerá de mais do que apenas números de precisão: será necessário projetar ambientes onde a tecnologia aprimore, em vez de suplantar, o julgamento clínico.
A medicina do futuro não será totalmente humana nem completamente artificial, mas uma aliança entre o melhor dos dois mundos.