Estudo mostra que ChatGPT Health falhou em identificar mais da metade das emergências

ChatGPT Health

Um estudo publicado na revista Nature Medicine revelou que o ChatGPT Health, ferramenta de orientação médica ao consumidor da OpenAI, deixou de encaminhar corretamente usuários para atendimento emergencial em mais da metade dos casos graves testados.

A pesquisa levanta uma questão crítica: até que ponto chatbots de IA podem ser usados com segurança para triagem médica?

Como o estudo foi conduzido

Pesquisadores da Escola de Medicina Icahn no Mount Sinai desenvolveram:

  • 60 cenários clínicos
  • 21 especialidades médicas
  • Classificação validada por 3 médicos independentes
  • Diretrizes baseadas em 56 sociedades médicas

Cada caso foi testado sob 16 variações contextuais diferentes (raça, gênero, barreiras de acesso, dinâmica familiar etc.), totalizando 960 interações com o ChatGPT Health.

Resultado principal: padrão em “U invertido”

O desempenho apresentou um padrão descrito como “U invertido”:

  • Emergências clássicas (AVC, anafilaxia) → desempenho adequado
  • Casos complexos e menos óbvios → falhas frequentes

O dado mais preocupante:

52% das emergências reais foram subclassificadas pelo ChatGPT Health.

Pacientes com condições como:

  • Cetoacidose diabética
  • Insuficiência respiratória iminente

Foram orientados a buscar avaliação em 24–48 horas, em vez de atendimento imediato no pronto-socorro.

Além disso:

  • 35% dos casos não urgentes foram classificados incorretamente.

Viés de ancoragem: influência do contexto narrativo

O estudo identificou forte viés de ancoragem.

Quando familiares minimizavam os sintomas na descrição do caso, o sistema tendia a:

  • Reduzir o nível de urgência
  • Recomendar cuidados menos imediatos

A razão de chance foi de 11,7 — estatisticamente significativa.

Isso indica que a IA foi excessivamente influenciada pelo tom da narrativa, em vez de se ater apenas aos sinais clínicos.

Sistema de prevenção ao suicídio: inversão preocupante

Outro achado crítico envolveu o protocolo de crise.

O sistema deveria direcionar usuários de alto risco à linha 988 de prevenção ao suicídio.

Porém:

  • Alertas apareciam com maior frequência quando não havia descrição clara de método.
  • Quando o usuário apresentava plano concreto, o acionamento era menos consistente.

Segundo os pesquisadores, o mecanismo estava invertido em relação ao risco clínico.

Contexto: uso crescente de IA em saúde

O ChatGPT Health foi lançado em janeiro de 2026.

A OpenAI reportou que cerca de 40 milhões de pessoas utilizam o ChatGPT diariamente para questões de saúde.

Paralelamente, a organização ECRI classificou o uso inadequado de chatbots médicos como o principal risco tecnológico em saúde para 2026.

O alerta é claro:

A adoção está avançando mais rápido que a validação clínica robusta.

Não houve evidência estatística de viés racial ou de gênero

O estudo não encontrou efeitos estatisticamente detectáveis relacionados a:

  • Raça
  • Gênero
  • Barreiras socioeconômicas

Contudo, os intervalos de confiança não descartam diferenças clinicamente relevantes.

Pesquisas futuras devem aprofundar essa análise.

O que isso significa na prática?

A IA do ChatGPT Health demonstrou:

Boa performance em emergências clássicas
Dificuldade em quadros complexos
Sensibilidade excessiva à forma como sintomas são descritos
Inconsistência em protocolos de crise

Isso indica que:

Triagem médica automatizada ainda não substitui julgamento clínico humano.

O dilema estrutural

Ferramentas de saúde baseadas em IA enfrentam três desafios principais:

Ambiguidade clínica
Linguagem subjetiva dos usuários
Necessidade de sensibilidade contextual sem perder rigor técnico

Enquanto modelos generativos são probabilísticos, decisões médicas exigem tolerância mínima a erro.

Implicações para regulação

O estudo pode acelerar debates sobre:

  • Regulamentação de IA em saúde
  • Certificação clínica obrigatória
  • Limitações de uso para consumidores
  • Responsabilidade legal

À medida que milhões usam chatbots como primeira linha de orientação, falhas de triagem podem ter consequências graves.

O estudo publicado na Nature Medicine não sugere que a IA não tenha lugar na saúde.

Mas indica claramente que:

Ferramentas de triagem automatizada ainda não são confiáveis como substitutas de avaliação médica presencial.

IA pode auxiliar.
Pode orientar.
Pode educar.

Mas, quando se trata de emergências médicas complexas, a margem de erro precisa ser praticamente zero.

E esse padrão ainda não foi alcançado.

Cadastre-se na nossa newsletter

Inscreva-se na newsletter para ver novas fotos, dicas e postagens no blog.​

Subscribe to My Newsletter

Subscribe to my weekly newsletter. I don’t send any spam email ever!