Um estudo publicado na revista Nature Medicine revelou que o ChatGPT Health, ferramenta de orientação médica ao consumidor da OpenAI, deixou de encaminhar corretamente usuários para atendimento emergencial em mais da metade dos casos graves testados.
A pesquisa levanta uma questão crítica: até que ponto chatbots de IA podem ser usados com segurança para triagem médica?
Como o estudo foi conduzido
Pesquisadores da Escola de Medicina Icahn no Mount Sinai desenvolveram:
- 60 cenários clínicos
- 21 especialidades médicas
- Classificação validada por 3 médicos independentes
- Diretrizes baseadas em 56 sociedades médicas
Cada caso foi testado sob 16 variações contextuais diferentes (raça, gênero, barreiras de acesso, dinâmica familiar etc.), totalizando 960 interações com o ChatGPT Health.
Resultado principal: padrão em “U invertido”
O desempenho apresentou um padrão descrito como “U invertido”:
- Emergências clássicas (AVC, anafilaxia) → desempenho adequado
- Casos complexos e menos óbvios → falhas frequentes
O dado mais preocupante:
52% das emergências reais foram subclassificadas pelo ChatGPT Health.
Pacientes com condições como:
- Cetoacidose diabética
- Insuficiência respiratória iminente
Foram orientados a buscar avaliação em 24–48 horas, em vez de atendimento imediato no pronto-socorro.
Além disso:
- 35% dos casos não urgentes foram classificados incorretamente.
Viés de ancoragem: influência do contexto narrativo
O estudo identificou forte viés de ancoragem.
Quando familiares minimizavam os sintomas na descrição do caso, o sistema tendia a:
- Reduzir o nível de urgência
- Recomendar cuidados menos imediatos
A razão de chance foi de 11,7 — estatisticamente significativa.
Isso indica que a IA foi excessivamente influenciada pelo tom da narrativa, em vez de se ater apenas aos sinais clínicos.
Sistema de prevenção ao suicídio: inversão preocupante
Outro achado crítico envolveu o protocolo de crise.
O sistema deveria direcionar usuários de alto risco à linha 988 de prevenção ao suicídio.
Porém:
- Alertas apareciam com maior frequência quando não havia descrição clara de método.
- Quando o usuário apresentava plano concreto, o acionamento era menos consistente.
Segundo os pesquisadores, o mecanismo estava invertido em relação ao risco clínico.
Contexto: uso crescente de IA em saúde
O ChatGPT Health foi lançado em janeiro de 2026.
A OpenAI reportou que cerca de 40 milhões de pessoas utilizam o ChatGPT diariamente para questões de saúde.
Paralelamente, a organização ECRI classificou o uso inadequado de chatbots médicos como o principal risco tecnológico em saúde para 2026.
O alerta é claro:
A adoção está avançando mais rápido que a validação clínica robusta.
Não houve evidência estatística de viés racial ou de gênero
O estudo não encontrou efeitos estatisticamente detectáveis relacionados a:
- Raça
- Gênero
- Barreiras socioeconômicas
Contudo, os intervalos de confiança não descartam diferenças clinicamente relevantes.
Pesquisas futuras devem aprofundar essa análise.
O que isso significa na prática?
A IA do ChatGPT Health demonstrou:
Boa performance em emergências clássicas
Dificuldade em quadros complexos
Sensibilidade excessiva à forma como sintomas são descritos
Inconsistência em protocolos de crise
Isso indica que:
Triagem médica automatizada ainda não substitui julgamento clínico humano.
O dilema estrutural
Ferramentas de saúde baseadas em IA enfrentam três desafios principais:
Ambiguidade clínica
Linguagem subjetiva dos usuários
Necessidade de sensibilidade contextual sem perder rigor técnico
Enquanto modelos generativos são probabilísticos, decisões médicas exigem tolerância mínima a erro.
Implicações para regulação
O estudo pode acelerar debates sobre:
- Regulamentação de IA em saúde
- Certificação clínica obrigatória
- Limitações de uso para consumidores
- Responsabilidade legal
À medida que milhões usam chatbots como primeira linha de orientação, falhas de triagem podem ter consequências graves.
O estudo publicado na Nature Medicine não sugere que a IA não tenha lugar na saúde.
Mas indica claramente que:
Ferramentas de triagem automatizada ainda não são confiáveis como substitutas de avaliação médica presencial.
IA pode auxiliar.
Pode orientar.
Pode educar.
Mas, quando se trata de emergências médicas complexas, a margem de erro precisa ser praticamente zero.
E esse padrão ainda não foi alcançado.