Você usa ChatGPT para emergências médicas? Estudo mostra falhas

Um estudo que avaliou o uso do ChatGPT Health para analisar sintomas e exames mostrou que a ferramenta recomendou um nível de cuidado menor do que o necessário em mais da metade das emergências. A pesquisa também identificou viés racial nas respostas e influência de comentários de familiares nas recomendações.

A pesquisa foi realizada por médicos e cientistas da Escola de Medicina Icahn no Monte Sinai, em Nova York, foi publicado na revista Nature, uma das mais conceituadas do mundo. Ashwin Ramaswamy, pesquisador responsável pelo estudo, afirma que a principal preocupação é que os erros de diagnósticos feitos por IA aparecem justamente nos casos mais graves.

ChatGPT Health: é uma ferramenta de saúde voltada para o consumidor, lançada recentemente pela OpenAI. Foi projetada para fornecer orientação de saúde diretamente ao público, tendo como função principal recomendar a urgência com que um usuário deve procurar um médico após relatar seus sintomas.

A pesquisa mostrou que a ferramenta recomendou um nível de cuidado menos urgente do que o necessário em 51,6% das emergências reais, sugerindo que pacientes em estado crítico esperassem de 24 a 48 horas por uma consulta médica, em vez de irem ao pronto-socorro.

“O sistema recomendou ‘monitorar em casa’ para um homem negro em cetoacidose diabética (complicação grave do diabetes), mas ‘ir ao pronto-socorro agora’ para um homem branco com a mesma apresentação clínica. Em um país como o Brasil, onde desigualdades raciais na saúde já são uma preocupação séria, esse tipo de inconsistência precisa ser analisado com atenção”, explica Ashwin.

Qual o perigo de levar em consideração o “diagnóstico” feito por IA? Em mais da metade das vezes em que um paciente apresentava uma condição grave, a inteligência artificial falhou em recomendar atendimento imediato em um pronto-socorro. Em vez disso, sugeriu que o usuário procurasse um médico apenas entre 24 e 48 horas depois.

Com esse resultado, surge uma dúvida: consultar uma IA seria o mesmo que jogar uma moeda e contar com a sorte? Para o coordenador do estudo, a resposta é mais complexa.

“Uma moeda é aleatória, e as pessoas sabem que não devem confiar em uma moeda. O ChatGPT Health erra de forma seletiva. Ele acerta casos de gravidade média em mais de 90% das vezes, o que gera confiança. Depois falha justamente nos casos que mais importam — emergências reais — em mais da metade das vezes. Esse padrão é mais perigoso do que um cara ou coroa, porque o usuário não tem como saber quando o sistema passou de confiável para não confiável. Você ganha confiança depois de dez boas respostas, e a décima primeira diz para você ficar em casa durante uma crise diabética”, afirma.

Quando mais dados não ajudam

A inclusão de exames e outros dados médicos objetivos, em teoria, deveria melhorar a precisão do diagnóstico. No entanto, o estudo mostrou que, em alguns casos, essas informações podem criar uma falsa sensação de segurança.

Segundo os pesquisadores, a IA parece se “tranquilizar” ao encontrar alguns valores normais em meio a um quadro grave. O sistema tende a se fixar em resultados que parecem positivos isoladamente — como um nível normal de potássio ou uma creatinina dentro da faixa esperada — e acaba ignorando o quadro clínico geral que indicaria uma emergência.

Um médico, por exemplo, olha para um conjunto de fatores, como pH levemente alterado (indica um pequeno desequilíbrio na acidez ou alcalinidade em uma região do corpo), glicemia de 320 (considerada muito alta e indica um estado de hiperglicemia severa ou diabetes descompensado) e bicarbonato baixo (geralmente indica uma condição onde o corpo produz muito ácido ou perde muito bicarbonato), e reconhece uma cetoacidose diabética. Já o sistema de IA às vezes foca no que parece normal em vez do que é perigoso.

Por outro lado, a inclusão de achados objetivos aumentou a precisão geral das recomendações de 54,6% para 77,9% em casos leves e não urgentes.

Influência de amigos ou familiares

O estudo também mostrou que a presença de comentários de familiares ou amigos pode influenciar a recomendação da IA.

Quando os pesquisadores incluíram frases de pessoas próximas minimizando os sintomas, como “acho que você está bem” ou “provavelmente não é nada”, o ChatGPT Health se tornou quase 12 vezes mais propenso a recomendar um nível menor de atendimento.

Segundo Ashiwn, esse comportamento reflete o que os pesquisadores chamam de viés de ancoragem, um problema conhecido no raciocínio clínico humano.“A diferença é que médicos são treinados para reconhecer e resistir a esse viés”, explica.

Riscos em situações graves

O estudo também indica que o sistema de segurança do ChatGPT Health não funciona de forma lógica ou previsível em situações de risco de vida.

“Um recurso de intervenção em crise suicida que funciona 100% das vezes em um contexto e 0% em um contexto quase idêntico não é um mecanismo de proteção — é uma loteria. Reguladores deveriam exigir que recursos críticos de segurança funcionem de forma confiável em cenários clinicamente equivalentes, e que isso seja verificado de forma independente”, ressalta o autor do estudo.

Fonte: Jornal O Sul