ChatGPT supera médicos estagiários na avaliação de doenças respiratórias complexas em crianças
O chatbot ChatGPT teve um desempenho melhor do que médicos em treinamento na avaliação de casos complexos de doenças respiratórias em áreas como fibrose cística, asma e infecções torácicas em um estudo apresentado no Congresso da Sociedade Respiratória Europeia (ERS) em Viena, Áustria.
O estudo também mostrou que o chatbot Bard, do Google, teve um desempenho melhor do que os estagiários em alguns aspectos, e o chatbot Bing, da Microsoft, teve um desempenho tão bom quanto o dos estagiários.
A pesquisa sugere que esses grandes modelos de linguagem (LLMs) podem ser usados para ajudar médicos, enfermeiros e clínicos gerais em treinamento a triar pacientes mais rapidamente e aliviar a pressão sobre os serviços de saúde.
O estudo foi apresentado pelo Dr. Manjith Narayanan, consultor em pneumologia pediátrica no Royal Hospital for Children and Young People, Edimburgo, e palestrante clínico sênior honorário na Universidade de Edimburgo, Reino Unido. Ele disse: “Modelos de linguagem grande como o ChatGPT ganharam destaque no último ano e meio com sua capacidade de aparentemente entender a linguagem natural e fornecer respostas que podem simular adequadamente uma conversa semelhante à humana. Essas ferramentas têm várias aplicações potenciais na medicina. Minha motivação para realizar esta pesquisa foi avaliar o quão bem os LLMs são capazes de auxiliar os clínicos na vida real.”
Para investigar isso, o Dr. Narayanan usou cenários clínicos que ocorrem frequentemente em medicina respiratória pediátrica. Os cenários foram fornecidos por seis outros especialistas em medicina respiratória pediátrica e cobriram tópicos como fibrose cística, asma, distúrbios respiratórios do sono, falta de ar e infecções torácicas. Todos eram cenários onde não há diagnóstico óbvio e onde não há evidências publicadas, diretrizes ou consenso de especialistas que apontem para um diagnóstico ou plano específico.
Dez médicos estagiários com menos de quatro meses de experiência clínica em pediatria receberam uma hora em que puderam usar a internet, mas não chatbots, para resolver cada cenário com uma resposta descritiva de 200 a 400 palavras. Cada cenário também foi apresentado aos três chatbots.
Todas as respostas foram pontuadas por seis especialistas respiratórios pediátricos quanto à correção, abrangência, utilidade, plausibilidade e coerência. Eles também foram solicitados a dizer se achavam que cada resposta era gerada por humanos ou chatbots e a dar a cada resposta uma pontuação geral de nove.
As soluções fornecidas pelo ChatGPT versão 3.5 pontuaram uma média de sete de nove no geral e foram consideradas mais humanas do que as respostas dos outros chatbots. O Bard pontuou uma média de seis de nove e foi pontuado como mais “coerente” do que os médicos estagiários, mas em outros aspectos não foi melhor nem pior do que os médicos estagiários. O Bing pontuou uma média de quatro de nove — o mesmo que os médicos estagiários no geral. Os especialistas identificaram de forma confiável as respostas do Bing e do Bard como não humanas.
O Dr. Narayanan disse: “Nosso estudo é o primeiro, até onde sabemos, a testar LLMs contra médicos estagiários em situações que refletem a prática clínica da vida real. Fizemos isso permitindo que os médicos estagiários tivessem acesso total aos recursos disponíveis na internet, como fariam na vida real. Isso afasta o foco do teste de memória, onde há uma vantagem clara para LLMs. Portanto, este estudo nos mostra outra maneira pela qual poderíamos usar LLMs e o quão próximos estamos da aplicação clínica regular do dia a dia.
“Não testamos diretamente como os LLMs funcionariam em funções de atendimento ao paciente. No entanto, eles poderiam ser usados por enfermeiros de triagem, médicos estagiários e médicos de atenção primária, que geralmente são os primeiros a avaliar um paciente.”
Os pesquisadores não encontraram nenhum caso óbvio de “alucinações” (informações aparentemente inventadas) em nenhum dos três LLMs.
“Embora em nosso estudo não tenhamos visto nenhuma instância de alucinação por LLMs, precisamos estar cientes dessa possibilidade e construir mitigações contra isso”, acrescentou o Dr. Narayanan. Respostas que foram julgadas irrelevantes para o contexto foram ocasionalmente dadas por Bing, Bard e os médicos estagiários.
O Dr. Narayanan e seus colegas agora estão planejando testar chatbots com médicos mais experientes e analisar LLMs mais novos e avançados.
Hilary Pinnock é presidente do ERS Education Council e professora de Medicina Respiratória de Atenção Primária na Universidade de Edimburgo, Reino Unido, e não estava envolvida na pesquisa. Ela diz: “Este é um estudo fascinante. É encorajador, mas talvez também um pouco assustador, ver como uma ferramenta de IA amplamente disponível como o ChatGPT pode fornecer soluções para casos complexos de doenças respiratórias em crianças. Certamente aponta o caminho para um admirável mundo novo de cuidados com suporte de IA.
“No entanto, como os pesquisadores apontam, antes de começarmos a usar IA na prática clínica de rotina, precisamos estar confiantes de que ela não criará erros por meio de informações falsas ‘alucinantes’ ou porque foi treinada em dados que não representam equitativamente a população que atendemos. Como os pesquisadores demonstraram, a IA promete uma nova maneira de trabalhar, mas precisamos de testes extensivos de precisão e segurança clínicas, avaliação pragmática da eficiência organizacional e exploração das implicações sociais antes de incorporarmos essa tecnologia no atendimento de rotina.”
Mais informações:
Resumo n.º: OA2762 “Cenários clínicos em pneumologia pediátrica: modelos de linguagem ampla podem se sair melhor do que médicos em treinamento?”, por Manjith Narayanan et al; Apresentado na sessão “Cuidados respiratórios na era digital: aplicações inovadoras e suas evidências” das 09h30 às 10h45 CEST na segunda-feira, 9 de setembro de 2024. [k4.ersnet.org/prod/v2/Front/Pr … ?e=549&session=17916]
Fornecido pela Sociedade Respiratória Europeia
Citação: ChatGPT supera médicos em treinamento na avaliação de doenças respiratórias complexas em crianças (2024, 8 de setembro) recuperado em 9 de setembro de 2024 de https://medicalxpress.com/news/2024-09-chatgpt-outperforms-trainee-doctors-complex.html
Este documento está sujeito a direitos autorais. Além de qualquer uso justo para fins de estudo ou pesquisa privada, nenhuma parte pode ser reproduzida sem permissão por escrito. O conteúdo é fornecido apenas para fins informativos.