Notícias

Novo teste avalia as habilidades de comunicação dos médicos de IA no mundo real

Publicidade - continue a ler a seguir

Medicaid

Crédito: Unsplash/CC0 Domínio Público

Ferramentas de inteligência artificial, como o ChatGPT, têm sido elogiadas pela sua promessa de aliviar a carga de trabalho dos médicos, através da triagem de pacientes, da obtenção de históricos médicos e até do fornecimento de diagnósticos preliminares.

Estas ferramentas, conhecidas como modelos de linguagem grande, já estão a ser utilizadas pelos pacientes para dar sentido aos seus sintomas e resultados de exames médicos.

Mas embora estes modelos de IA tenham um desempenho impressionante em testes médicos padronizados, quão bem se saem em situações que imitam mais de perto o mundo real?

Não é tão bom assim, de acordo com as descobertas de um novo estudo liderado por pesquisadores da Harvard Medical School e da Universidade de Stanford.

Para sua análise, publicada em 2 de janeiro em Medicina da Naturezaos pesquisadores projetaram uma estrutura de avaliação – ou um teste – chamada CRAFT-MD (Estrutura de Avaliação de Raciocínio Conversacional para Testes em Medicina) e a implantaram em quatro modelos de linguagem grande para ver o desempenho deles em ambientes que imitam de perto as interações reais com os pacientes.

Todos os quatro modelos de linguagem ampla tiveram um bom desempenho em questões do tipo exame médico, mas seu desempenho piorou quando envolvidos em conversas que imitavam mais de perto as interações do mundo real.

Esta lacuna, disseram os investigadores, sublinha uma necessidade dupla: primeiro, criar avaliações mais realistas que avaliem melhor a adequação dos modelos clínicos de IA para utilização no mundo real e, segundo, melhorar a capacidade destas ferramentas para fazer diagnósticos. baseados em interações mais realistas antes de serem implantados na clínica.

Ferramentas de avaliação como o CRAFT-MD, disse a equipe de pesquisa, podem não apenas avaliar modelos de IA com mais precisão para o condicionamento físico no mundo real, mas também ajudar a otimizar seu desempenho na clínica.

“Nosso trabalho revela um paradoxo impressionante: embora esses modelos de IA sejam excelentes nos exames do conselho médico, eles enfrentam dificuldades com as idas e vindas básicas de uma consulta médica”, disse o autor sênior do estudo, Pranav Rajpurkar, professor assistente de informática biomédica na Harvard Medical School. .

“A natureza dinâmica das conversas médicas – a necessidade de fazer as perguntas certas no momento certo, de reunir informações dispersas e de raciocinar através dos sintomas – apresenta desafios únicos que vão muito além de responder a perguntas de múltipla escolha. Quando mudamos de testes padronizados a essas conversas naturais, mesmo os modelos de IA mais sofisticados mostram quedas significativas na precisão do diagnóstico.”

Um teste melhor para verificar o desempenho da IA ​​no mundo real

Neste momento, os desenvolvedores testam o desempenho dos modelos de IA pedindo-lhes que respondam a questões médicas de múltipla escolha, normalmente derivadas do exame nacional para estudantes de medicina ou de testes aplicados a residentes médicos como parte de sua certificação.

“Essa abordagem pressupõe que todas as informações relevantes sejam apresentadas de forma clara e concisa, muitas vezes com terminologia médica ou palavras-chave que simplificam o processo de diagnóstico, mas no mundo real esse processo é muito mais confuso”, disse o coautor do estudo, Shreya Johri, estudante de doutorado. no Laboratório Rajpurkar da Harvard Medical School.

“Precisamos de uma estrutura de testes que reflita melhor a realidade e seja, portanto, melhor para prever o desempenho de um modelo.”

O CRAFT-MD foi projetado para ser um medidor mais realista.

Para simular interações do mundo real, o CRAFT-MD avalia quão bem os modelos de linguagem ampla podem coletar informações sobre sintomas, medicamentos e histórico familiar e, em seguida, fazer um diagnóstico. Um agente de IA é usado para se passar por paciente, respondendo a perguntas em um estilo coloquial e natural.

Outro agente de IA avalia a precisão do diagnóstico final fornecido pelo modelo de linguagem grande. Os especialistas humanos avaliam então os resultados de cada encontro quanto à capacidade de reunir informações relevantes do paciente, à precisão do diagnóstico quando apresentadas informações dispersas e à adesão às instruções.

Os pesquisadores usaram o CRAFT-MD para testar quatro modelos de IA – proprietários ou comerciais e de código aberto – para desempenho em 2.000 vinhetas clínicas apresentando condições comuns na atenção primária e em 12 especialidades médicas.

Todos os modelos de IA mostraram limitações, particularmente na capacidade de conduzir conversas clínicas e raciocinar com base nas informações fornecidas pelos pacientes. Isso, por sua vez, comprometeu a sua capacidade de obter históricos médicos e fazer diagnósticos apropriados. Por exemplo, os modelos muitas vezes tiveram dificuldade em fazer as perguntas certas para reunir o histórico pertinente do paciente, perderam informações críticas durante a obtenção do histórico e tiveram dificuldade em sintetizar informações dispersas.

A precisão destes modelos diminuiu quando foram apresentadas informações abertas em vez de respostas de múltipla escolha. Esses modelos também tiveram pior desempenho quando envolvidos em trocas de ida e volta – como acontece com a maioria das conversas do mundo real – em vez de quando envolvidos em conversas resumidas.

Recomendações para otimizar o desempenho da IA ​​no mundo real

Com base nessas descobertas, a equipe oferece um conjunto de recomendações tanto para desenvolvedores de IA que projetam modelos de IA quanto para reguladores encarregados de avaliar e aprovar essas ferramentas.

Estes incluem:

  • Uso de perguntas abertas e conversacionais que refletem com mais precisão as interações não estruturadas médico-paciente no projeto, treinamento e teste de ferramentas de IA
  • Avaliar modelos quanto à sua capacidade de fazer as perguntas certas e extrair as informações mais essenciais
  • Projetar modelos capazes de acompanhar múltiplas conversas e integrar informações delas
  • Projetar modelos de IA capazes de integrar dados textuais (notas de conversas) e dados não textuais (imagens, eletrocardiogramas)
  • Projetar agentes de IA mais sofisticados que possam interpretar sinais não-verbais, como expressões faciais, tom e linguagem corporal

Além disso, a avaliação deve incluir tanto agentes de IA como especialistas humanos, recomendam os investigadores, porque depender apenas de especialistas humanos é trabalhoso e dispendioso. Por exemplo, o CRAFT-MD ultrapassou os avaliadores humanos, processando 10.000 conversas em 48 a 72 horas, além de 15 a 16 horas de avaliação especializada.

Em contraste, as abordagens baseadas em humanos exigiriam um recrutamento extensivo e uma estimativa de 500 horas para simulações de pacientes (quase três minutos por conversa) e cerca de 650 horas para avaliações de especialistas (quase quatro minutos por conversa). Usar avaliadores de IA como primeira linha tem a vantagem adicional de eliminar o risco de expor pacientes reais a ferramentas de IA não verificadas.

Os pesquisadores disseram esperar que o próprio CRAFT-MD também seja atualizado e otimizado periodicamente para integrar modelos aprimorados de IA de pacientes.

“Como médico cientista, estou interessado em modelos de IA que possam aumentar a prática clínica de forma eficaz e ética”, disse a coautora sênior do estudo Roxana Daneshjou, professora assistente de Ciência de Dados Biomédicos e Dermatologia na Universidade de Stanford.

“O CRAFT-MD cria uma estrutura que reflete mais de perto as interações do mundo real e, portanto, ajuda a avançar no campo quando se trata de testar o desempenho do modelo de IA na área da saúde.”

Mais informações:
Uma estrutura de avaliação para uso clínico de grandes modelos de linguagem em tarefas de interação com pacientes, Medicina da Natureza (2024). DOI: 10.1038/s41591-024-03328-5

Fornecido pela Escola Médica de Harvard

Citação: Novo teste avalia as habilidades de comunicação dos médicos de IA no mundo real (2025, 2 de janeiro) recuperado em 2 de janeiro de 2025 em https://medicalxpress.com/news/2024-12-ai-doctors-real-world-communication.html

Este documento está sujeito a direitos autorais. Além de qualquer negociação justa para fins de estudo ou pesquisa privada, nenhuma parte pode ser reproduzida sem permissão por escrito. O conteúdo é fornecido apenas para fins informativos.

Looks like you have blocked notifications!

Seja membro da PortalEnf 




Portalenf Comunidade de Saúde

A PortalEnf é um Portal de Saúde on-line que tem por objectivo divulgar tutoriais e notícias sobre a Saúde e a Enfermagem de forma a promover o conhecimento entre os seus membros.

Artigos Relacionados

Deixe um comentário

Publicidade - continue a ler a seguir
Botão Voltar ao Topo