Notícias

Estudo revela por que modelos de IA que analisam imagens médicas podem ser tendenciosos

Publicidade - continue a ler a seguir

imagens médicas

Crédito: Unsplash/CC0 Public Domain

Os modelos de inteligência artificial frequentemente desempenham um papel nos diagnósticos médicos, especialmente quando se trata de análise de imagens como raios-X. No entanto, estudos descobriram que estes modelos nem sempre apresentam um bom desempenho em todos os grupos demográficos, geralmente com pior desempenho nas mulheres e nas pessoas de cor.

Esses modelos também demonstraram desenvolver algumas habilidades surpreendentes. Em 2022, pesquisadores do MIT relataram que modelos de IA podem fazer previsões precisas sobre a raça de um paciente a partir de seus raios X de tórax — algo que os radiologistas mais habilidosos não conseguem fazer.

Essa equipa de investigação descobriu agora que os modelos mais precisos na realização de previsões demográficas também mostram as maiores “lacunas de justiça” – isto é, discrepâncias na sua capacidade de diagnosticar com precisão imagens de pessoas de diferentes raças ou géneros. As descobertas sugerem que estes modelos podem estar a utilizar “atalhos demográficos” ao fazer as suas avaliações diagnósticas, o que leva a resultados incorretos para mulheres, negros e outros grupos, dizem os investigadores.

“Está bem estabelecido que modelos de aprendizado de máquina de alta capacidade são bons preditores de demografia humana, como raça, sexo ou idade autodeclarados. Este artigo demonstra novamente essa capacidade e, em seguida, vincula essa capacidade à falta de desempenho em diferentes grupos, o que nunca foi feito”, diz Marzyeh Ghassemi, professora associada de engenharia elétrica e ciência da computação do MIT, membro do Instituto de Engenharia Médica e Ciência do MIT e autora sênior do estudo.

Publicidade - continue a ler a seguir

Os pesquisadores também descobriram que poderiam retreinar os modelos de uma forma que melhorasse sua imparcialidade. No entanto, a sua abordagem à “eliminação” funcionou melhor quando os modelos foram testados nos mesmos tipos de pacientes para os quais foram treinados, como pacientes do mesmo hospital. Quando estes modelos foram aplicados a pacientes de diferentes hospitais, as lacunas de justiça reapareceram.

“Acho que as principais conclusões são, primeiro, que você deve avaliar cuidadosamente quaisquer modelos externos em seus próprios dados, porque quaisquer garantias de imparcialidade que os desenvolvedores de modelos fornecem em seus dados de treinamento podem não ser transferidas para sua população. Segundo, sempre que dados suficientes estiverem disponíveis, você deve treinar modelos em seus próprios dados”, diz Haoran Zhang, um estudante de pós-graduação do MIT e um dos principais autores do novo artigo.

O estudante de pós-graduação do MIT, Yuzhe Yang, também é o autor principal do artigo, que aparecerá em Medicina da Natureza. Judy Gichoya, professora associada de radiologia e ciências de imagem na Emory University School of Medicine, e Dina Katabi, professora Thuan e Nicole Pham de Engenharia Elétrica e Ciência da Computação no MIT, também são autoras do artigo.

Removendo o preconceito

Em maio de 2024, o FDA aprovou 882 dispositivos médicos habilitados para IA, com 671 deles projetados para serem usados ​​em radiologia. Desde 2022, quando Ghassemi e seus colegas mostraram que esses modelos de diagnóstico podem prever com precisão a raça, eles e outros pesquisadores mostraram que esses modelos também são muito bons em prever gênero e idade, mesmo que os modelos não sejam treinados nessas tarefas.

“Muitos modelos populares de aprendizado de máquina têm capacidade de previsão demográfica sobre-humana — radiologistas não conseguem detectar raça auto-relatada em um raio-X de tórax”, diz Ghassemi. “Esses são modelos que são bons em prever doenças, mas durante o treinamento estão aprendendo a prever outras coisas que podem não ser desejáveis.”

Neste estudo, os pesquisadores decidiram explorar por que esses modelos não funcionam tão bem para determinados grupos. Em particular, queriam ver se os modelos utilizavam atalhos demográficos para fazer previsões que acabavam por ser menos precisas para alguns grupos. Estes atalhos podem surgir em modelos de IA quando utilizam atributos demográficos para determinar se uma condição médica está presente, em vez de depender de outras características das imagens.

Usando conjuntos de dados de radiografias de tórax disponíveis publicamente do Beth Israel Deaconess Medical Center, em Boston, os pesquisadores treinaram modelos para prever se os pacientes tinham uma de três condições médicas diferentes: acúmulo de líquido nos pulmões, colapso pulmonar ou aumento do coração. Em seguida, eles testaram os modelos em raios X retirados dos dados de treinamento.

No geral, os modelos tiveram um bom desempenho, mas a maioria deles apresentou “lacunas de imparcialidade”, ou seja, discrepâncias entre as taxas de precisão para homens e mulheres, e para pacientes brancos e negros.

Os modelos também foram capazes de prever o sexo, a raça e a idade dos indivíduos radiografados. Além disso, houve uma correlação significativa entre a precisão de cada modelo na realização de previsões demográficas e o tamanho da sua lacuna de justiça. Isto sugere que os modelos podem estar a utilizar categorizações demográficas como um atalho para fazer as suas previsões de doenças.

Os investigadores tentaram então reduzir as lacunas de justiça utilizando dois tipos de estratégias. Para um conjunto de modelos, eles treinaram-nos para otimizar a “robustez do subgrupo”, o que significa que os modelos são recompensados ​​por terem melhor desempenho no subgrupo para o qual têm o pior desempenho, e penalizados se a sua taxa de erro para um grupo for superior à outros.

Num outro conjunto de modelos, os investigadores forçaram-nos a remover qualquer informação demográfica das imagens, utilizando abordagens de “grupo adversário”. Ambas as estratégias funcionaram bastante bem, descobriram os pesquisadores.

“Para dados em distribuição, você pode usar métodos de última geração existentes para reduzir lacunas de justiça sem fazer concessões significativas no desempenho geral”, diz Ghassemi. “Métodos de robustez de subgrupo forçam os modelos a serem sensíveis à previsão incorreta de um grupo específico, e métodos adversários de grupo tentam remover informações de grupo completamente.”

Nem sempre é mais justo

No entanto, essas abordagens só funcionaram quando os modelos foram testados em dados dos mesmos tipos de pacientes com os quais foram treinados — por exemplo, apenas pacientes do conjunto de dados do Beth Israel Deaconess Medical Center.

Quando os investigadores testaram os modelos que tinham sido “desviados” utilizando os dados do BIDMC para analisar pacientes de outros cinco conjuntos de dados hospitalares, descobriram que a precisão global dos modelos permanecia elevada, mas alguns deles exibiam grandes lacunas de imparcialidade.

“Se você desviar o modelo em um conjunto de pacientes, essa justiça não será necessariamente válida quando você mudar para um novo conjunto de pacientes de um hospital diferente em um local diferente”, diz Zhang.

Isso é preocupante porque, em muitos casos, os hospitais usam modelos que foram desenvolvidos com base em dados de outros hospitais, especialmente nos casos em que é adquirido um modelo pronto para uso, dizem os pesquisadores.

“Descobrimos que mesmo os modelos de última geração que apresentam desempenho ideal em dados semelhantes aos seus conjuntos de treinamento não são ideais – isto é, eles não fazem a melhor compensação entre o desempenho geral e de subgrupo – em novos ambientes, “, diz Ghassemi. “Infelizmente, é assim que um modelo provavelmente será implantado. A maioria dos modelos é treinada e validada com dados de um hospital, ou de uma fonte, e depois amplamente implantada.”

Os pesquisadores descobriram que os modelos que foram desviados usando abordagens adversárias de grupo mostraram um pouco mais de justiça quando testados em novos grupos de pacientes do que aqueles que foram desviados com métodos de robustez de subgrupos. Eles agora planejam tentar desenvolver e testar métodos adicionais para ver se conseguem criar modelos que façam um trabalho melhor ao fazer previsões justas em novos conjuntos de dados.

As descobertas sugerem que os hospitais que usam esses tipos de modelos de IA devem avaliá-los em sua própria população de pacientes antes de começar a usá-los, para garantir que não estejam fornecendo resultados imprecisos para determinados grupos.

Mais Informações:
Os limites da IA ​​de imagens médicas justas na generalização do mundo real, Medicina Natural (2024). DOI: 10.1038/s41591-024-03113-4

Fornecido pelo Instituto de Tecnologia de Massachusetts

Citação: Estudo revela por que os modelos de IA que analisam imagens médicas podem ser tendenciosos (2024, 28 de junho) recuperado em 28 de junho de 2024 em https://medicalxpress.com/news/2024-06-reveals-ai-medical-images-biased.html

Este documento está sujeito a direitos autorais. Além de qualquer negociação justa para fins de estudo ou pesquisa privada, nenhuma parte pode ser reproduzida sem permissão por escrito. O conteúdo é fornecido apenas para fins informativos.

Looks like you have blocked notifications!

Segue as Notícias da Comunidade PortalEnf e fica atualizado.(clica aqui)

Seja membro da PortalEnf 




Portalenf Comunidade de Saúde

A PortalEnf é um Portal de Saúde on-line que tem por objectivo divulgar tutoriais e notícias sobre a Saúde e a Enfermagem de forma a promover o conhecimento entre os seus membros.

Artigos Relacionados

Deixe um comentário

Publicidade - continue a ler a seguir
Botão Voltar ao Topo
Send this to a friend