Como a IA decifra sinais neurais para ajudar um homem com ELA a falar
Interfaces cérebro-computador são uma tecnologia inovadora que pode ajudar pessoas paralisadas a recuperar funções que perderam, como mover uma mão. Esses dispositivos registram sinais do cérebro e decifram a ação pretendida pelo usuário, ignorando nervos danificados ou degradados que normalmente transmitiriam esses sinais cerebrais para controlar os músculos.
Desde 2006, demonstrações de interfaces cérebro-computador em humanos têm se concentrado principalmente em restaurar movimentos de braços e mãos, permitindo que as pessoas controlem cursores de computador ou braços robóticos. Recentemente, pesquisadores começaram a desenvolver interfaces cérebro-computador de fala para restaurar a comunicação de pessoas que não conseguem falar.
Conforme o usuário tenta falar, essas interfaces cérebro-computador registram os sinais cerebrais exclusivos da pessoa associados a tentativas de movimentos musculares para falar e então os traduzem em palavras. Essas palavras podem então ser exibidas como texto em uma tela ou faladas em voz alta usando software de conversão de texto em fala.
Sou pesquisador no Laboratório de Neuroprótese da Universidade da Califórnia, em Davis, que faz parte do ensaio clínico BrainGate2.
Meus colegas e eu demonstramos recentemente uma interface cérebro-computador de fala que decifra a tentativa de fala de um homem com ELA, ou esclerose lateral amiotrófica, também conhecida como doença de Lou Gehrig. A interface converte sinais neurais em texto com mais de 97% de precisão. A chave para o nosso sistema é um conjunto de modelos de linguagem de inteligência artificial — redes neurais artificiais que ajudam a interpretar os naturais.
Gravando sinais cerebrais
O primeiro passo em nossa interface cérebro-computador de fala é registrar sinais cerebrais. Existem várias fontes de sinais cerebrais, algumas das quais exigem cirurgia para registrar. Dispositivos de gravação implantados cirurgicamente podem capturar sinais cerebrais de alta qualidade porque são colocados mais perto dos neurônios, resultando em sinais mais fortes com menos interferência. Esses dispositivos de gravação neural incluem grades de eletrodos colocados na superfície do cérebro ou eletrodos implantados diretamente no tecido cerebral.
Em nosso estudo, usamos conjuntos de eletrodos colocados cirurgicamente no córtex motor da fala, a parte do cérebro que controla os músculos relacionados à fala, do participante, Casey Harrell. Registramos a atividade neural de 256 eletrodos enquanto Harrell tentava falar.
Decodificando sinais cerebrais
O próximo desafio é relacionar os sinais cerebrais complexos às palavras que o usuário está tentando dizer.
Uma abordagem é mapear padrões de atividade neural diretamente para palavras faladas. Este método requer o registro de sinais cerebrais correspondentes a cada palavra várias vezes para identificar a relação média entre atividade neural e palavras específicas.
Embora essa estratégia funcione bem para vocabulários pequenos, como demonstrado em um estudo de 2021 com um vocabulário de 50 palavras, ela se torna impraticável para vocabulários maiores. Imagine pedir ao usuário da interface cérebro-computador para tentar dizer cada palavra do dicionário várias vezes — isso pode levar meses, e ainda não funcionaria para palavras novas.
Em vez disso, usamos uma estratégia alternativa: mapear sinais cerebrais para fonemas, as unidades básicas de som que compõem as palavras. Em inglês, há 39 fonemas, incluindo ch, er, oo, pl e sh, que podem ser combinados para formar qualquer palavra.
Podemos medir a atividade neural associada a cada fonema várias vezes apenas pedindo ao participante para ler algumas frases em voz alta. Ao mapear com precisão a atividade neural para fonemas, podemos montá-los em qualquer palavra em inglês, mesmo aquelas com as quais o sistema não foi explicitamente treinado.
Para mapear sinais cerebrais para fonemas, usamos modelos avançados de aprendizado de máquina. Esses modelos são particularmente adequados para essa tarefa devido à sua capacidade de encontrar padrões em grandes quantidades de dados complexos que seriam impossíveis para humanos discernirem.
Pense nesses modelos como ouvintes superinteligentes que podem captar informações importantes de sinais cerebrais ruidosos, assim como você pode se concentrar em uma conversa em uma sala lotada. Usando esses modelos, fomos capazes de decifrar sequências de fonemas durante a tentativa de fala com mais de 90% de precisão.
Dos fonemas às palavras
Uma vez que temos as sequências de fonemas decifradas, precisamos convertê-las em palavras e frases. Isso é desafiador, especialmente se a sequência de fonemas decifrada não for perfeitamente precisa. Para resolver esse quebra-cabeça, usamos dois tipos complementares de modelos de linguagem de aprendizado de máquina.
O primeiro são os modelos de linguagem n-gram, que preveem qual palavra tem mais probabilidade de seguir um conjunto de “n” palavras. Treinamos um modelo de linguagem de 5-gram, ou cinco palavras, em milhões de frases para prever a probabilidade de uma palavra com base nas quatro palavras anteriores, capturando o contexto local e frases comuns. Por exemplo, depois de “I am very good”, ele pode sugerir “today” como mais provável do que “potato”.
Usando esse modelo, convertemos nossas sequências de fonemas nas 100 sequências de palavras mais prováveis, cada uma com uma probabilidade associada.
O segundo são os grandes modelos de linguagem, que alimentam os chatbots de IA e também preveem quais palavras provavelmente seguem outras. Usamos grandes modelos de linguagem para refinar nossas escolhas. Esses modelos, treinados em grandes quantidades de texto diverso, têm uma compreensão mais ampla da estrutura e do significado da linguagem. Eles nos ajudam a determinar qual das nossas 100 frases candidatas faz mais sentido em um contexto mais amplo.
Ao equilibrar cuidadosamente as probabilidades do modelo n-gram, do modelo de linguagem grande e de nossas previsões iniciais de fonemas, podemos fazer um palpite altamente fundamentado sobre o que o usuário da interface cérebro-computador está tentando dizer. Esse processo de várias etapas nos permite lidar com as incertezas na decodificação de fonemas e produzir sentenças coerentes e contextualmente apropriadas.
Benefícios no mundo real
Na prática, essa estratégia de decodificação de fala tem sido notavelmente bem-sucedida. Nós permitimos que Casey Harrell, um homem com ELA, “fale” com mais de 97% de precisão usando apenas seus pensamentos. Esse avanço permite que ele converse facilmente com sua família e amigos pela primeira vez em anos, tudo no conforto de sua própria casa.
Interfaces cérebro-computador de fala representam um passo significativo à frente na restauração da comunicação. À medida que continuamos a refinar esses dispositivos, eles trazem a promessa de dar voz àqueles que perderam a capacidade de falar, reconectando-os com seus entes queridos e o mundo ao redor deles.
No entanto, desafios permanecem, como tornar a tecnologia mais acessível, portátil e durável ao longo de anos de uso. Apesar desses obstáculos, as interfaces cérebro-computador de fala são um exemplo poderoso de como a ciência e a tecnologia podem se unir para resolver problemas complexos e melhorar drasticamente a vida das pessoas.
Fornecido por The Conversation
Este artigo foi republicado do The Conversation sob uma licença Creative Commons. Leia o artigo original.
Citação: De pensamentos a palavras: como a IA decifra sinais neurais para ajudar um homem com ELA a falar (2024, 24 de agosto) recuperado em 24 de agosto de 2024 de https://medicalxpress.com/news/2024-08-thoughts-words-ai-deciphers-neural.html
Este documento está sujeito a direitos autorais. Além de qualquer uso justo para fins de estudo ou pesquisa privada, nenhuma parte pode ser reproduzida sem permissão por escrito. O conteúdo é fornecido apenas para fins informativos.