Introdução
Modelos de aprendizado de máquina podem cometer erros e ser difíceis de usar, por isso, cientistas desenvolveram métodos de explicação para ajudar os usuários a entender quando e como confiar nas previsões de um modelo.
O desafio das explicações complexas
Essas explicações são frequentemente complexas, muitas vezes contendo informações sobre centenas de características do modelo. Elas podem ser apresentadas como visualizações multifacetadas que são difíceis de compreender para usuários sem experiência em aprendizado de máquina.
Transformando explicações em linguagem comum
Para ajudar as pessoas a entenderem as explicações da IA, pesquisadores do MIT usaram grandes modelos de linguagem (LLMs) para transformar explicações baseadas em gráficos em linguagem comum.
Desenvolveram um sistema em duas partes que converte uma explicação de aprendizado de máquina em um parágrafo de texto legível e, em seguida, avalia automaticamente a qualidade da narrativa, para que o usuário final saiba se pode confiar nela.
Com alguns exemplos de explicações, os pesquisadores podem personalizar as descrições narrativas para atender às preferências dos usuários ou aos requisitos de aplicações específicas.
O objetivo a longo prazo
No longo prazo, os pesquisadores esperam aprimorar essa técnica, permitindo que os usuários façam perguntas de acompanhamento a um modelo sobre como ele chegou a determinadas previsões em cenários do mundo real.
“Nosso objetivo com esta pesquisa foi dar o primeiro passo para permitir que os usuários tenham conversas completas com modelos de aprendizado de máquina sobre as razões pelas quais eles fizeram certas previsões, para que possam tomar melhores decisões sobre se devem ou não ouvir o modelo”, diz Alexandra Zytek, estudante de pós-graduação em engenharia elétrica e ciência da computação (EECS) e autora principal de um artigo sobre essa técnica.
Explicações Elucidativas
Os pesquisadores focaram em um tipo popular de explicação de aprendizado de máquina chamado SHAP. Em uma explicação SHAP, um valor é atribuído a cada característica que o modelo usa para fazer uma previsão. Por exemplo, se um modelo prevê preços de casas, uma característica pode ser a localização da casa. A localização receberia um valor positivo ou negativo que representa quanto essa característica modificou a previsão geral do modelo.
Frequentemente, as explicações SHAP são apresentadas como gráficos de barras que mostram quais características são mais ou menos importantes. Mas para um modelo com mais de 100 características, esse gráfico de barras rapidamente se torna difícil de manejar.
A Solução: EXPLINGO
O sistema desenvolvido, chamado EXPLINGO, é dividido em duas partes que trabalham juntas. A primeira parte, chamada NARRADOR, usa um LLM para criar descrições narrativas de explicações SHAP que atendem às preferências dos usuários. Ao alimentar inicialmente o NARRADOR com três a cinco exemplos escritos de explicações narrativas, o LLM imitará esse estilo ao gerar texto.
Depois que o NARRADOR cria uma explicação em linguagem simples, o segundo componente, AVALIADOR, usa um LLM para avaliar a narrativa em quatro métricas: concisão, precisão, completude e fluência.
Analisando Narrativas
Para testar o sistema, os pesquisadores utilizaram nove conjuntos de dados de aprendizado de máquina com explicações e diferentes usuários escreveram narrativas para cada conjunto. Isso permitiu avaliar a capacidade do NARRADOR de imitar estilos únicos. Eles usaram o AVALIADOR para pontuar cada explicação narrativa em todas as quatro métricas.
Ao final, os pesquisadores descobriram que seu sistema poderia gerar explicações narrativas de alta qualidade e imitar diferentes estilos de escrita de forma eficaz.
Com base nesses resultados, os pesquisadores querem explorar técnicas que possam ajudar seu sistema a lidar melhor com palavras comparativas. Eles também querem expandir o EXPLINGO adicionando racionalização às explicações.
No longo prazo, esperam usar este trabalho como um trampolim para um sistema interativo onde o usuário pode fazer perguntas de acompanhamento a um modelo sobre uma explicação.